An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
- Autores
- Machaca Arceda, Vicente Enrique
- Año de publicación
- 2020
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Viral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs.
La clasificación de subtipos de virus es muy importante para el diagnóstico y tratamiento de enfermedades. Las herramientas más utilizadas dependen de algoritmos basados en alineamiento, sin embargo, estos métodos, se están volviendo muy lentos con el crecimiento de información. Por esta razón, están emergiendo nuevos métodos no basados en alineamiento. En este trabajo, se han analizado cuatro algoritmos no basados en alineamiento: dos de ellos, se basan en las frecuencias de k-mer (Kameris y Castor-KRFE); el tercer método utiliza a frequency chaos game representation del ADN junto con CNNs; el ultimo método, procesa el ADN como si fuera una señal digital (ML-DSP). Kameris y Castor-KRFE obtuvieron los mejores resultados seguidos por el método basado en CNNs.
Facultad de Informática - Materia
-
Ciencias Informáticas
CNN
Genome
Viral subtyping
k-mer
Kameris
Castor
ML-DSP
Genoma
Subtipos de virus - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/108009
Ver los metadatos del registro completo
| id |
SEDICI_efdb467322706651b102b49488dff82b |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/108009 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classificationUn análisis de atributos de frecuencia de k-mer con SVM y CNN para la clasificación de subtipos de virusMachaca Arceda, Vicente EnriqueCiencias InformáticasCNNGenomeViral subtypingk-merKamerisCastorML-DSPGenomaSubtipos de virusViral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs.La clasificación de subtipos de virus es muy importante para el diagnóstico y tratamiento de enfermedades. Las herramientas más utilizadas dependen de algoritmos basados en alineamiento, sin embargo, estos métodos, se están volviendo muy lentos con el crecimiento de información. Por esta razón, están emergiendo nuevos métodos no basados en alineamiento. En este trabajo, se han analizado cuatro algoritmos no basados en alineamiento: dos de ellos, se basan en las frecuencias de k-mer (Kameris y Castor-KRFE); el tercer método utiliza a frequency chaos game representation del ADN junto con CNNs; el ultimo método, procesa el ADN como si fuera una señal digital (ML-DSP). Kameris y Castor-KRFE obtuvieron los mejores resultados seguidos por el método basado en CNNs.Facultad de Informática2020-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf99-107http://sedici.unlp.edu.ar/handle/10915/108009enginfo:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.20.e11info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc/4.0/Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-22T17:05:25Zoai:sedici.unlp.edu.ar:10915/108009Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-22 17:05:25.576SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification Un análisis de atributos de frecuencia de k-mer con SVM y CNN para la clasificación de subtipos de virus |
| title |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification |
| spellingShingle |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification Machaca Arceda, Vicente Enrique Ciencias Informáticas CNN Genome Viral subtyping k-mer Kameris Castor ML-DSP Genoma Subtipos de virus |
| title_short |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification |
| title_full |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification |
| title_fullStr |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification |
| title_full_unstemmed |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification |
| title_sort |
An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification |
| dc.creator.none.fl_str_mv |
Machaca Arceda, Vicente Enrique |
| author |
Machaca Arceda, Vicente Enrique |
| author_facet |
Machaca Arceda, Vicente Enrique |
| author_role |
author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas CNN Genome Viral subtyping k-mer Kameris Castor ML-DSP Genoma Subtipos de virus |
| topic |
Ciencias Informáticas CNN Genome Viral subtyping k-mer Kameris Castor ML-DSP Genoma Subtipos de virus |
| dc.description.none.fl_txt_mv |
Viral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs. La clasificación de subtipos de virus es muy importante para el diagnóstico y tratamiento de enfermedades. Las herramientas más utilizadas dependen de algoritmos basados en alineamiento, sin embargo, estos métodos, se están volviendo muy lentos con el crecimiento de información. Por esta razón, están emergiendo nuevos métodos no basados en alineamiento. En este trabajo, se han analizado cuatro algoritmos no basados en alineamiento: dos de ellos, se basan en las frecuencias de k-mer (Kameris y Castor-KRFE); el tercer método utiliza a frequency chaos game representation del ADN junto con CNNs; el ultimo método, procesa el ADN como si fuera una señal digital (ML-DSP). Kameris y Castor-KRFE obtuvieron los mejores resultados seguidos por el método basado en CNNs. Facultad de Informática |
| description |
Viral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs. |
| publishDate |
2020 |
| dc.date.none.fl_str_mv |
2020-10 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Articulo http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/108009 |
| url |
http://sedici.unlp.edu.ar/handle/10915/108009 |
| dc.language.none.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/issn/1666-6038 info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.20.e11 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc/4.0/ Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc/4.0/ Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) |
| dc.format.none.fl_str_mv |
application/pdf 99-107 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1846783335234273280 |
| score |
12.982451 |