An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification

Autores
Machaca Arceda, Vicente Enrique
Año de publicación
2020
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Viral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs.
La clasificación de subtipos de virus es muy importante para el diagnóstico y tratamiento de enfermedades. Las herramientas más utilizadas dependen de algoritmos basados en alineamiento, sin embargo, estos métodos, se están volviendo muy lentos con el crecimiento de información. Por esta razón, están emergiendo nuevos métodos no basados en alineamiento. En este trabajo, se han analizado cuatro algoritmos no basados en alineamiento: dos de ellos, se basan en las frecuencias de k-mer (Kameris y Castor-KRFE); el tercer método utiliza a frequency chaos game representation del ADN junto con CNNs; el ultimo método, procesa el ADN como si fuera una señal digital (ML-DSP). Kameris y Castor-KRFE obtuvieron los mejores resultados seguidos por el método basado en CNNs.
Facultad de Informática
Materia
Ciencias Informáticas
CNN
Genome
Viral subtyping
k-mer
Kameris
Castor
ML-DSP
Genoma
Subtipos de virus
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/108009

id SEDICI_efdb467322706651b102b49488dff82b
oai_identifier_str oai:sedici.unlp.edu.ar:10915/108009
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling An analysis of k-mer frequency features with SVM and CNN for viral subtyping classificationUn análisis de atributos de frecuencia de k-mer con SVM y CNN para la clasificación de subtipos de virusMachaca Arceda, Vicente EnriqueCiencias InformáticasCNNGenomeViral subtypingk-merKamerisCastorML-DSPGenomaSubtipos de virusViral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs.La clasificación de subtipos de virus es muy importante para el diagnóstico y tratamiento de enfermedades. Las herramientas más utilizadas dependen de algoritmos basados en alineamiento, sin embargo, estos métodos, se están volviendo muy lentos con el crecimiento de información. Por esta razón, están emergiendo nuevos métodos no basados en alineamiento. En este trabajo, se han analizado cuatro algoritmos no basados en alineamiento: dos de ellos, se basan en las frecuencias de k-mer (Kameris y Castor-KRFE); el tercer método utiliza a frequency chaos game representation del ADN junto con CNNs; el ultimo método, procesa el ADN como si fuera una señal digital (ML-DSP). Kameris y Castor-KRFE obtuvieron los mejores resultados seguidos por el método basado en CNNs.Facultad de Informática2020-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf99-107http://sedici.unlp.edu.ar/handle/10915/108009enginfo:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.20.e11info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc/4.0/Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-22T17:05:25Zoai:sedici.unlp.edu.ar:10915/108009Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-22 17:05:25.576SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
Un análisis de atributos de frecuencia de k-mer con SVM y CNN para la clasificación de subtipos de virus
title An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
spellingShingle An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
Machaca Arceda, Vicente Enrique
Ciencias Informáticas
CNN
Genome
Viral subtyping
k-mer
Kameris
Castor
ML-DSP
Genoma
Subtipos de virus
title_short An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
title_full An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
title_fullStr An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
title_full_unstemmed An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
title_sort An analysis of k-mer frequency features with SVM and CNN for viral subtyping classification
dc.creator.none.fl_str_mv Machaca Arceda, Vicente Enrique
author Machaca Arceda, Vicente Enrique
author_facet Machaca Arceda, Vicente Enrique
author_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
CNN
Genome
Viral subtyping
k-mer
Kameris
Castor
ML-DSP
Genoma
Subtipos de virus
topic Ciencias Informáticas
CNN
Genome
Viral subtyping
k-mer
Kameris
Castor
ML-DSP
Genoma
Subtipos de virus
dc.description.none.fl_txt_mv Viral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs.
La clasificación de subtipos de virus es muy importante para el diagnóstico y tratamiento de enfermedades. Las herramientas más utilizadas dependen de algoritmos basados en alineamiento, sin embargo, estos métodos, se están volviendo muy lentos con el crecimiento de información. Por esta razón, están emergiendo nuevos métodos no basados en alineamiento. En este trabajo, se han analizado cuatro algoritmos no basados en alineamiento: dos de ellos, se basan en las frecuencias de k-mer (Kameris y Castor-KRFE); el tercer método utiliza a frequency chaos game representation del ADN junto con CNNs; el ultimo método, procesa el ADN como si fuera una señal digital (ML-DSP). Kameris y Castor-KRFE obtuvieron los mejores resultados seguidos por el método basado en CNNs.
Facultad de Informática
description Viral subtyping classification is very relevant for the appropriate diagnosis and treatment of illnesses. The most used tools are based on alignment-based methods, nevertheless, they are becoming too slow due to the increase of genomic data; for that reason, alignmentfree methods have emerged as an alternative. In this work, we analyzed four alignment-free algorithms: two methods use k-mer frequencies (Kameris and Castor-KRFE); the third method used a frequency chaos game representation of a DNA with CNNs; and the last one processes DNA sequences as a digital signal (ML-DSP). From the comparison, Kameris and Castor-KRFE outperformed the rest, followed by the method based on CNNs.
publishDate 2020
dc.date.none.fl_str_mv 2020-10
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Articulo
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/108009
url http://sedici.unlp.edu.ar/handle/10915/108009
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/issn/1666-6038
info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.20.e11
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc/4.0/
Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc/4.0/
Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
dc.format.none.fl_str_mv application/pdf
99-107
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1846783335234273280
score 12.982451