Evaluating transfer learning for classification of proteins in bioinformatics

Autores
Vitale, Rosario; Stegmayer, Georgina
Año de publicación
2023
Idioma
inglés
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Este estudio presenta una solución para mejorar significativamente la clasificación de proteínas en familias o dominios utilizando transfer learning. Con más de 229 millones de proteínas en UniProtKB, solo el 0.25% de ellas han sido anotadas y clasificadas en más de 17,000 familias posibles. Recientemente, aparecieron modelos de aprendizaje profundo (DL) para esta tarea. Sin embargo, los modelos requieren grandes cantidades de datos para el entrenamiento, y la mayoría de las familias tienen solamente algunos ejemplos. Para abordar este problema, proponemos la aplicación de Transfer Learning (TL). Este enfoque implica un aprendizaje auto supervisado en conjuntos de datos grandes y no etiquetados para generar un vector numérico para cada entrada. Esta representación aprendida se puede usar con aprendizaje supervisado en un conjunto de datos pequeño y etiquetado para una tarea de clasificación específica. Los resultados logrados en este estudio indican que el uso de TL para la clasificación de familias de proteínas puede reducir el error de predicción en un 55% en comparación con los métodos estándar y en un 32% en comparación con los modelos de DL con representaciones de entrada simples, como la codificación one hot. Este estudio demuestra que el TL es una técnica efectiva y prometedora para mejorar la clasificación y anotación de proteínas en bases de datos grandes pero no anotadas.
This study presents a solution to significantly improve protein classification into families or domains using transfer learning. With more than 229 million proteins in UniProtKB, only 0.25% of them have been annotated and classified into over 17,000 possible families. Recently, deep learning (DL) models appeared for this task. However, DL models require large amounts of data for training, and most protein families have just a few examples. To tackle this issue, we propose the application of Transfer Learning (TL) to the classification problem. The TL approach involves self-supervised learning on large and unlabeled datasets to generate a numerical embedding for each data point. This representation learned can then be used with supervised learning on a small, labeled dataset for a specific classification task. The results achieved in this study indicate that using TL for protein families classification can reduce the prediction error by 55% compared to standard methods and by 32% compared to DL models with simple input representations such as one-hot encoding. This study demonstrates that transfer learning is an effective and promising technique to improve protein classification and annotation in large and yet un-annotated databases.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Machine learning
Transfer learning
Classification
Protein family
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/165928

id SEDICI_e3df55f50592b7e3b4b591a573cca6a1
oai_identifier_str oai:sedici.unlp.edu.ar:10915/165928
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Evaluating transfer learning for classification of proteins in bioinformaticsVitale, RosarioStegmayer, GeorginaCiencias InformáticasMachine learningTransfer learningClassificationProtein familyEste estudio presenta una solución para mejorar significativamente la clasificación de proteínas en familias o dominios utilizando transfer learning. Con más de 229 millones de proteínas en UniProtKB, solo el 0.25% de ellas han sido anotadas y clasificadas en más de 17,000 familias posibles. Recientemente, aparecieron modelos de aprendizaje profundo (DL) para esta tarea. Sin embargo, los modelos requieren grandes cantidades de datos para el entrenamiento, y la mayoría de las familias tienen solamente algunos ejemplos. Para abordar este problema, proponemos la aplicación de Transfer Learning (TL). Este enfoque implica un aprendizaje auto supervisado en conjuntos de datos grandes y no etiquetados para generar un vector numérico para cada entrada. Esta representación aprendida se puede usar con aprendizaje supervisado en un conjunto de datos pequeño y etiquetado para una tarea de clasificación específica. Los resultados logrados en este estudio indican que el uso de TL para la clasificación de familias de proteínas puede reducir el error de predicción en un 55% en comparación con los métodos estándar y en un 32% en comparación con los modelos de DL con representaciones de entrada simples, como la codificación one hot. Este estudio demuestra que el TL es una técnica efectiva y prometedora para mejorar la clasificación y anotación de proteínas en bases de datos grandes pero no anotadas.This study presents a solution to significantly improve protein classification into families or domains using transfer learning. With more than 229 million proteins in UniProtKB, only 0.25% of them have been annotated and classified into over 17,000 possible families. Recently, deep learning (DL) models appeared for this task. However, DL models require large amounts of data for training, and most protein families have just a few examples. To tackle this issue, we propose the application of Transfer Learning (TL) to the classification problem. The TL approach involves self-supervised learning on large and unlabeled datasets to generate a numerical embedding for each data point. This representation learned can then be used with supervised learning on a small, labeled dataset for a specific classification task. The results achieved in this study indicate that using TL for protein families classification can reduce the prediction error by 55% compared to standard methods and by 32% compared to DL models with simple input representations such as one-hot encoding. This study demonstrates that transfer learning is an effective and promising technique to improve protein classification and annotation in large and yet un-annotated databases.Sociedad Argentina de Informática e Investigación Operativa2023-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf25-36http://sedici.unlp.edu.ar/handle/10915/165928enginfo:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/636info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:43:55Zoai:sedici.unlp.edu.ar:10915/165928Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:43:55.951SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Evaluating transfer learning for classification of proteins in bioinformatics
title Evaluating transfer learning for classification of proteins in bioinformatics
spellingShingle Evaluating transfer learning for classification of proteins in bioinformatics
Vitale, Rosario
Ciencias Informáticas
Machine learning
Transfer learning
Classification
Protein family
title_short Evaluating transfer learning for classification of proteins in bioinformatics
title_full Evaluating transfer learning for classification of proteins in bioinformatics
title_fullStr Evaluating transfer learning for classification of proteins in bioinformatics
title_full_unstemmed Evaluating transfer learning for classification of proteins in bioinformatics
title_sort Evaluating transfer learning for classification of proteins in bioinformatics
dc.creator.none.fl_str_mv Vitale, Rosario
Stegmayer, Georgina
author Vitale, Rosario
author_facet Vitale, Rosario
Stegmayer, Georgina
author_role author
author2 Stegmayer, Georgina
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
Machine learning
Transfer learning
Classification
Protein family
topic Ciencias Informáticas
Machine learning
Transfer learning
Classification
Protein family
dc.description.none.fl_txt_mv Este estudio presenta una solución para mejorar significativamente la clasificación de proteínas en familias o dominios utilizando transfer learning. Con más de 229 millones de proteínas en UniProtKB, solo el 0.25% de ellas han sido anotadas y clasificadas en más de 17,000 familias posibles. Recientemente, aparecieron modelos de aprendizaje profundo (DL) para esta tarea. Sin embargo, los modelos requieren grandes cantidades de datos para el entrenamiento, y la mayoría de las familias tienen solamente algunos ejemplos. Para abordar este problema, proponemos la aplicación de Transfer Learning (TL). Este enfoque implica un aprendizaje auto supervisado en conjuntos de datos grandes y no etiquetados para generar un vector numérico para cada entrada. Esta representación aprendida se puede usar con aprendizaje supervisado en un conjunto de datos pequeño y etiquetado para una tarea de clasificación específica. Los resultados logrados en este estudio indican que el uso de TL para la clasificación de familias de proteínas puede reducir el error de predicción en un 55% en comparación con los métodos estándar y en un 32% en comparación con los modelos de DL con representaciones de entrada simples, como la codificación one hot. Este estudio demuestra que el TL es una técnica efectiva y prometedora para mejorar la clasificación y anotación de proteínas en bases de datos grandes pero no anotadas.
This study presents a solution to significantly improve protein classification into families or domains using transfer learning. With more than 229 million proteins in UniProtKB, only 0.25% of them have been annotated and classified into over 17,000 possible families. Recently, deep learning (DL) models appeared for this task. However, DL models require large amounts of data for training, and most protein families have just a few examples. To tackle this issue, we propose the application of Transfer Learning (TL) to the classification problem. The TL approach involves self-supervised learning on large and unlabeled datasets to generate a numerical embedding for each data point. This representation learned can then be used with supervised learning on a small, labeled dataset for a specific classification task. The results achieved in this study indicate that using TL for protein families classification can reduce the prediction error by 55% compared to standard methods and by 32% compared to DL models with simple input representations such as one-hot encoding. This study demonstrates that transfer learning is an effective and promising technique to improve protein classification and annotation in large and yet un-annotated databases.
Sociedad Argentina de Informática e Investigación Operativa
description Este estudio presenta una solución para mejorar significativamente la clasificación de proteínas en familias o dominios utilizando transfer learning. Con más de 229 millones de proteínas en UniProtKB, solo el 0.25% de ellas han sido anotadas y clasificadas en más de 17,000 familias posibles. Recientemente, aparecieron modelos de aprendizaje profundo (DL) para esta tarea. Sin embargo, los modelos requieren grandes cantidades de datos para el entrenamiento, y la mayoría de las familias tienen solamente algunos ejemplos. Para abordar este problema, proponemos la aplicación de Transfer Learning (TL). Este enfoque implica un aprendizaje auto supervisado en conjuntos de datos grandes y no etiquetados para generar un vector numérico para cada entrada. Esta representación aprendida se puede usar con aprendizaje supervisado en un conjunto de datos pequeño y etiquetado para una tarea de clasificación específica. Los resultados logrados en este estudio indican que el uso de TL para la clasificación de familias de proteínas puede reducir el error de predicción en un 55% en comparación con los métodos estándar y en un 32% en comparación con los modelos de DL con representaciones de entrada simples, como la codificación one hot. Este estudio demuestra que el TL es una técnica efectiva y prometedora para mejorar la clasificación y anotación de proteínas en bases de datos grandes pero no anotadas.
publishDate 2023
dc.date.none.fl_str_mv 2023-09
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/165928
url http://sedici.unlp.edu.ar/handle/10915/165928
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/view/636
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
25-36
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616306905579520
score 13.069144