Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot

Autores
Borzone, Eugenio; Di Persia, Leandro Ezequiel; Gerard, Matías
Año de publicación
2022
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
El estudio de la similaridad entre elementos de un conjunto es un problema común en áreas tan diversas como la bioinformática, la informática química y la medicina. En el caso de compuestos químicos, para calcularla, se utilizan descriptores moleculares, como es el caso de las fingerprints, que son representaciones vectoriales de cada compuesto. En este trabajo se estudian diferentes fingerprints ampliamente utilizadas en la literatura, para identificar la más adecuada para el cálculo de similaridad. Además, se busca determinar si es posible predecir ésta similaridad a través de un modelo neuronal. Para esto se caracterizan diferentes fingerprints por su desempeño en términos de predicción de similaridad, distribución de resultados en el intervalo [0,1] y frecuencia de uso en el ámbito científico. Posteriormente, se evalúa la capacidad de un Perceptrón Multicapa (MLP) para predecir la similaridad entre compuestos representados mediante vectores one-hot. Los resultados muestran que las claves MACC proporcionan una buena distribución en los valores de similaridad. El MLP es capaz de inferir con un bajo error (aproximadamente 10% en términos absolutos) la similaridad entre compuestos empleando una representación one-hot.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Ciencias Exactas
perceptrón multi capa
fingerprints
similaridad molecular
índice de Tanimoto
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/151714

id SEDICI_728524d8134b02f40153b11e425c4c8a
oai_identifier_str oai:sedici.unlp.edu.ar:10915/151714
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hotBorzone, EugenioDi Persia, Leandro EzequielGerard, MatíasCiencias InformáticasCiencias Exactasperceptrón multi capafingerprintssimilaridad molecularíndice de TanimotoEl estudio de la similaridad entre elementos de un conjunto es un problema común en áreas tan diversas como la bioinformática, la informática química y la medicina. En el caso de compuestos químicos, para calcularla, se utilizan descriptores moleculares, como es el caso de las fingerprints, que son representaciones vectoriales de cada compuesto. En este trabajo se estudian diferentes fingerprints ampliamente utilizadas en la literatura, para identificar la más adecuada para el cálculo de similaridad. Además, se busca determinar si es posible predecir ésta similaridad a través de un modelo neuronal. Para esto se caracterizan diferentes fingerprints por su desempeño en términos de predicción de similaridad, distribución de resultados en el intervalo [0,1] y frecuencia de uso en el ámbito científico. Posteriormente, se evalúa la capacidad de un Perceptrón Multicapa (MLP) para predecir la similaridad entre compuestos representados mediante vectores one-hot. Los resultados muestran que las claves MACC proporcionan una buena distribución en los valores de similaridad. El MLP es capaz de inferir con un bajo error (aproximadamente 10% en términos absolutos) la similaridad entre compuestos empleando una representación one-hot.Sociedad Argentina de Informática e Investigación Operativa2022-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf112-124http://sedici.unlp.edu.ar/handle/10915/151714spainfo:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/download/276/227info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:39:06Zoai:sedici.unlp.edu.ar:10915/151714Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:39:06.697SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
title Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
spellingShingle Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
Borzone, Eugenio
Ciencias Informáticas
Ciencias Exactas
perceptrón multi capa
fingerprints
similaridad molecular
índice de Tanimoto
title_short Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
title_full Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
title_fullStr Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
title_full_unstemmed Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
title_sort Evaluación de un modelo neuronal para la estimación de similaridad entre compuestos a partir de representaciones one-hot
dc.creator.none.fl_str_mv Borzone, Eugenio
Di Persia, Leandro Ezequiel
Gerard, Matías
author Borzone, Eugenio
author_facet Borzone, Eugenio
Di Persia, Leandro Ezequiel
Gerard, Matías
author_role author
author2 Di Persia, Leandro Ezequiel
Gerard, Matías
author2_role author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Ciencias Exactas
perceptrón multi capa
fingerprints
similaridad molecular
índice de Tanimoto
topic Ciencias Informáticas
Ciencias Exactas
perceptrón multi capa
fingerprints
similaridad molecular
índice de Tanimoto
dc.description.none.fl_txt_mv El estudio de la similaridad entre elementos de un conjunto es un problema común en áreas tan diversas como la bioinformática, la informática química y la medicina. En el caso de compuestos químicos, para calcularla, se utilizan descriptores moleculares, como es el caso de las fingerprints, que son representaciones vectoriales de cada compuesto. En este trabajo se estudian diferentes fingerprints ampliamente utilizadas en la literatura, para identificar la más adecuada para el cálculo de similaridad. Además, se busca determinar si es posible predecir ésta similaridad a través de un modelo neuronal. Para esto se caracterizan diferentes fingerprints por su desempeño en términos de predicción de similaridad, distribución de resultados en el intervalo [0,1] y frecuencia de uso en el ámbito científico. Posteriormente, se evalúa la capacidad de un Perceptrón Multicapa (MLP) para predecir la similaridad entre compuestos representados mediante vectores one-hot. Los resultados muestran que las claves MACC proporcionan una buena distribución en los valores de similaridad. El MLP es capaz de inferir con un bajo error (aproximadamente 10% en términos absolutos) la similaridad entre compuestos empleando una representación one-hot.
Sociedad Argentina de Informática e Investigación Operativa
description El estudio de la similaridad entre elementos de un conjunto es un problema común en áreas tan diversas como la bioinformática, la informática química y la medicina. En el caso de compuestos químicos, para calcularla, se utilizan descriptores moleculares, como es el caso de las fingerprints, que son representaciones vectoriales de cada compuesto. En este trabajo se estudian diferentes fingerprints ampliamente utilizadas en la literatura, para identificar la más adecuada para el cálculo de similaridad. Además, se busca determinar si es posible predecir ésta similaridad a través de un modelo neuronal. Para esto se caracterizan diferentes fingerprints por su desempeño en términos de predicción de similaridad, distribución de resultados en el intervalo [0,1] y frecuencia de uso en el ámbito científico. Posteriormente, se evalúa la capacidad de un Perceptrón Multicapa (MLP) para predecir la similaridad entre compuestos representados mediante vectores one-hot. Los resultados muestran que las claves MACC proporcionan una buena distribución en los valores de similaridad. El MLP es capaz de inferir con un bajo error (aproximadamente 10% en términos absolutos) la similaridad entre compuestos empleando una representación one-hot.
publishDate 2022
dc.date.none.fl_str_mv 2022-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/151714
url http://sedici.unlp.edu.ar/handle/10915/151714
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://publicaciones.sadio.org.ar/index.php/JAIIO/article/download/276/227
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
112-124
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616265310666752
score 13.070432