Multi-objective feature selection in QSAR using a machine learning approach

Autores
Soto, Axel Juan; Cecchini, Rocío Luján; Vazquez, Gustavo Esteban; Ponzoni, Ignacio
Año de publicación
2009
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
The selection of descriptor subsets for QSAR/QSPR is a hard combinatorial problem that requires the evaluation of complex relationships in order to assess the relevance of the selected subsets. In this paper, we describe the main issues in applying descriptor selection for QSAR methods and propose a novel two-phase methodology for this task. The first phase makes use of a multi-objective evolutionary technique which yields interesting advantages compared to mono-objective methods. The second phase complements the first one and it enables to refine and improve the confidence in the chosen subsets of descriptors. This methodology allows the selection of subsets when a large number of descriptors are involved and it is also suitable for linear and nonlinear QSAR/QSPR models. The proposed method was tested using three data sets with experimental values for blood-brain barrier penetration, human intestinal absorption and hydrophobicity. Results reveal the capability of the method for achieving subsets of descriptors with a high predictive capacity and a low cardinality. Therefore, our proposal constitutes a new promising technique helpful for the development of QSAR/QSPR models.
Fil: Soto, Axel Juan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Planta Piloto de Ingeniería Química. Universidad Nacional del Sur. Planta Piloto de Ingeniería Química; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina
Fil: Cecchini, Rocío Luján. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina
Fil: Vazquez, Gustavo Esteban. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina
Fil: Ponzoni, Ignacio. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Planta Piloto de Ingeniería Química. Universidad Nacional del Sur. Planta Piloto de Ingeniería Química; Argentina
Materia
Bayesian Regularized Neural Networks
Computational Chemistry
Descriptor Selection
Medicinal Chemistry
Multi-Objective Evolutionary Algorithms
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/59424

id CONICETDig_1ccc6f58f2569e65b7c3ca04dd57d5ba
oai_identifier_str oai:ri.conicet.gov.ar:11336/59424
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Multi-objective feature selection in QSAR using a machine learning approachSoto, Axel JuanCecchini, Rocío LujánVazquez, Gustavo EstebanPonzoni, IgnacioBayesian Regularized Neural NetworksComputational ChemistryDescriptor SelectionMedicinal ChemistryMulti-Objective Evolutionary Algorithmshttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1The selection of descriptor subsets for QSAR/QSPR is a hard combinatorial problem that requires the evaluation of complex relationships in order to assess the relevance of the selected subsets. In this paper, we describe the main issues in applying descriptor selection for QSAR methods and propose a novel two-phase methodology for this task. The first phase makes use of a multi-objective evolutionary technique which yields interesting advantages compared to mono-objective methods. The second phase complements the first one and it enables to refine and improve the confidence in the chosen subsets of descriptors. This methodology allows the selection of subsets when a large number of descriptors are involved and it is also suitable for linear and nonlinear QSAR/QSPR models. The proposed method was tested using three data sets with experimental values for blood-brain barrier penetration, human intestinal absorption and hydrophobicity. Results reveal the capability of the method for achieving subsets of descriptors with a high predictive capacity and a low cardinality. Therefore, our proposal constitutes a new promising technique helpful for the development of QSAR/QSPR models.Fil: Soto, Axel Juan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Planta Piloto de Ingeniería Química. Universidad Nacional del Sur. Planta Piloto de Ingeniería Química; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; ArgentinaFil: Cecchini, Rocío Luján. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; ArgentinaFil: Vazquez, Gustavo Esteban. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; ArgentinaFil: Ponzoni, Ignacio. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Planta Piloto de Ingeniería Química. Universidad Nacional del Sur. Planta Piloto de Ingeniería Química; ArgentinaWiley VCH Verlag2009-12-22info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/59424Soto, Axel Juan; Cecchini, Rocío Luján; Vazquez, Gustavo Esteban; Ponzoni, Ignacio; Multi-objective feature selection in QSAR using a machine learning approach; Wiley VCH Verlag; Qsar & Combinatorial Science; 28; 11-12; 22-12-2009; 1509-15231611-020XCONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/doi/10.1002/qsar.200960053info:eu-repo/semantics/altIdentifier/url/https://onlinelibrary.wiley.com/doi/abs/10.1002/qsar.200960053info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:37:05Zoai:ri.conicet.gov.ar:11336/59424instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:37:05.906CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Multi-objective feature selection in QSAR using a machine learning approach
title Multi-objective feature selection in QSAR using a machine learning approach
spellingShingle Multi-objective feature selection in QSAR using a machine learning approach
Soto, Axel Juan
Bayesian Regularized Neural Networks
Computational Chemistry
Descriptor Selection
Medicinal Chemistry
Multi-Objective Evolutionary Algorithms
title_short Multi-objective feature selection in QSAR using a machine learning approach
title_full Multi-objective feature selection in QSAR using a machine learning approach
title_fullStr Multi-objective feature selection in QSAR using a machine learning approach
title_full_unstemmed Multi-objective feature selection in QSAR using a machine learning approach
title_sort Multi-objective feature selection in QSAR using a machine learning approach
dc.creator.none.fl_str_mv Soto, Axel Juan
Cecchini, Rocío Luján
Vazquez, Gustavo Esteban
Ponzoni, Ignacio
author Soto, Axel Juan
author_facet Soto, Axel Juan
Cecchini, Rocío Luján
Vazquez, Gustavo Esteban
Ponzoni, Ignacio
author_role author
author2 Cecchini, Rocío Luján
Vazquez, Gustavo Esteban
Ponzoni, Ignacio
author2_role author
author
author
dc.subject.none.fl_str_mv Bayesian Regularized Neural Networks
Computational Chemistry
Descriptor Selection
Medicinal Chemistry
Multi-Objective Evolutionary Algorithms
topic Bayesian Regularized Neural Networks
Computational Chemistry
Descriptor Selection
Medicinal Chemistry
Multi-Objective Evolutionary Algorithms
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.2
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv The selection of descriptor subsets for QSAR/QSPR is a hard combinatorial problem that requires the evaluation of complex relationships in order to assess the relevance of the selected subsets. In this paper, we describe the main issues in applying descriptor selection for QSAR methods and propose a novel two-phase methodology for this task. The first phase makes use of a multi-objective evolutionary technique which yields interesting advantages compared to mono-objective methods. The second phase complements the first one and it enables to refine and improve the confidence in the chosen subsets of descriptors. This methodology allows the selection of subsets when a large number of descriptors are involved and it is also suitable for linear and nonlinear QSAR/QSPR models. The proposed method was tested using three data sets with experimental values for blood-brain barrier penetration, human intestinal absorption and hydrophobicity. Results reveal the capability of the method for achieving subsets of descriptors with a high predictive capacity and a low cardinality. Therefore, our proposal constitutes a new promising technique helpful for the development of QSAR/QSPR models.
Fil: Soto, Axel Juan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Planta Piloto de Ingeniería Química. Universidad Nacional del Sur. Planta Piloto de Ingeniería Química; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina
Fil: Cecchini, Rocío Luján. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina
Fil: Vazquez, Gustavo Esteban. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca; Argentina. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina
Fil: Ponzoni, Ignacio. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Laboratorio de Investigación y Desarrollo en Computación Científica; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Planta Piloto de Ingeniería Química. Universidad Nacional del Sur. Planta Piloto de Ingeniería Química; Argentina
description The selection of descriptor subsets for QSAR/QSPR is a hard combinatorial problem that requires the evaluation of complex relationships in order to assess the relevance of the selected subsets. In this paper, we describe the main issues in applying descriptor selection for QSAR methods and propose a novel two-phase methodology for this task. The first phase makes use of a multi-objective evolutionary technique which yields interesting advantages compared to mono-objective methods. The second phase complements the first one and it enables to refine and improve the confidence in the chosen subsets of descriptors. This methodology allows the selection of subsets when a large number of descriptors are involved and it is also suitable for linear and nonlinear QSAR/QSPR models. The proposed method was tested using three data sets with experimental values for blood-brain barrier penetration, human intestinal absorption and hydrophobicity. Results reveal the capability of the method for achieving subsets of descriptors with a high predictive capacity and a low cardinality. Therefore, our proposal constitutes a new promising technique helpful for the development of QSAR/QSPR models.
publishDate 2009
dc.date.none.fl_str_mv 2009-12-22
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/59424
Soto, Axel Juan; Cecchini, Rocío Luján; Vazquez, Gustavo Esteban; Ponzoni, Ignacio; Multi-objective feature selection in QSAR using a machine learning approach; Wiley VCH Verlag; Qsar & Combinatorial Science; 28; 11-12; 22-12-2009; 1509-1523
1611-020X
CONICET Digital
CONICET
url http://hdl.handle.net/11336/59424
identifier_str_mv Soto, Axel Juan; Cecchini, Rocío Luján; Vazquez, Gustavo Esteban; Ponzoni, Ignacio; Multi-objective feature selection in QSAR using a machine learning approach; Wiley VCH Verlag; Qsar & Combinatorial Science; 28; 11-12; 22-12-2009; 1509-1523
1611-020X
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/doi/10.1002/qsar.200960053
info:eu-repo/semantics/altIdentifier/url/https://onlinelibrary.wiley.com/doi/abs/10.1002/qsar.200960053
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
application/pdf
dc.publisher.none.fl_str_mv Wiley VCH Verlag
publisher.none.fl_str_mv Wiley VCH Verlag
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844613167284486144
score 13.070432