Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues

Autores
Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen
Año de publicación
2024
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance.
Fil: Amalfitano, Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica. Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica; Argentina
Fil: Stocchi, Nicolas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
Fil: Atencio, Hugo Marcelo. Instituto Nacional de Tecnología Agropecuaria. Centro Regional Buenos Aires Sur. Estación Experimental Agropecuaria Balcarce; Argentina
Fil: Villarreal, Fernando Daniel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
Fil: Ten Have, Arjen. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
Materia
Sequence analysis
Sequence mining
Clustering
Bioinformatics
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-nd/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/266803

id CONICETDig_ba4271a1ed498bfa4755e2ff6f11d81a
oai_identifier_str oai:ri.conicet.gov.ar:11336/266803
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologuesAmalfitano, AgustínStocchi, NicolasAtencio, Hugo MarceloVillarreal, Fernando DanielTen Have, ArjenSequence analysisSequence miningClusteringBioinformaticshttps://purl.org/becyt/ford/1.6https://purl.org/becyt/ford/1Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance.Fil: Amalfitano, Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica. Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica; ArgentinaFil: Stocchi, Nicolas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; ArgentinaFil: Atencio, Hugo Marcelo. Instituto Nacional de Tecnología Agropecuaria. Centro Regional Buenos Aires Sur. Estación Experimental Agropecuaria Balcarce; ArgentinaFil: Villarreal, Fernando Daniel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; ArgentinaFil: Ten Have, Arjen. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; ArgentinaBioMed Central2024-08info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/266803Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen; Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues; BioMed Central; Genome Biology; 25; 1; 8-2024; 1-231474-760XCONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03371-yinfo:eu-repo/semantics/altIdentifier/doi/10.1186/s13059-024-03371-yinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-nd/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T10:41:15Zoai:ri.conicet.gov.ar:11336/266803instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 10:41:15.6CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
title Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
spellingShingle Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
Amalfitano, Agustín
Sequence analysis
Sequence mining
Clustering
Bioinformatics
title_short Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
title_full Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
title_fullStr Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
title_full_unstemmed Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
title_sort Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
dc.creator.none.fl_str_mv Amalfitano, Agustín
Stocchi, Nicolas
Atencio, Hugo Marcelo
Villarreal, Fernando Daniel
Ten Have, Arjen
author Amalfitano, Agustín
author_facet Amalfitano, Agustín
Stocchi, Nicolas
Atencio, Hugo Marcelo
Villarreal, Fernando Daniel
Ten Have, Arjen
author_role author
author2 Stocchi, Nicolas
Atencio, Hugo Marcelo
Villarreal, Fernando Daniel
Ten Have, Arjen
author2_role author
author
author
author
dc.subject.none.fl_str_mv Sequence analysis
Sequence mining
Clustering
Bioinformatics
topic Sequence analysis
Sequence mining
Clustering
Bioinformatics
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.6
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance.
Fil: Amalfitano, Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica. Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica; Argentina
Fil: Stocchi, Nicolas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
Fil: Atencio, Hugo Marcelo. Instituto Nacional de Tecnología Agropecuaria. Centro Regional Buenos Aires Sur. Estación Experimental Agropecuaria Balcarce; Argentina
Fil: Villarreal, Fernando Daniel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
Fil: Ten Have, Arjen. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
description Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance.
publishDate 2024
dc.date.none.fl_str_mv 2024-08
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/266803
Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen; Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues; BioMed Central; Genome Biology; 25; 1; 8-2024; 1-23
1474-760X
CONICET Digital
CONICET
url http://hdl.handle.net/11336/266803
identifier_str_mv Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen; Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues; BioMed Central; Genome Biology; 25; 1; 8-2024; 1-23
1474-760X
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03371-y
info:eu-repo/semantics/altIdentifier/doi/10.1186/s13059-024-03371-y
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-nd/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
dc.publisher.none.fl_str_mv BioMed Central
publisher.none.fl_str_mv BioMed Central
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844614442828955648
score 13.070432