Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues
- Autores
- Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen
- Año de publicación
- 2024
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance.
Fil: Amalfitano, Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica. Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica; Argentina
Fil: Stocchi, Nicolas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
Fil: Atencio, Hugo Marcelo. Instituto Nacional de Tecnología Agropecuaria. Centro Regional Buenos Aires Sur. Estación Experimental Agropecuaria Balcarce; Argentina
Fil: Villarreal, Fernando Daniel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina
Fil: Ten Have, Arjen. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina - Materia
-
Sequence analysis
Sequence mining
Clustering
Bioinformatics - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-nd/2.5/ar/
- Repositorio
- Institución
- Consejo Nacional de Investigaciones Científicas y Técnicas
- OAI Identificador
- oai:ri.conicet.gov.ar:11336/266803
Ver los metadatos del registro completo
id |
CONICETDig_ba4271a1ed498bfa4755e2ff6f11d81a |
---|---|
oai_identifier_str |
oai:ri.conicet.gov.ar:11336/266803 |
network_acronym_str |
CONICETDig |
repository_id_str |
3498 |
network_name_str |
CONICET Digital (CONICET) |
spelling |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologuesAmalfitano, AgustínStocchi, NicolasAtencio, Hugo MarceloVillarreal, Fernando DanielTen Have, ArjenSequence analysisSequence miningClusteringBioinformaticshttps://purl.org/becyt/ford/1.6https://purl.org/becyt/ford/1Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance.Fil: Amalfitano, Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica. Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica; ArgentinaFil: Stocchi, Nicolas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; ArgentinaFil: Atencio, Hugo Marcelo. Instituto Nacional de Tecnología Agropecuaria. Centro Regional Buenos Aires Sur. Estación Experimental Agropecuaria Balcarce; ArgentinaFil: Villarreal, Fernando Daniel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; ArgentinaFil: Ten Have, Arjen. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; ArgentinaBioMed Central2024-08info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/266803Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen; Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues; BioMed Central; Genome Biology; 25; 1; 8-2024; 1-231474-760XCONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03371-yinfo:eu-repo/semantics/altIdentifier/doi/10.1186/s13059-024-03371-yinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-nd/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T10:41:15Zoai:ri.conicet.gov.ar:11336/266803instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 10:41:15.6CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse |
dc.title.none.fl_str_mv |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues |
title |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues |
spellingShingle |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues Amalfitano, Agustín Sequence analysis Sequence mining Clustering Bioinformatics |
title_short |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues |
title_full |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues |
title_fullStr |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues |
title_full_unstemmed |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues |
title_sort |
Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues |
dc.creator.none.fl_str_mv |
Amalfitano, Agustín Stocchi, Nicolas Atencio, Hugo Marcelo Villarreal, Fernando Daniel Ten Have, Arjen |
author |
Amalfitano, Agustín |
author_facet |
Amalfitano, Agustín Stocchi, Nicolas Atencio, Hugo Marcelo Villarreal, Fernando Daniel Ten Have, Arjen |
author_role |
author |
author2 |
Stocchi, Nicolas Atencio, Hugo Marcelo Villarreal, Fernando Daniel Ten Have, Arjen |
author2_role |
author author author author |
dc.subject.none.fl_str_mv |
Sequence analysis Sequence mining Clustering Bioinformatics |
topic |
Sequence analysis Sequence mining Clustering Bioinformatics |
purl_subject.fl_str_mv |
https://purl.org/becyt/ford/1.6 https://purl.org/becyt/ford/1 |
dc.description.none.fl_txt_mv |
Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance. Fil: Amalfitano, Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica. Universidad Nacional de Mar del Plata. Facultad de Ingeniería. Instituto de Investigaciones Científicas y Tecnológicas en Electrónica; Argentina Fil: Stocchi, Nicolas. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina Fil: Atencio, Hugo Marcelo. Instituto Nacional de Tecnología Agropecuaria. Centro Regional Buenos Aires Sur. Estación Experimental Agropecuaria Balcarce; Argentina Fil: Villarreal, Fernando Daniel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina Fil: Ten Have, Arjen. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Mar del Plata. Instituto de Investigaciones Biológicas. Universidad Nacional de Mar del Plata. Facultad de Ciencias Exactas y Naturales. Instituto de Investigaciones Biológicas; Argentina |
description |
Seqrutinator is an objective, flexible pipeline that removes sequences with sequencing and/or gene model errors and sequences from pseudogenes from complex, eukaryotic protein superfamilies. Testing Seqrutinator on major superfamilies BAHD, CYP, and UGT removes only 1.94% of SwissProt entries, 14% of entries from the model plant Arabidopsis thaliana, but 80% of entries from Pinus taeda’s recent complete proteome. Application of Seqrutinator on crude BAHDomes, CYPomes, and UGTomes obtained from 16 plant proteomes shows convergence of the numbers of paralogues. MSAs, phylogenies, and particularly functional clustering improve drastically upon Seqrutinator application, indicating good performance. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-08 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11336/266803 Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen; Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues; BioMed Central; Genome Biology; 25; 1; 8-2024; 1-23 1474-760X CONICET Digital CONICET |
url |
http://hdl.handle.net/11336/266803 |
identifier_str_mv |
Amalfitano, Agustín; Stocchi, Nicolas; Atencio, Hugo Marcelo; Villarreal, Fernando Daniel; Ten Have, Arjen; Seqrutinator: scrutiny of large protein superfamily sequence datasets for the identification and elimination of non-functional homologues; BioMed Central; Genome Biology; 25; 1; 8-2024; 1-23 1474-760X CONICET Digital CONICET |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03371-y info:eu-repo/semantics/altIdentifier/doi/10.1186/s13059-024-03371-y |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-nd/2.5/ar/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-nd/2.5/ar/ |
dc.format.none.fl_str_mv |
application/pdf application/pdf application/pdf |
dc.publisher.none.fl_str_mv |
BioMed Central |
publisher.none.fl_str_mv |
BioMed Central |
dc.source.none.fl_str_mv |
reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas |
reponame_str |
CONICET Digital (CONICET) |
collection |
CONICET Digital (CONICET) |
instname_str |
Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.name.fl_str_mv |
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.mail.fl_str_mv |
dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar |
_version_ |
1844614442828955648 |
score |
13.070432 |