Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis

Autores
Cortese, Iliana Julieta; Castrillo, María Lorena; Zapata, Pedro Dario; Laczeski, Margarita Ester
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Sin importar el tipo de tecnología aplicada para la secuenciación de un genoma, el filtrado de secuencias es un paso esencial, en el cual aquellas lecturas de baja calidad o parte de estas son eliminadas. En un ensamblado la construcción de un genoma se realiza a partir de la unión de lecturas cortas en cóntigos. Algunos ensambladores miden la relación que existe entre secuencias de una longitud fija (k-mer) que puede verse afectada por la presencia de secuencias de baja calidad. Un enfoque común para evaluar los ensamblados se basa en el análisis del número de cóntigos, la longitud del cóntigo más largo y el valor de N50,definido como la longitud del cóntigo que representa el 50% de la longitud del conjunto. En este contexto, el presente estudio tuvo como objetivo evaluar el efecto del uso de lecturas crudas y filtradas en los valores de los parámetros de calidad obtenidos en el ensamblado del genoma de la cepa de Bacillus altitudinis19RS3 aislada de Ilex paraguariensis. Se realizó el análisis de calidad de ambos archivos de partida con el software FastqC y se filtraron las lecturas con el software Trimmomatic. Para el ensamblado se utilizó el softwareSPAdes y para su evaluación la herramienta QUAST. El mejor ensamblado para B. altitudinis19RS3 se obtuvo a partir de las lecturas filtradas con el valor dek-mer79, que generó 16cóntigosmayores a 500 pb con un N50 de 931914 pb y el cóntigo más largo de 966271 pb.
Sequence filtering is an essential step regardless of the type of technology applied for sequencing a genome, in which low-quality readings or a portion are eliminated. In an assembly, the construction of a genome is carried out from the union of short reads in contigs. Some assemblers measure the relationship between sequences of a fixed length (k-mer) that can be affected by the presence of low-quality sequences. A common approach to evaluating assemblies is based on the analysis of the number of contigs, the length of the longest contig, and the value of N50 defined as the length of the contig representing 50 % of the length of the assembly. In this context, the objective of this study was to evaluate the effect of the use of crude and filtered reads on the values of the quality parameters obtained from the genome assembly of Bacillus altituidinis 19RS3 isolated from Ilex paraguariensis. The quality analysis of both starting files was performed with the FastqC software and the readings were filtered with the Trimmomatic software. The SPAdes software was used for the assembly and the QUAST tool for its evaluation. The best assembly for B. altitudinis 19RS3 was obtained from the filtered readings with the value of k-mer 79, which generated 16 contigs greater than 500 bp with a N50 of 931 914 bp and the longest contig of 966 271 bp.
Fil: Cortese, Iliana Julieta. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina
Fil: Castrillo, María Lorena. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina
Fil: Zapata, Pedro Dario. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina
Fil: Laczeski, Margarita Ester. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina
Materia
ANALISIS DE SECUENCIAS
BIOLOGIA COMPUTACIONAL
CONTROL DE CALIDAD
GENOMAS BACTERIANOS
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/144783

id CONICETDig_cbf1225097092c69e311a8efc2bb5509
oai_identifier_str oai:ri.conicet.gov.ar:11336/144783
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensisEffect of sequence filtering on the assembly of the bacillus altitudinis genome isolated from Ilex paraguariensisCortese, Iliana JulietaCastrillo, María LorenaZapata, Pedro DarioLaczeski, Margarita EsterANALISIS DE SECUENCIASBIOLOGIA COMPUTACIONALCONTROL DE CALIDADGENOMAS BACTERIANOShttps://purl.org/becyt/ford/1.7https://purl.org/becyt/ford/1Sin importar el tipo de tecnología aplicada para la secuenciación de un genoma, el filtrado de secuencias es un paso esencial, en el cual aquellas lecturas de baja calidad o parte de estas son eliminadas. En un ensamblado la construcción de un genoma se realiza a partir de la unión de lecturas cortas en cóntigos. Algunos ensambladores miden la relación que existe entre secuencias de una longitud fija (k-mer) que puede verse afectada por la presencia de secuencias de baja calidad. Un enfoque común para evaluar los ensamblados se basa en el análisis del número de cóntigos, la longitud del cóntigo más largo y el valor de N50,definido como la longitud del cóntigo que representa el 50% de la longitud del conjunto. En este contexto, el presente estudio tuvo como objetivo evaluar el efecto del uso de lecturas crudas y filtradas en los valores de los parámetros de calidad obtenidos en el ensamblado del genoma de la cepa de Bacillus altitudinis19RS3 aislada de Ilex paraguariensis. Se realizó el análisis de calidad de ambos archivos de partida con el software FastqC y se filtraron las lecturas con el software Trimmomatic. Para el ensamblado se utilizó el softwareSPAdes y para su evaluación la herramienta QUAST. El mejor ensamblado para B. altitudinis19RS3 se obtuvo a partir de las lecturas filtradas con el valor dek-mer79, que generó 16cóntigosmayores a 500 pb con un N50 de 931914 pb y el cóntigo más largo de 966271 pb.Sequence filtering is an essential step regardless of the type of technology applied for sequencing a genome, in which low-quality readings or a portion are eliminated. In an assembly, the construction of a genome is carried out from the union of short reads in contigs. Some assemblers measure the relationship between sequences of a fixed length (k-mer) that can be affected by the presence of low-quality sequences. A common approach to evaluating assemblies is based on the analysis of the number of contigs, the length of the longest contig, and the value of N50 defined as the length of the contig representing 50 % of the length of the assembly. In this context, the objective of this study was to evaluate the effect of the use of crude and filtered reads on the values of the quality parameters obtained from the genome assembly of Bacillus altituidinis 19RS3 isolated from Ilex paraguariensis. The quality analysis of both starting files was performed with the FastqC software and the readings were filtered with the Trimmomatic software. The SPAdes software was used for the assembly and the QUAST tool for its evaluation. The best assembly for B. altitudinis 19RS3 was obtained from the filtered readings with the value of k-mer 79, which generated 16 contigs greater than 500 bp with a N50 of 931 914 bp and the longest contig of 966 271 bp.Fil: Cortese, Iliana Julieta. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; ArgentinaFil: Castrillo, María Lorena. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; ArgentinaFil: Zapata, Pedro Dario. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; ArgentinaFil: Laczeski, Margarita Ester. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; ArgentinaUniversidad Nacional de Colombia2021-05info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/144783Cortese, Iliana Julieta; Castrillo, María Lorena; Zapata, Pedro Dario; Laczeski, Margarita Ester; Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis; Universidad Nacional de Colombia; Acta Biológica Colombiana; 26; 2; 5-2021; 170-1771900-1649CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/doi/10.15446/abc.v26n2.86406info:eu-repo/semantics/altIdentifier/url/https://revistas.unal.edu.co/index.php/actabiol/article/view/86406/77680info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-10-22T11:43:51Zoai:ri.conicet.gov.ar:11336/144783instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-10-22 11:43:51.501CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
Effect of sequence filtering on the assembly of the bacillus altitudinis genome isolated from Ilex paraguariensis
title Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
spellingShingle Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
Cortese, Iliana Julieta
ANALISIS DE SECUENCIAS
BIOLOGIA COMPUTACIONAL
CONTROL DE CALIDAD
GENOMAS BACTERIANOS
title_short Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
title_full Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
title_fullStr Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
title_full_unstemmed Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
title_sort Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis
dc.creator.none.fl_str_mv Cortese, Iliana Julieta
Castrillo, María Lorena
Zapata, Pedro Dario
Laczeski, Margarita Ester
author Cortese, Iliana Julieta
author_facet Cortese, Iliana Julieta
Castrillo, María Lorena
Zapata, Pedro Dario
Laczeski, Margarita Ester
author_role author
author2 Castrillo, María Lorena
Zapata, Pedro Dario
Laczeski, Margarita Ester
author2_role author
author
author
dc.subject.none.fl_str_mv ANALISIS DE SECUENCIAS
BIOLOGIA COMPUTACIONAL
CONTROL DE CALIDAD
GENOMAS BACTERIANOS
topic ANALISIS DE SECUENCIAS
BIOLOGIA COMPUTACIONAL
CONTROL DE CALIDAD
GENOMAS BACTERIANOS
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.7
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv Sin importar el tipo de tecnología aplicada para la secuenciación de un genoma, el filtrado de secuencias es un paso esencial, en el cual aquellas lecturas de baja calidad o parte de estas son eliminadas. En un ensamblado la construcción de un genoma se realiza a partir de la unión de lecturas cortas en cóntigos. Algunos ensambladores miden la relación que existe entre secuencias de una longitud fija (k-mer) que puede verse afectada por la presencia de secuencias de baja calidad. Un enfoque común para evaluar los ensamblados se basa en el análisis del número de cóntigos, la longitud del cóntigo más largo y el valor de N50,definido como la longitud del cóntigo que representa el 50% de la longitud del conjunto. En este contexto, el presente estudio tuvo como objetivo evaluar el efecto del uso de lecturas crudas y filtradas en los valores de los parámetros de calidad obtenidos en el ensamblado del genoma de la cepa de Bacillus altitudinis19RS3 aislada de Ilex paraguariensis. Se realizó el análisis de calidad de ambos archivos de partida con el software FastqC y se filtraron las lecturas con el software Trimmomatic. Para el ensamblado se utilizó el softwareSPAdes y para su evaluación la herramienta QUAST. El mejor ensamblado para B. altitudinis19RS3 se obtuvo a partir de las lecturas filtradas con el valor dek-mer79, que generó 16cóntigosmayores a 500 pb con un N50 de 931914 pb y el cóntigo más largo de 966271 pb.
Sequence filtering is an essential step regardless of the type of technology applied for sequencing a genome, in which low-quality readings or a portion are eliminated. In an assembly, the construction of a genome is carried out from the union of short reads in contigs. Some assemblers measure the relationship between sequences of a fixed length (k-mer) that can be affected by the presence of low-quality sequences. A common approach to evaluating assemblies is based on the analysis of the number of contigs, the length of the longest contig, and the value of N50 defined as the length of the contig representing 50 % of the length of the assembly. In this context, the objective of this study was to evaluate the effect of the use of crude and filtered reads on the values of the quality parameters obtained from the genome assembly of Bacillus altituidinis 19RS3 isolated from Ilex paraguariensis. The quality analysis of both starting files was performed with the FastqC software and the readings were filtered with the Trimmomatic software. The SPAdes software was used for the assembly and the QUAST tool for its evaluation. The best assembly for B. altitudinis 19RS3 was obtained from the filtered readings with the value of k-mer 79, which generated 16 contigs greater than 500 bp with a N50 of 931 914 bp and the longest contig of 966 271 bp.
Fil: Cortese, Iliana Julieta. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina
Fil: Castrillo, María Lorena. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina
Fil: Zapata, Pedro Dario. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina
Fil: Laczeski, Margarita Ester. Universidad Nacional de Misiones. Facultad de Ciencias Exactas Químicas y Naturales. Departamento de Bioquímica Clínica. Laboratorio de Biotecnología Molecular; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Nordeste; Argentina
description Sin importar el tipo de tecnología aplicada para la secuenciación de un genoma, el filtrado de secuencias es un paso esencial, en el cual aquellas lecturas de baja calidad o parte de estas son eliminadas. En un ensamblado la construcción de un genoma se realiza a partir de la unión de lecturas cortas en cóntigos. Algunos ensambladores miden la relación que existe entre secuencias de una longitud fija (k-mer) que puede verse afectada por la presencia de secuencias de baja calidad. Un enfoque común para evaluar los ensamblados se basa en el análisis del número de cóntigos, la longitud del cóntigo más largo y el valor de N50,definido como la longitud del cóntigo que representa el 50% de la longitud del conjunto. En este contexto, el presente estudio tuvo como objetivo evaluar el efecto del uso de lecturas crudas y filtradas en los valores de los parámetros de calidad obtenidos en el ensamblado del genoma de la cepa de Bacillus altitudinis19RS3 aislada de Ilex paraguariensis. Se realizó el análisis de calidad de ambos archivos de partida con el software FastqC y se filtraron las lecturas con el software Trimmomatic. Para el ensamblado se utilizó el softwareSPAdes y para su evaluación la herramienta QUAST. El mejor ensamblado para B. altitudinis19RS3 se obtuvo a partir de las lecturas filtradas con el valor dek-mer79, que generó 16cóntigosmayores a 500 pb con un N50 de 931914 pb y el cóntigo más largo de 966271 pb.
publishDate 2021
dc.date.none.fl_str_mv 2021-05
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/144783
Cortese, Iliana Julieta; Castrillo, María Lorena; Zapata, Pedro Dario; Laczeski, Margarita Ester; Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis; Universidad Nacional de Colombia; Acta Biológica Colombiana; 26; 2; 5-2021; 170-177
1900-1649
CONICET Digital
CONICET
url http://hdl.handle.net/11336/144783
identifier_str_mv Cortese, Iliana Julieta; Castrillo, María Lorena; Zapata, Pedro Dario; Laczeski, Margarita Ester; Efecto del filtrado de secuencias en el ensamblado del genoma de bacillus altitudinis aislado de Ilex paraguariensis; Universidad Nacional de Colombia; Acta Biológica Colombiana; 26; 2; 5-2021; 170-177
1900-1649
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/doi/10.15446/abc.v26n2.86406
info:eu-repo/semantics/altIdentifier/url/https://revistas.unal.edu.co/index.php/actabiol/article/view/86406/77680
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional de Colombia
publisher.none.fl_str_mv Universidad Nacional de Colombia
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1846782131948224512
score 12.982451