Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers

Autores
Cassol, Matheus Pedron; Lenz, Alexandre Rafael; Zacaria, Rudinei; De Avila e Silva, Scheila
Año de publicación
2022
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Fil: Cassol, Matheus Pedron. Universidade de Caxias do Sul; Brasil.
Fil: Lenz, Alexandre Rafael. Universidade de Caxias do Sul; Brasil.
Fil: Lenz, Alexandre Rafael. Universidade do Estado da Bahia; Brasil.
Fil: Zacaria, Rudinei. Universidade de Caxias do Sul; Brasil.
Fil: De Avila e Silva, Scheila. Universidade de Caxias do Sul; Brasil.
The current paper seeks to approach, using a workflow, basics subjects of the bioinformatic field and also useful informations to consider during the development of in silico researches. Installation and general usage of multiple softwares related to different sections of the genome annotation process were also presented. At last, an model organism, Staphylococcus aureus, was sequenced in two different softwares, SPAdes and IDBA-UD, seeking further comparison and evaluation of the process as a whole. The quality evaluation of the assemble was established by tests on QUAST, BUSCO and Augustus, supported by BLASTP. Results: QUAST evaluation returned genome coverage values above 98% in both test cases, pointing towards a trustworthy assemble for this organism. Via SPAdes were needed less computational resources, but, using IDBA-UD the sequences found were more contiguous. Results deriving from BUSCO showed only one expected gene difference. Some proteins and genes predicted by Augustus led to hits, sequences already studied in that organism, using the BLASTP program.
El presente trabajo trata sobre un enfoque en formato de flujo de trabajo de cuestiones básicas del área, así como información a tener en cuenta durante la elaboración de investigaciones in silico. Se centró en algunos programas de diferentes partes del proceso de ensamblaje genómico, proporcionando orientación sobre su instalación y uso. Finalmente, se secuenció un organismo modelo, Staphylococcus aureus, en dos softwares, SPAdes e IDBA-UD, para la comparación y evaluación cualitativa del resultado. La evaluación de la calidad de la secuenciación se estableció mediante pruebas en los programas QUAST, BUSCO y Augustus, con el apoyo de BLASTP. La evaluación a través de QUAST arrojó valores de integridad en relación con el genoma de referencia superiores al 98% para ambas pruebas, lo que indica un ensamblaje confiable para el organismo en cuestión. La herramienta SPAdes logró secuenciar con menor capacidad computacional, pero a través de IDBA-UD se obtuvieron secuencias más contiguas. Los resultados de BUSCO mostraron solo una diferencia genética esperada. Las proteínas y genes esperados obtenidos por Augustus provocaron aciertos a través de BLASTP, es decir, secuencias de proteínas ya estudiadas y descritas para el organismo.
O presente trabalho trata-se de uma abordagem em formato de workflow de questões base da área de bioinformática, assim como informações para se levar em consideração durante a elaboração de pesquisas in silico. Focou-se em alguns programas de diferentes partes do processo de montagem genômica, fornecendo orientações acerca de sua instalação e uso. Por fim, sequenciou-se um organismo modelo, Staphylococcus aureus, em dois softwares, SPAdes e IDBA-UD, para fins de comparação e avaliação qualitativa do resultado. A avaliação da qualidade do sequenciamento foi estabelecida por testes nos programas QUAST, BUSCO e pelo Augustus, apoiado pelo BLASTP. a avaliação via QUAST retornou valores de completude em relação ao genoma referência acima de 98% para ambos testes, indicando uma montagem confiável para o organismo em questão. Via SPAdes foi-se capaz de sequenciar com menor capacidade computacional, porém por intermédio do IDBA-UD obteve-se sequências mais contíguas. Os resultados advindos do BUSCO apresentaram apenas um gene esperado de diferença. As proteínas e genes esperados obtidos pelo Augustus suscitaram hits via BLASTP, ou seja, sequências proteicas já estudadas e descritas para o organismo.
Materia
Bioinformatic
Workflow
Assemble
Genome
Computational tools
Bioinformática
Ensamblaje
Genoma
Herramientas computacionales
Montagem
Genoma
Ferramentas computacionais
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Atribución-NoComercial-CompartirIgual 4.0 Internacional
Repositorio
Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
Institución
Universidad Nacional de Misiones
OAI Identificador
oai:rid.unam.edu.ar:20.500.12219/4358

id RIDUNaM_562d582a82d4f9e0fbf7193633e97f00
oai_identifier_str oai:rid.unam.edu.ar:20.500.12219/4358
network_acronym_str RIDUNaM
repository_id_str
network_name_str Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
spelling Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchersConfiguración de ambiente computacional para el ensamblaje y anotación de genomas : orientaciones para investigadores del ciencia de la vidaConfiguração de ambiente computacional para montagem e anotação genômica : orientações para pesquisadores da ciência da vidaCassol, Matheus PedronLenz, Alexandre RafaelZacaria, RudineiDe Avila e Silva, ScheilaBioinformaticWorkflowAssembleGenomeComputational toolsBioinformáticaEnsamblajeGenomaHerramientas computacionalesMontagemGenomaFerramentas computacionaisFil: Cassol, Matheus Pedron. Universidade de Caxias do Sul; Brasil.Fil: Lenz, Alexandre Rafael. Universidade de Caxias do Sul; Brasil.Fil: Lenz, Alexandre Rafael. Universidade do Estado da Bahia; Brasil.Fil: Zacaria, Rudinei. Universidade de Caxias do Sul; Brasil.Fil: De Avila e Silva, Scheila. Universidade de Caxias do Sul; Brasil.The current paper seeks to approach, using a workflow, basics subjects of the bioinformatic field and also useful informations to consider during the development of in silico researches. Installation and general usage of multiple softwares related to different sections of the genome annotation process were also presented. At last, an model organism, Staphylococcus aureus, was sequenced in two different softwares, SPAdes and IDBA-UD, seeking further comparison and evaluation of the process as a whole. The quality evaluation of the assemble was established by tests on QUAST, BUSCO and Augustus, supported by BLASTP. Results: QUAST evaluation returned genome coverage values above 98% in both test cases, pointing towards a trustworthy assemble for this organism. Via SPAdes were needed less computational resources, but, using IDBA-UD the sequences found were more contiguous. Results deriving from BUSCO showed only one expected gene difference. Some proteins and genes predicted by Augustus led to hits, sequences already studied in that organism, using the BLASTP program.El presente trabajo trata sobre un enfoque en formato de flujo de trabajo de cuestiones básicas del área, así como información a tener en cuenta durante la elaboración de investigaciones in silico. Se centró en algunos programas de diferentes partes del proceso de ensamblaje genómico, proporcionando orientación sobre su instalación y uso. Finalmente, se secuenció un organismo modelo, Staphylococcus aureus, en dos softwares, SPAdes e IDBA-UD, para la comparación y evaluación cualitativa del resultado. La evaluación de la calidad de la secuenciación se estableció mediante pruebas en los programas QUAST, BUSCO y Augustus, con el apoyo de BLASTP. La evaluación a través de QUAST arrojó valores de integridad en relación con el genoma de referencia superiores al 98% para ambas pruebas, lo que indica un ensamblaje confiable para el organismo en cuestión. La herramienta SPAdes logró secuenciar con menor capacidad computacional, pero a través de IDBA-UD se obtuvieron secuencias más contiguas. Los resultados de BUSCO mostraron solo una diferencia genética esperada. Las proteínas y genes esperados obtenidos por Augustus provocaron aciertos a través de BLASTP, es decir, secuencias de proteínas ya estudiadas y descritas para el organismo.O presente trabalho trata-se de uma abordagem em formato de workflow de questões base da área de bioinformática, assim como informações para se levar em consideração durante a elaboração de pesquisas in silico. Focou-se em alguns programas de diferentes partes do processo de montagem genômica, fornecendo orientações acerca de sua instalação e uso. Por fim, sequenciou-se um organismo modelo, Staphylococcus aureus, em dois softwares, SPAdes e IDBA-UD, para fins de comparação e avaliação qualitativa do resultado. A avaliação da qualidade do sequenciamento foi estabelecida por testes nos programas QUAST, BUSCO e pelo Augustus, apoiado pelo BLASTP. a avaliação via QUAST retornou valores de completude em relação ao genoma referência acima de 98% para ambos testes, indicando uma montagem confiável para o organismo em questão. Via SPAdes foi-se capaz de sequenciar com menor capacidade computacional, porém por intermédio do IDBA-UD obteve-se sequências mais contíguas. Os resultados advindos do BUSCO apresentaram apenas um gene esperado de diferença. As proteínas e genes esperados obtidos pelo Augustus suscitaram hits via BLASTP, ou seja, sequências proteicas já estudadas e descritas para o organismo.Universidad Nacional de Misiones. Facultad de Ciencias Exactas, Químicas y Naturales. Secretaría de Investigación y Posgrado2022-10-31info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdf326 KBhttps://hdl.handle.net/20.500.12219/4358enginfo:eu-repo/semantics/altIdentifier/urn/https://www.fceqyn.unam.edu.ar/recyt/index.php/recyt/article/view/721/747info:eu-repo/semantics/altIdentifier/doi/10.36995/j.recyt.2022.38.008info:eu-repo/semantics/altIdentifier/urn/http://www.scielo.org.ar/pdf/recyt/n38/1851-7587-recyt-38-71.pdfinfo:eu-repo/semantics/openAccessAtribución-NoComercial-CompartirIgual 4.0 Internacionalhttp://creativecommons.org/licenses/by-nc-sa/4.0/reponame:Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)instname:Universidad Nacional de Misiones2025-09-29T15:02:24Zoai:rid.unam.edu.ar:20.500.12219/4358instacron:UNAMInstitucionalhttps://rid.unam.edu.ar/Universidad públicahttps://www.unam.edu.ar/https://rid.unam.edu.ar/oai/rsnrdArgentinaopendoar:2025-09-29 15:02:24.751Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM) - Universidad Nacional de Misionesfalse
dc.title.none.fl_str_mv Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
Configuración de ambiente computacional para el ensamblaje y anotación de genomas : orientaciones para investigadores del ciencia de la vida
Configuração de ambiente computacional para montagem e anotação genômica : orientações para pesquisadores da ciência da vida
title Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
spellingShingle Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
Cassol, Matheus Pedron
Bioinformatic
Workflow
Assemble
Genome
Computational tools
Bioinformática
Ensamblaje
Genoma
Herramientas computacionales
Montagem
Genoma
Ferramentas computacionais
title_short Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
title_full Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
title_fullStr Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
title_full_unstemmed Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
title_sort Computational environment for genomic sequencing and annotation : a workflow for application in projects by life researchers
dc.creator.none.fl_str_mv Cassol, Matheus Pedron
Lenz, Alexandre Rafael
Zacaria, Rudinei
De Avila e Silva, Scheila
author Cassol, Matheus Pedron
author_facet Cassol, Matheus Pedron
Lenz, Alexandre Rafael
Zacaria, Rudinei
De Avila e Silva, Scheila
author_role author
author2 Lenz, Alexandre Rafael
Zacaria, Rudinei
De Avila e Silva, Scheila
author2_role author
author
author
dc.subject.none.fl_str_mv Bioinformatic
Workflow
Assemble
Genome
Computational tools
Bioinformática
Ensamblaje
Genoma
Herramientas computacionales
Montagem
Genoma
Ferramentas computacionais
topic Bioinformatic
Workflow
Assemble
Genome
Computational tools
Bioinformática
Ensamblaje
Genoma
Herramientas computacionales
Montagem
Genoma
Ferramentas computacionais
dc.description.none.fl_txt_mv Fil: Cassol, Matheus Pedron. Universidade de Caxias do Sul; Brasil.
Fil: Lenz, Alexandre Rafael. Universidade de Caxias do Sul; Brasil.
Fil: Lenz, Alexandre Rafael. Universidade do Estado da Bahia; Brasil.
Fil: Zacaria, Rudinei. Universidade de Caxias do Sul; Brasil.
Fil: De Avila e Silva, Scheila. Universidade de Caxias do Sul; Brasil.
The current paper seeks to approach, using a workflow, basics subjects of the bioinformatic field and also useful informations to consider during the development of in silico researches. Installation and general usage of multiple softwares related to different sections of the genome annotation process were also presented. At last, an model organism, Staphylococcus aureus, was sequenced in two different softwares, SPAdes and IDBA-UD, seeking further comparison and evaluation of the process as a whole. The quality evaluation of the assemble was established by tests on QUAST, BUSCO and Augustus, supported by BLASTP. Results: QUAST evaluation returned genome coverage values above 98% in both test cases, pointing towards a trustworthy assemble for this organism. Via SPAdes were needed less computational resources, but, using IDBA-UD the sequences found were more contiguous. Results deriving from BUSCO showed only one expected gene difference. Some proteins and genes predicted by Augustus led to hits, sequences already studied in that organism, using the BLASTP program.
El presente trabajo trata sobre un enfoque en formato de flujo de trabajo de cuestiones básicas del área, así como información a tener en cuenta durante la elaboración de investigaciones in silico. Se centró en algunos programas de diferentes partes del proceso de ensamblaje genómico, proporcionando orientación sobre su instalación y uso. Finalmente, se secuenció un organismo modelo, Staphylococcus aureus, en dos softwares, SPAdes e IDBA-UD, para la comparación y evaluación cualitativa del resultado. La evaluación de la calidad de la secuenciación se estableció mediante pruebas en los programas QUAST, BUSCO y Augustus, con el apoyo de BLASTP. La evaluación a través de QUAST arrojó valores de integridad en relación con el genoma de referencia superiores al 98% para ambas pruebas, lo que indica un ensamblaje confiable para el organismo en cuestión. La herramienta SPAdes logró secuenciar con menor capacidad computacional, pero a través de IDBA-UD se obtuvieron secuencias más contiguas. Los resultados de BUSCO mostraron solo una diferencia genética esperada. Las proteínas y genes esperados obtenidos por Augustus provocaron aciertos a través de BLASTP, es decir, secuencias de proteínas ya estudiadas y descritas para el organismo.
O presente trabalho trata-se de uma abordagem em formato de workflow de questões base da área de bioinformática, assim como informações para se levar em consideração durante a elaboração de pesquisas in silico. Focou-se em alguns programas de diferentes partes do processo de montagem genômica, fornecendo orientações acerca de sua instalação e uso. Por fim, sequenciou-se um organismo modelo, Staphylococcus aureus, em dois softwares, SPAdes e IDBA-UD, para fins de comparação e avaliação qualitativa do resultado. A avaliação da qualidade do sequenciamento foi estabelecida por testes nos programas QUAST, BUSCO e pelo Augustus, apoiado pelo BLASTP. a avaliação via QUAST retornou valores de completude em relação ao genoma referência acima de 98% para ambos testes, indicando uma montagem confiável para o organismo em questão. Via SPAdes foi-se capaz de sequenciar com menor capacidade computacional, porém por intermédio do IDBA-UD obteve-se sequências mais contíguas. Os resultados advindos do BUSCO apresentaram apenas um gene esperado de diferença. As proteínas e genes esperados obtidos pelo Augustus suscitaram hits via BLASTP, ou seja, sequências proteicas já estudadas e descritas para o organismo.
description Fil: Cassol, Matheus Pedron. Universidade de Caxias do Sul; Brasil.
publishDate 2022
dc.date.none.fl_str_mv 2022-10-31
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12219/4358
url https://hdl.handle.net/20.500.12219/4358
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/urn/https://www.fceqyn.unam.edu.ar/recyt/index.php/recyt/article/view/721/747
info:eu-repo/semantics/altIdentifier/doi/10.36995/j.recyt.2022.38.008
info:eu-repo/semantics/altIdentifier/urn/http://www.scielo.org.ar/pdf/recyt/n38/1851-7587-recyt-38-71.pdf
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
Atribución-NoComercial-CompartirIgual 4.0 Internacional
http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv Atribución-NoComercial-CompartirIgual 4.0 Internacional
http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.none.fl_str_mv application/pdf
application/pdf
326 KB
dc.publisher.none.fl_str_mv Universidad Nacional de Misiones. Facultad de Ciencias Exactas, Químicas y Naturales. Secretaría de Investigación y Posgrado
publisher.none.fl_str_mv Universidad Nacional de Misiones. Facultad de Ciencias Exactas, Químicas y Naturales. Secretaría de Investigación y Posgrado
dc.source.none.fl_str_mv reponame:Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
instname:Universidad Nacional de Misiones
reponame_str Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
collection Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM)
instname_str Universidad Nacional de Misiones
repository.name.fl_str_mv Repositorio Institucional Digital de la Universidad Nacional de Misiones (UNaM) - Universidad Nacional de Misiones
repository.mail.fl_str_mv
_version_ 1844623286448685056
score 12.559606