Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN

Autores
Reeb, Pablo Daniel
Año de publicación
2017
Idioma
español castellano
Tipo de recurso
tesis de maestría
Estado
versión publicada
Colaborador/a o director/a de tesis
Bramardi, Sergio J.
Di Rienzo, Julio
Descripción
Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2017.
Fil: Reeb, Pablo Daniel. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
La secuenciación de alto rendimiento de ARN genera grandes bases de datos con información que puede ser utilizada con diferentes objetivos. Una de las aplicaciones más utilizada consiste en resumir las lecturas de las secuencias agregándolas en función de una unidad de interés tal como gen, exón o transcript . En este tipo de análisis se obtienen matrices con datos de conteos correspondientes a cada individuo en estudio (filas) y asignados a una particular unidad de interés (columnas). En general el número de individuos es muy pequeño en relación al número de variables y los conteos presentan un rango de dispersión muy amplio. En esta tesis se comparan técnicas de análisis multivariado exploratorio a 2 y 3 vías de clasificación que contemplan la naturaleza de los datos obtenidos en experimentos de secuenciación de ARN. Utilizando datos sintéticos generados con la técnica de plasmodios se comparan transformaciones a los datos y medidas de disimilaridad empleadas en el análisis de cluster jerárquico, análisis de escalamiento multidimensional métrico y no métrico y en el análisis factorial multiple. La transformación de los conteos originales a través de funciones que utilizan logaritmo o el uso de disimilaridades basadas en correlacion de Spearman o disimilaridad Poisson rescata la estructura natural de las muestras en todos los métodos de análisis utilizados. La mera estandarización o normalización de los conteos no genera representaciones confiables. La elección de la mejor medida debe considerar el nivel de relación señal-ruido ya que no todas las medidas muestran la configuración natural de la muestras en función de la cantidad de transcripts expresados o no diferencialmente. Este aspecto debe considerarse al momento de representar las muestras utilizando todos transcripts obtenidos o filtrando por expresión diferencial.
Fil: Reeb, Pablo Daniel. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
Materia
Análisis multivariante
Análisis factorial
Plasmodios
RNA-seq
Medidas de disimilaridad
Datos genómicos
Genómica estadística
Nivel de accesibilidad
acceso abierto
Condiciones de uso
Repositorio
Repositorio Digital Universitario (UNC)
Institución
Universidad Nacional de Córdoba
OAI Identificador
oai:rdu.unc.edu.ar:11086/6366

id RDUUNC_90ff3c484ebc626e9ecd151d1db2ab6d
oai_identifier_str oai:rdu.unc.edu.ar:11086/6366
network_acronym_str RDUUNC
repository_id_str 2572
network_name_str Repositorio Digital Universitario (UNC)
spelling Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARNReeb, Pablo DanielAnálisis multivarianteAnálisis factorialPlasmodiosRNA-seqMedidas de disimilaridadDatos genómicosGenómica estadísticaTesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2017.Fil: Reeb, Pablo Daniel. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.La secuenciación de alto rendimiento de ARN genera grandes bases de datos con información que puede ser utilizada con diferentes objetivos. Una de las aplicaciones más utilizada consiste en resumir las lecturas de las secuencias agregándolas en función de una unidad de interés tal como gen, exón o transcript . En este tipo de análisis se obtienen matrices con datos de conteos correspondientes a cada individuo en estudio (filas) y asignados a una particular unidad de interés (columnas). En general el número de individuos es muy pequeño en relación al número de variables y los conteos presentan un rango de dispersión muy amplio. En esta tesis se comparan técnicas de análisis multivariado exploratorio a 2 y 3 vías de clasificación que contemplan la naturaleza de los datos obtenidos en experimentos de secuenciación de ARN. Utilizando datos sintéticos generados con la técnica de plasmodios se comparan transformaciones a los datos y medidas de disimilaridad empleadas en el análisis de cluster jerárquico, análisis de escalamiento multidimensional métrico y no métrico y en el análisis factorial multiple. La transformación de los conteos originales a través de funciones que utilizan logaritmo o el uso de disimilaridades basadas en correlacion de Spearman o disimilaridad Poisson rescata la estructura natural de las muestras en todos los métodos de análisis utilizados. La mera estandarización o normalización de los conteos no genera representaciones confiables. La elección de la mejor medida debe considerar el nivel de relación señal-ruido ya que no todas las medidas muestran la configuración natural de la muestras en función de la cantidad de transcripts expresados o no diferencialmente. Este aspecto debe considerarse al momento de representar las muestras utilizando todos transcripts obtenidos o filtrando por expresión diferencial.Fil: Reeb, Pablo Daniel. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.Bramardi, Sergio J.Di Rienzo, Julio2017info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_bdccinfo:ar-repo/semantics/tesisDeMaestriaapplication/pdfhttp://hdl.handle.net/11086/6366spainfo:eu-repo/semantics/openAccessreponame:Repositorio Digital Universitario (UNC)instname:Universidad Nacional de Córdobainstacron:UNC2026-01-08T10:41:12Zoai:rdu.unc.edu.ar:11086/6366Institucionalhttps://rdu.unc.edu.ar/Universidad públicaNo correspondehttp://rdu.unc.edu.ar/oai/snrdoca.unc@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:25722026-01-08 10:41:12.338Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdobafalse
dc.title.none.fl_str_mv Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
title Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
spellingShingle Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
Reeb, Pablo Daniel
Análisis multivariante
Análisis factorial
Plasmodios
RNA-seq
Medidas de disimilaridad
Datos genómicos
Genómica estadística
title_short Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
title_full Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
title_fullStr Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
title_full_unstemmed Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
title_sort Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN
dc.creator.none.fl_str_mv Reeb, Pablo Daniel
author Reeb, Pablo Daniel
author_facet Reeb, Pablo Daniel
author_role author
dc.contributor.none.fl_str_mv Bramardi, Sergio J.
Di Rienzo, Julio
dc.subject.none.fl_str_mv Análisis multivariante
Análisis factorial
Plasmodios
RNA-seq
Medidas de disimilaridad
Datos genómicos
Genómica estadística
topic Análisis multivariante
Análisis factorial
Plasmodios
RNA-seq
Medidas de disimilaridad
Datos genómicos
Genómica estadística
dc.description.none.fl_txt_mv Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2017.
Fil: Reeb, Pablo Daniel. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
La secuenciación de alto rendimiento de ARN genera grandes bases de datos con información que puede ser utilizada con diferentes objetivos. Una de las aplicaciones más utilizada consiste en resumir las lecturas de las secuencias agregándolas en función de una unidad de interés tal como gen, exón o transcript . En este tipo de análisis se obtienen matrices con datos de conteos correspondientes a cada individuo en estudio (filas) y asignados a una particular unidad de interés (columnas). En general el número de individuos es muy pequeño en relación al número de variables y los conteos presentan un rango de dispersión muy amplio. En esta tesis se comparan técnicas de análisis multivariado exploratorio a 2 y 3 vías de clasificación que contemplan la naturaleza de los datos obtenidos en experimentos de secuenciación de ARN. Utilizando datos sintéticos generados con la técnica de plasmodios se comparan transformaciones a los datos y medidas de disimilaridad empleadas en el análisis de cluster jerárquico, análisis de escalamiento multidimensional métrico y no métrico y en el análisis factorial multiple. La transformación de los conteos originales a través de funciones que utilizan logaritmo o el uso de disimilaridades basadas en correlacion de Spearman o disimilaridad Poisson rescata la estructura natural de las muestras en todos los métodos de análisis utilizados. La mera estandarización o normalización de los conteos no genera representaciones confiables. La elección de la mejor medida debe considerar el nivel de relación señal-ruido ya que no todas las medidas muestran la configuración natural de la muestras en función de la cantidad de transcripts expresados o no diferencialmente. Este aspecto debe considerarse al momento de representar las muestras utilizando todos transcripts obtenidos o filtrando por expresión diferencial.
Fil: Reeb, Pablo Daniel. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina.
description Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2017.
publishDate 2017
dc.date.none.fl_str_mv 2017
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_bdcc
info:ar-repo/semantics/tesisDeMaestria
format masterThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11086/6366
url http://hdl.handle.net/11086/6366
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Digital Universitario (UNC)
instname:Universidad Nacional de Córdoba
instacron:UNC
reponame_str Repositorio Digital Universitario (UNC)
collection Repositorio Digital Universitario (UNC)
instname_str Universidad Nacional de Córdoba
instacron_str UNC
institution UNC
repository.name.fl_str_mv Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
repository.mail.fl_str_mv oca.unc@gmail.com
_version_ 1853758324969832448
score 13.113929