Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico

Autores
Aballay, Maximiliano Martín
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Sanchez, Gerardo (Director)
Cervigni, Gerardo (co-Director)
Descripción
Tesis para optar al grado de Doctor en Ciencias Biológicas, presentada en la Universidad Nacional de Rosario, en 2023.
El duraznero es una especie que pertenece a la familia Rosaceae, el cual presenta un periodo juvenil que requiere entre 3 a 4 años para desarrollarse completamente. Debido al carácter auto-compatible y los extensos periodos de generación, esta especie posee una reducida variabilidad genética en comparación con otras. Estas características dificultan el mejoramiento del duraznero, por lo cual es de vital importancia implementar herramientas que modernicen los programas de mejora con el fin de escalar el desarrollo de nuevas variedades. Durante los últimos años se han producido grandes avances en las tecnologías de secuenciación, que han impulsado los estudios genómicos de duraznero. Esto permitió la implementación de la metodología Genome-Wide Association Study (GWAS), para identificar variantes genéticas vinculadas a caracteres fenotípicos. Sin embargo, la complejidad de los caracteres poligénicos y la dificultad para diferenciar las variantes causales de otras altamente correlacionadas son las principales limitaciones de GWAS. Una alternativa de interés para este tipo de análisis, es el algoritmo de aprendizaje automático Random Forest (RF), el cual puede analizar grandes conjuntos de datos genómicos, y definir la influencia que tienen las variantes genéticas sobre los caracteres fenotípicos, siendo capaz de generar predicciones para dichos caracteres. Estas propiedades hacen de RF un método prometedor para ser aplicado en duraznero, ya que el entrenamiento de este tipo de modelos podría ayudar a identificar variantes genéticas asociadas a caracteres fenotípicos complejos, y predecir su comportamiento según la presencia/ausencia de estas variantes. En este trabajo se realizó la puesta a punto de la plataforma de genotipado de alto rendimiento conocida como double digest Restriction-site Associated DNA sequencing (ddRAD-seq) en duraznero, la cual no había sido aplicada en esta especie hasta el momento. Esta plataforma fue utilizada para caracterizar en profundidad la variabilidad genética contenida en la colección de germoplasma de la Estación Experimental Agropecuaria (EEA) San Pedro. Como resultado de este proceso se genotiparon 237 accesiones de duraznero (en donde se incluyen 3 portainjertos) y 2 ciruelos japoneses. Los datos de secuenciación presentan en promedio 1 M de lecturas de extremos apareados (2 × 250 pb) por genotipo. A partir del alineamiento de las lecturas al genoma de referencia se observó que las mismas se distribuyen de manera uniforme a lo largo de los 8 cromosomas. En la búsqueda de variantes se identificaron un total de 197.906 Single Nucleotide Polymorphisms (SNP), 16.338 Insertions/Deletions (InDel) y 2.712 Simple Sequence Repeats (SSR). Estas variantes luego de ser filtradas utilizando un porcentaje de datos faltantes menor al 10 % y un valor de Minor allele Frequency (MAF) mayor al 1 % se redujeron a 11.871 SNP, 1.214 InDel y 499 SSR (sumando un total de 13.584 variantes). Mediante una combinación de análisis multivariados se describió la relación que existe entre los genotipos de duraznero. Además, con la inclusión de los datos de 48 genotipos de duraznero recientemente secuenciados fue posible describir por primera vez fuentes de variabilidad de germoplasmas naturalizado en el país. El set de 13.584 variantes genéticas de las 237 accesiones de duraznero fue utilizado para analizar la asociación con caracteres de interés agronómico mediante las metodologías de GWAS y RF. Estos métodos tienen la capacidad de identificar variantes asociadas con un carácter en particular, pero utilizan enfoques diferentes. Al utilizar ambas metodologías se busca comprobar si RF se puede desempeñar de igual manera o mejor que GWAS en duraznero, además de validar la metodología RF como método de predicción para ser aplicado en el programa de mejoramiento de duraznero. Con estos métodos se analizaron los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, capacidad antioxidante, contenido de fenoles, firmeza, peso, contenido de sólidos solubles, fecha de floración y fecha de cosecha. Como resultado de este análisis se observó asociación con los dos métodos para los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, fecha de floración y fecha de cosecha. Los dos métodos apuntan a regiones genómicas similares en cada carácter que presentó asociación. Para cada una de estas regiones se identificaron las principales variantes asociadas con cada carácter, así como también los haplobloques que contienen a dichas variantes. Los datos de las 13.584 variantes genéticas también fueron utilizados para realizar la simulación de cruzamientos entre genotipos y analizar las características de la progenie artificial obtenida. Con el objetivo de evaluar la capacidad de estas simulaciones, primero se generaron una serie de cruzamientos de prueba para comparar con cruzamientos reales que se encuentran junto a los parentales dentro de los 237 genotipos analizados. A partir del análisis de estos datos se observó que con las simulaciones de cruzamientos es posible generar genotipos artificiales con perfiles genómicos cercanos a los originados por cruzamientos reales. Una vez realizada esta validación se procedió a simular todos los cruzamientos posibles entre los 237 genotipos, con una progenie de 100 genotipos artificiales por cruzamiento. Para estos nuevos genotipos se realizaron predicciones utilizando los modelos de RF previamente entrenados con datos de caracteres de vellosidad del fruto, color de pulpa, tipo de pulpa, fecha de floración y fecha de cosecha. Como resultado de esta serie de simulaciones se obtuvo un total de 2.820.300 genotipos artificiales, para los cuales se predijo el comportamiento de cada uno de los caracteres mencionados. Con estas predicciones es posible identificar aquellos genotipos artificiales que presentan las características de mayor interés y reconocer la combinación de parentales de la cual provienen. De esta manera se puede realizar una selección más rigurosa de parentales a cruzar, ayudando a desarrollar un programa de mejoramiento de duraznero más eficiente.
| Peach is a member of Rosaceae family, that requires approximately from 3-4 years to reach maturity. Given its self-compatible nature and long generation cycles, this species exhibits less genetic variability than others. Due to these characteristics, breeding programs need to be modernized to speed up the development of new peach varieties. The great advances in sequencing technologies over the last few years have promoted genomic studies of peach, such as the implementation of Genome-Wide Association Study (GWAS) methodology, to identify genetic variants linked to phenotypic traits. However, the complexity of polygenic traits and the issues to differentiate causal variants from other highly correlated are the main limitations of GWAS. An alternative to this type of analysis is the Random Forest (RF) machine learning algorithm, which can analyze large sets of genomic data and define the influence of genetic variants on phenotypic traits, being able to generate predictions for these traits. These properties make RF a promising method for peach, because the training of this type of model may help to identify genetic variants associated with complex phenotypic traits, and predict their behavior based on the presence/absence of these variants. In this work we present the fine tuning of the high throughput genotyping platform known as double digest Restriction-site Associated DNA sequencing (ddRAD-seq) in peach, which has not been applied to this species until now. This platform was used to characterize the genetic variability contained in the Estación Experimental Agropecuaria (EEA) San Pedro germplasm collection. As result, 237 peach accessions (including 3 rootstocks) and 2 Japanese plums were genotyped. The sequencing data showed an average of 1 M paired-end (2 × 250 pb) reads per genotype. The alignment of reads to the reference genome showed that they are distributed in the 8 chromosomes uniformly. From variant calling, a total of 197,906 Single Nucleotide Polymorphisms (SNP), 16,338 Insertions/Deletions (InDel) and 2,712 Simple Sequence Repeats (SSR) were identified. After filtering variants with less than 10 % of missing data and a Minor Allele Frequency (MAF) higher than 1 %, the dataset was reduced to 11,871 SNP, 1,214 InDel and 499 SSR (giving a total of 13,584 variants). The relationships between the genotypes were described applying a combination of multivariate analysis. In addition, with the inclusion of data from 48 peach genotypes recently sequenced, it was possible to describe, for the first time in the country, the sources of variability of naturalized germplasms. The set of 13,584 genetic variants obtained from 237 peach accessions was used to analyze the association with traits of agronomic interest using the GWAS and RF methodologies. Although these methods have different approaches, they have the ability to identify variants associated with a particular trait . The use of both methodologies aims to verify if RF can be performed in the same way or better than GWAS in peach, as well as to validate the RF methodology as a prediction method to be applied in the breeding of peach. Both methods were applied in the analysis of flesh color, flesh type, fruit hairiness, antioxidant capacity, phenol content, firmness, weight, soluble solid content, flowering date and harvest date. As result, association was observed with the two methods for flesh color, flesh type, fruit hairiness flowering date and harvest date. The two methods point to similar genomic regions for the traits that presented association. For each of these regions, the main variants associated with each trait were identified, as well as the haploblocks that include these variants. The data from the 13,584 genetic variants were also used to simulate crosses between genotypes and analyze the characteristics of the artificial progeny obtained. To evaluate the performance of these simulations, a series of test crosses were first generated to compare with real crosses, and their respective parents, included in the 237 analyzed genotypes. The artificial genotypes generated by cross simulations showed genomic profiles closer to those originated by real crossing. In accordance with this validation, all the possible crosses between the 237 genotypes were simulated, generating a progeny of 100 artificial genotypes per cross. For each of these new genotypes, predictions were made using previously trained RF models with data from flesh color, flesh type, fruit hairiness, flowering date and harvest date; obtaining a total of 2,820,300 artificial genotypes with predicted phenotypes. Taking these predictions into account, it is possible to identify the most interesting artificial genotypes and recognize the combination of parents that generated them. Thus, a more rigorous selection of parents can be made in order to develop a more efficient peach breeding program.
EEA San Pedro, INTA
Fil: Aballay, Maximiliano Martín. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria San Pedro; Argentina
Materia
Prunus persica
Biotecnología Vegetal
Bioinformática
Fitomejoramiento
Análisis de Secuencias
Durazno
Frutales
Plant Biotechnology
Bioinformatics
Plant Breeding
Sequence Analysis
Peaches
Fruit Crops
Genomics
Genómica
ddRAD-SEQ
Double digest RAD-seq
GWAS
Estudio de Asociación del Genoma Completo
Nivel de accesibilidad
acceso restringido
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
INTA Digital (INTA)
Institución
Instituto Nacional de Tecnología Agropecuaria
OAI Identificador
oai:localhost:20.500.12123/16540

id INTADig_73a246e6201663f6704ce06c4c2c8861
oai_identifier_str oai:localhost:20.500.12123/16540
network_acronym_str INTADig
repository_id_str l
network_name_str INTA Digital (INTA)
spelling Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómicoAballay, Maximiliano MartínPrunus persicaBiotecnología VegetalBioinformáticaFitomejoramientoAnálisis de SecuenciasDuraznoFrutalesPlant BiotechnologyBioinformaticsPlant BreedingSequence AnalysisPeachesFruit CropsGenomicsGenómicaddRAD-SEQDouble digest RAD-seqGWASEstudio de Asociación del Genoma CompletoTesis para optar al grado de Doctor en Ciencias Biológicas, presentada en la Universidad Nacional de Rosario, en 2023.El duraznero es una especie que pertenece a la familia Rosaceae, el cual presenta un periodo juvenil que requiere entre 3 a 4 años para desarrollarse completamente. Debido al carácter auto-compatible y los extensos periodos de generación, esta especie posee una reducida variabilidad genética en comparación con otras. Estas características dificultan el mejoramiento del duraznero, por lo cual es de vital importancia implementar herramientas que modernicen los programas de mejora con el fin de escalar el desarrollo de nuevas variedades. Durante los últimos años se han producido grandes avances en las tecnologías de secuenciación, que han impulsado los estudios genómicos de duraznero. Esto permitió la implementación de la metodología Genome-Wide Association Study (GWAS), para identificar variantes genéticas vinculadas a caracteres fenotípicos. Sin embargo, la complejidad de los caracteres poligénicos y la dificultad para diferenciar las variantes causales de otras altamente correlacionadas son las principales limitaciones de GWAS. Una alternativa de interés para este tipo de análisis, es el algoritmo de aprendizaje automático Random Forest (RF), el cual puede analizar grandes conjuntos de datos genómicos, y definir la influencia que tienen las variantes genéticas sobre los caracteres fenotípicos, siendo capaz de generar predicciones para dichos caracteres. Estas propiedades hacen de RF un método prometedor para ser aplicado en duraznero, ya que el entrenamiento de este tipo de modelos podría ayudar a identificar variantes genéticas asociadas a caracteres fenotípicos complejos, y predecir su comportamiento según la presencia/ausencia de estas variantes. En este trabajo se realizó la puesta a punto de la plataforma de genotipado de alto rendimiento conocida como double digest Restriction-site Associated DNA sequencing (ddRAD-seq) en duraznero, la cual no había sido aplicada en esta especie hasta el momento. Esta plataforma fue utilizada para caracterizar en profundidad la variabilidad genética contenida en la colección de germoplasma de la Estación Experimental Agropecuaria (EEA) San Pedro. Como resultado de este proceso se genotiparon 237 accesiones de duraznero (en donde se incluyen 3 portainjertos) y 2 ciruelos japoneses. Los datos de secuenciación presentan en promedio 1 M de lecturas de extremos apareados (2 × 250 pb) por genotipo. A partir del alineamiento de las lecturas al genoma de referencia se observó que las mismas se distribuyen de manera uniforme a lo largo de los 8 cromosomas. En la búsqueda de variantes se identificaron un total de 197.906 Single Nucleotide Polymorphisms (SNP), 16.338 Insertions/Deletions (InDel) y 2.712 Simple Sequence Repeats (SSR). Estas variantes luego de ser filtradas utilizando un porcentaje de datos faltantes menor al 10 % y un valor de Minor allele Frequency (MAF) mayor al 1 % se redujeron a 11.871 SNP, 1.214 InDel y 499 SSR (sumando un total de 13.584 variantes). Mediante una combinación de análisis multivariados se describió la relación que existe entre los genotipos de duraznero. Además, con la inclusión de los datos de 48 genotipos de duraznero recientemente secuenciados fue posible describir por primera vez fuentes de variabilidad de germoplasmas naturalizado en el país. El set de 13.584 variantes genéticas de las 237 accesiones de duraznero fue utilizado para analizar la asociación con caracteres de interés agronómico mediante las metodologías de GWAS y RF. Estos métodos tienen la capacidad de identificar variantes asociadas con un carácter en particular, pero utilizan enfoques diferentes. Al utilizar ambas metodologías se busca comprobar si RF se puede desempeñar de igual manera o mejor que GWAS en duraznero, además de validar la metodología RF como método de predicción para ser aplicado en el programa de mejoramiento de duraznero. Con estos métodos se analizaron los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, capacidad antioxidante, contenido de fenoles, firmeza, peso, contenido de sólidos solubles, fecha de floración y fecha de cosecha. Como resultado de este análisis se observó asociación con los dos métodos para los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, fecha de floración y fecha de cosecha. Los dos métodos apuntan a regiones genómicas similares en cada carácter que presentó asociación. Para cada una de estas regiones se identificaron las principales variantes asociadas con cada carácter, así como también los haplobloques que contienen a dichas variantes. Los datos de las 13.584 variantes genéticas también fueron utilizados para realizar la simulación de cruzamientos entre genotipos y analizar las características de la progenie artificial obtenida. Con el objetivo de evaluar la capacidad de estas simulaciones, primero se generaron una serie de cruzamientos de prueba para comparar con cruzamientos reales que se encuentran junto a los parentales dentro de los 237 genotipos analizados. A partir del análisis de estos datos se observó que con las simulaciones de cruzamientos es posible generar genotipos artificiales con perfiles genómicos cercanos a los originados por cruzamientos reales. Una vez realizada esta validación se procedió a simular todos los cruzamientos posibles entre los 237 genotipos, con una progenie de 100 genotipos artificiales por cruzamiento. Para estos nuevos genotipos se realizaron predicciones utilizando los modelos de RF previamente entrenados con datos de caracteres de vellosidad del fruto, color de pulpa, tipo de pulpa, fecha de floración y fecha de cosecha. Como resultado de esta serie de simulaciones se obtuvo un total de 2.820.300 genotipos artificiales, para los cuales se predijo el comportamiento de cada uno de los caracteres mencionados. Con estas predicciones es posible identificar aquellos genotipos artificiales que presentan las características de mayor interés y reconocer la combinación de parentales de la cual provienen. De esta manera se puede realizar una selección más rigurosa de parentales a cruzar, ayudando a desarrollar un programa de mejoramiento de duraznero más eficiente.| Peach is a member of Rosaceae family, that requires approximately from 3-4 years to reach maturity. Given its self-compatible nature and long generation cycles, this species exhibits less genetic variability than others. Due to these characteristics, breeding programs need to be modernized to speed up the development of new peach varieties. The great advances in sequencing technologies over the last few years have promoted genomic studies of peach, such as the implementation of Genome-Wide Association Study (GWAS) methodology, to identify genetic variants linked to phenotypic traits. However, the complexity of polygenic traits and the issues to differentiate causal variants from other highly correlated are the main limitations of GWAS. An alternative to this type of analysis is the Random Forest (RF) machine learning algorithm, which can analyze large sets of genomic data and define the influence of genetic variants on phenotypic traits, being able to generate predictions for these traits. These properties make RF a promising method for peach, because the training of this type of model may help to identify genetic variants associated with complex phenotypic traits, and predict their behavior based on the presence/absence of these variants. In this work we present the fine tuning of the high throughput genotyping platform known as double digest Restriction-site Associated DNA sequencing (ddRAD-seq) in peach, which has not been applied to this species until now. This platform was used to characterize the genetic variability contained in the Estación Experimental Agropecuaria (EEA) San Pedro germplasm collection. As result, 237 peach accessions (including 3 rootstocks) and 2 Japanese plums were genotyped. The sequencing data showed an average of 1 M paired-end (2 × 250 pb) reads per genotype. The alignment of reads to the reference genome showed that they are distributed in the 8 chromosomes uniformly. From variant calling, a total of 197,906 Single Nucleotide Polymorphisms (SNP), 16,338 Insertions/Deletions (InDel) and 2,712 Simple Sequence Repeats (SSR) were identified. After filtering variants with less than 10 % of missing data and a Minor Allele Frequency (MAF) higher than 1 %, the dataset was reduced to 11,871 SNP, 1,214 InDel and 499 SSR (giving a total of 13,584 variants). The relationships between the genotypes were described applying a combination of multivariate analysis. In addition, with the inclusion of data from 48 peach genotypes recently sequenced, it was possible to describe, for the first time in the country, the sources of variability of naturalized germplasms. The set of 13,584 genetic variants obtained from 237 peach accessions was used to analyze the association with traits of agronomic interest using the GWAS and RF methodologies. Although these methods have different approaches, they have the ability to identify variants associated with a particular trait . The use of both methodologies aims to verify if RF can be performed in the same way or better than GWAS in peach, as well as to validate the RF methodology as a prediction method to be applied in the breeding of peach. Both methods were applied in the analysis of flesh color, flesh type, fruit hairiness, antioxidant capacity, phenol content, firmness, weight, soluble solid content, flowering date and harvest date. As result, association was observed with the two methods for flesh color, flesh type, fruit hairiness flowering date and harvest date. The two methods point to similar genomic regions for the traits that presented association. For each of these regions, the main variants associated with each trait were identified, as well as the haploblocks that include these variants. The data from the 13,584 genetic variants were also used to simulate crosses between genotypes and analyze the characteristics of the artificial progeny obtained. To evaluate the performance of these simulations, a series of test crosses were first generated to compare with real crosses, and their respective parents, included in the 237 analyzed genotypes. The artificial genotypes generated by cross simulations showed genomic profiles closer to those originated by real crossing. In accordance with this validation, all the possible crosses between the 237 genotypes were simulated, generating a progeny of 100 artificial genotypes per cross. For each of these new genotypes, predictions were made using previously trained RF models with data from flesh color, flesh type, fruit hairiness, flowering date and harvest date; obtaining a total of 2,820,300 artificial genotypes with predicted phenotypes. Taking these predictions into account, it is possible to identify the most interesting artificial genotypes and recognize the combination of parents that generated them. Thus, a more rigorous selection of parents can be made in order to develop a more efficient peach breeding program.EEA San Pedro, INTAFil: Aballay, Maximiliano Martín. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria San Pedro; ArgentinaFacultad de Ciencias Bioquímicas y Farmacéuticas, Universidad Nacional de RosarioSanchez, Gerardo (Director)Cervigni, Gerardo (co-Director)2024-01-12T12:57:01Z2024-01-12T12:57:01Z2023info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttp://hdl.handle.net/20.500.12123/16540spaSan Pedro .......... (inhabited place) (World, South America, Argentina, Buenos Aires)1136466info:eu-repo/semantics/restrictedAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:INTA Digital (INTA)instname:Instituto Nacional de Tecnología Agropecuaria2025-09-04T09:50:09Zoai:localhost:20.500.12123/16540instacron:INTAInstitucionalhttp://repositorio.inta.gob.ar/Organismo científico-tecnológicoNo correspondehttp://repositorio.inta.gob.ar/oai/requesttripaldi.nicolas@inta.gob.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:l2025-09-04 09:50:10.425INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuariafalse
dc.title.none.fl_str_mv Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
title Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
spellingShingle Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
Aballay, Maximiliano Martín
Prunus persica
Biotecnología Vegetal
Bioinformática
Fitomejoramiento
Análisis de Secuencias
Durazno
Frutales
Plant Biotechnology
Bioinformatics
Plant Breeding
Sequence Analysis
Peaches
Fruit Crops
Genomics
Genómica
ddRAD-SEQ
Double digest RAD-seq
GWAS
Estudio de Asociación del Genoma Completo
title_short Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
title_full Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
title_fullStr Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
title_full_unstemmed Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
title_sort Mejoramiento biotecnológico de la calidad del durazno, mapeo por asociación de caracteres de interés agronómico
dc.creator.none.fl_str_mv Aballay, Maximiliano Martín
author Aballay, Maximiliano Martín
author_facet Aballay, Maximiliano Martín
author_role author
dc.contributor.none.fl_str_mv Sanchez, Gerardo (Director)
Cervigni, Gerardo (co-Director)
dc.subject.none.fl_str_mv Prunus persica
Biotecnología Vegetal
Bioinformática
Fitomejoramiento
Análisis de Secuencias
Durazno
Frutales
Plant Biotechnology
Bioinformatics
Plant Breeding
Sequence Analysis
Peaches
Fruit Crops
Genomics
Genómica
ddRAD-SEQ
Double digest RAD-seq
GWAS
Estudio de Asociación del Genoma Completo
topic Prunus persica
Biotecnología Vegetal
Bioinformática
Fitomejoramiento
Análisis de Secuencias
Durazno
Frutales
Plant Biotechnology
Bioinformatics
Plant Breeding
Sequence Analysis
Peaches
Fruit Crops
Genomics
Genómica
ddRAD-SEQ
Double digest RAD-seq
GWAS
Estudio de Asociación del Genoma Completo
dc.description.none.fl_txt_mv Tesis para optar al grado de Doctor en Ciencias Biológicas, presentada en la Universidad Nacional de Rosario, en 2023.
El duraznero es una especie que pertenece a la familia Rosaceae, el cual presenta un periodo juvenil que requiere entre 3 a 4 años para desarrollarse completamente. Debido al carácter auto-compatible y los extensos periodos de generación, esta especie posee una reducida variabilidad genética en comparación con otras. Estas características dificultan el mejoramiento del duraznero, por lo cual es de vital importancia implementar herramientas que modernicen los programas de mejora con el fin de escalar el desarrollo de nuevas variedades. Durante los últimos años se han producido grandes avances en las tecnologías de secuenciación, que han impulsado los estudios genómicos de duraznero. Esto permitió la implementación de la metodología Genome-Wide Association Study (GWAS), para identificar variantes genéticas vinculadas a caracteres fenotípicos. Sin embargo, la complejidad de los caracteres poligénicos y la dificultad para diferenciar las variantes causales de otras altamente correlacionadas son las principales limitaciones de GWAS. Una alternativa de interés para este tipo de análisis, es el algoritmo de aprendizaje automático Random Forest (RF), el cual puede analizar grandes conjuntos de datos genómicos, y definir la influencia que tienen las variantes genéticas sobre los caracteres fenotípicos, siendo capaz de generar predicciones para dichos caracteres. Estas propiedades hacen de RF un método prometedor para ser aplicado en duraznero, ya que el entrenamiento de este tipo de modelos podría ayudar a identificar variantes genéticas asociadas a caracteres fenotípicos complejos, y predecir su comportamiento según la presencia/ausencia de estas variantes. En este trabajo se realizó la puesta a punto de la plataforma de genotipado de alto rendimiento conocida como double digest Restriction-site Associated DNA sequencing (ddRAD-seq) en duraznero, la cual no había sido aplicada en esta especie hasta el momento. Esta plataforma fue utilizada para caracterizar en profundidad la variabilidad genética contenida en la colección de germoplasma de la Estación Experimental Agropecuaria (EEA) San Pedro. Como resultado de este proceso se genotiparon 237 accesiones de duraznero (en donde se incluyen 3 portainjertos) y 2 ciruelos japoneses. Los datos de secuenciación presentan en promedio 1 M de lecturas de extremos apareados (2 × 250 pb) por genotipo. A partir del alineamiento de las lecturas al genoma de referencia se observó que las mismas se distribuyen de manera uniforme a lo largo de los 8 cromosomas. En la búsqueda de variantes se identificaron un total de 197.906 Single Nucleotide Polymorphisms (SNP), 16.338 Insertions/Deletions (InDel) y 2.712 Simple Sequence Repeats (SSR). Estas variantes luego de ser filtradas utilizando un porcentaje de datos faltantes menor al 10 % y un valor de Minor allele Frequency (MAF) mayor al 1 % se redujeron a 11.871 SNP, 1.214 InDel y 499 SSR (sumando un total de 13.584 variantes). Mediante una combinación de análisis multivariados se describió la relación que existe entre los genotipos de duraznero. Además, con la inclusión de los datos de 48 genotipos de duraznero recientemente secuenciados fue posible describir por primera vez fuentes de variabilidad de germoplasmas naturalizado en el país. El set de 13.584 variantes genéticas de las 237 accesiones de duraznero fue utilizado para analizar la asociación con caracteres de interés agronómico mediante las metodologías de GWAS y RF. Estos métodos tienen la capacidad de identificar variantes asociadas con un carácter en particular, pero utilizan enfoques diferentes. Al utilizar ambas metodologías se busca comprobar si RF se puede desempeñar de igual manera o mejor que GWAS en duraznero, además de validar la metodología RF como método de predicción para ser aplicado en el programa de mejoramiento de duraznero. Con estos métodos se analizaron los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, capacidad antioxidante, contenido de fenoles, firmeza, peso, contenido de sólidos solubles, fecha de floración y fecha de cosecha. Como resultado de este análisis se observó asociación con los dos métodos para los caracteres color de pulpa, tipo de pulpa, vellosidad del fruto, fecha de floración y fecha de cosecha. Los dos métodos apuntan a regiones genómicas similares en cada carácter que presentó asociación. Para cada una de estas regiones se identificaron las principales variantes asociadas con cada carácter, así como también los haplobloques que contienen a dichas variantes. Los datos de las 13.584 variantes genéticas también fueron utilizados para realizar la simulación de cruzamientos entre genotipos y analizar las características de la progenie artificial obtenida. Con el objetivo de evaluar la capacidad de estas simulaciones, primero se generaron una serie de cruzamientos de prueba para comparar con cruzamientos reales que se encuentran junto a los parentales dentro de los 237 genotipos analizados. A partir del análisis de estos datos se observó que con las simulaciones de cruzamientos es posible generar genotipos artificiales con perfiles genómicos cercanos a los originados por cruzamientos reales. Una vez realizada esta validación se procedió a simular todos los cruzamientos posibles entre los 237 genotipos, con una progenie de 100 genotipos artificiales por cruzamiento. Para estos nuevos genotipos se realizaron predicciones utilizando los modelos de RF previamente entrenados con datos de caracteres de vellosidad del fruto, color de pulpa, tipo de pulpa, fecha de floración y fecha de cosecha. Como resultado de esta serie de simulaciones se obtuvo un total de 2.820.300 genotipos artificiales, para los cuales se predijo el comportamiento de cada uno de los caracteres mencionados. Con estas predicciones es posible identificar aquellos genotipos artificiales que presentan las características de mayor interés y reconocer la combinación de parentales de la cual provienen. De esta manera se puede realizar una selección más rigurosa de parentales a cruzar, ayudando a desarrollar un programa de mejoramiento de duraznero más eficiente.
| Peach is a member of Rosaceae family, that requires approximately from 3-4 years to reach maturity. Given its self-compatible nature and long generation cycles, this species exhibits less genetic variability than others. Due to these characteristics, breeding programs need to be modernized to speed up the development of new peach varieties. The great advances in sequencing technologies over the last few years have promoted genomic studies of peach, such as the implementation of Genome-Wide Association Study (GWAS) methodology, to identify genetic variants linked to phenotypic traits. However, the complexity of polygenic traits and the issues to differentiate causal variants from other highly correlated are the main limitations of GWAS. An alternative to this type of analysis is the Random Forest (RF) machine learning algorithm, which can analyze large sets of genomic data and define the influence of genetic variants on phenotypic traits, being able to generate predictions for these traits. These properties make RF a promising method for peach, because the training of this type of model may help to identify genetic variants associated with complex phenotypic traits, and predict their behavior based on the presence/absence of these variants. In this work we present the fine tuning of the high throughput genotyping platform known as double digest Restriction-site Associated DNA sequencing (ddRAD-seq) in peach, which has not been applied to this species until now. This platform was used to characterize the genetic variability contained in the Estación Experimental Agropecuaria (EEA) San Pedro germplasm collection. As result, 237 peach accessions (including 3 rootstocks) and 2 Japanese plums were genotyped. The sequencing data showed an average of 1 M paired-end (2 × 250 pb) reads per genotype. The alignment of reads to the reference genome showed that they are distributed in the 8 chromosomes uniformly. From variant calling, a total of 197,906 Single Nucleotide Polymorphisms (SNP), 16,338 Insertions/Deletions (InDel) and 2,712 Simple Sequence Repeats (SSR) were identified. After filtering variants with less than 10 % of missing data and a Minor Allele Frequency (MAF) higher than 1 %, the dataset was reduced to 11,871 SNP, 1,214 InDel and 499 SSR (giving a total of 13,584 variants). The relationships between the genotypes were described applying a combination of multivariate analysis. In addition, with the inclusion of data from 48 peach genotypes recently sequenced, it was possible to describe, for the first time in the country, the sources of variability of naturalized germplasms. The set of 13,584 genetic variants obtained from 237 peach accessions was used to analyze the association with traits of agronomic interest using the GWAS and RF methodologies. Although these methods have different approaches, they have the ability to identify variants associated with a particular trait . The use of both methodologies aims to verify if RF can be performed in the same way or better than GWAS in peach, as well as to validate the RF methodology as a prediction method to be applied in the breeding of peach. Both methods were applied in the analysis of flesh color, flesh type, fruit hairiness, antioxidant capacity, phenol content, firmness, weight, soluble solid content, flowering date and harvest date. As result, association was observed with the two methods for flesh color, flesh type, fruit hairiness flowering date and harvest date. The two methods point to similar genomic regions for the traits that presented association. For each of these regions, the main variants associated with each trait were identified, as well as the haploblocks that include these variants. The data from the 13,584 genetic variants were also used to simulate crosses between genotypes and analyze the characteristics of the artificial progeny obtained. To evaluate the performance of these simulations, a series of test crosses were first generated to compare with real crosses, and their respective parents, included in the 237 analyzed genotypes. The artificial genotypes generated by cross simulations showed genomic profiles closer to those originated by real crossing. In accordance with this validation, all the possible crosses between the 237 genotypes were simulated, generating a progeny of 100 artificial genotypes per cross. For each of these new genotypes, predictions were made using previously trained RF models with data from flesh color, flesh type, fruit hairiness, flowering date and harvest date; obtaining a total of 2,820,300 artificial genotypes with predicted phenotypes. Taking these predictions into account, it is possible to identify the most interesting artificial genotypes and recognize the combination of parents that generated them. Thus, a more rigorous selection of parents can be made in order to develop a more efficient peach breeding program.
EEA San Pedro, INTA
Fil: Aballay, Maximiliano Martín. Instituto Nacional de Tecnología Agropecuaria (INTA). Estación Experimental Agropecuaria San Pedro; Argentina
description Tesis para optar al grado de Doctor en Ciencias Biológicas, presentada en la Universidad Nacional de Rosario, en 2023.
publishDate 2023
dc.date.none.fl_str_mv 2023
2024-01-12T12:57:01Z
2024-01-12T12:57:01Z
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/20.500.12123/16540
url http://hdl.handle.net/20.500.12123/16540
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/restrictedAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv restrictedAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv San Pedro .......... (inhabited place) (World, South America, Argentina, Buenos Aires)
1136466
dc.publisher.none.fl_str_mv Facultad de Ciencias Bioquímicas y Farmacéuticas, Universidad Nacional de Rosario
publisher.none.fl_str_mv Facultad de Ciencias Bioquímicas y Farmacéuticas, Universidad Nacional de Rosario
dc.source.none.fl_str_mv reponame:INTA Digital (INTA)
instname:Instituto Nacional de Tecnología Agropecuaria
reponame_str INTA Digital (INTA)
collection INTA Digital (INTA)
instname_str Instituto Nacional de Tecnología Agropecuaria
repository.name.fl_str_mv INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuaria
repository.mail.fl_str_mv tripaldi.nicolas@inta.gob.ar
_version_ 1842341417533308928
score 12.623145