Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos

Autores
Suarez, Franco Marcelo; Bruno, Cecilia Ines; Giménez, María de la Paz; Balzarini, Monica Graciela
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Hoy es posible acceder fácilmente a cuantiosos volúmenes de datos climáticos georreferenciados. Estos pueden ser usados para modelar la relación entre condiciones climáticas y enfermedad, para lo cual es necesario usar múltiples variables meteorológicas, usualmente correlacionadas y redundantes. La selección de variables permite identificar un subconjunto de regresoras relevantes para construir modelos predictivos. Stepwise, Boruta y LASSO son procedimientos de selección de variables de distinta naturaleza por lo que su desempeño relativo ha sido poco explorado. El objetivo de este trabajo fue la comparación de estos métodos aplicados simultáneamente en la construcción de modelos de regresión para predecir riesgo de enfermedad desde datos climáticos. Se utilizaron tres bases de datos georreferenciados con valores de presencia/ausencia de distintos patógenos en cultivos de maíz en Argentina. Para cada escenario se obtuvieron variables climáticas del periodo previo a la siembra hasta la cosecha. Con los tres métodos se generaron modelos predictivos con precisión de clasificación cercana al 70 %. LASSO produjo mejor predicción, seleccionando una cantidad intermedia de variables respecto a Stepwise (menor cantidad) y a Boruta (mayor). Los resultados podrían extenderse a otros patosistemas y contribuir a la construcción de sistemas de alarma basados en variables climáticas.
Nowadays it is possible to easily access large volumes of georeferenced climatic data. These data can be used to model the relationship between climatic conditions and disease from multiple meteorological variables, usually correlated and redundant. The selection of variables allows the identification of a subset of relevant regressors to build predictive models. Stepwise, Boruta, and LASSO are variable selection procedures of different nature, so their relative performance has been scarcely explored. The objective of this work was the comparison of these methods simultaneously applied in the construction of regression models to predict disease risk from climatic data. Three georeferenced databases were used with presence/absence values of different pathogens in maize crops in Argentina. For each scenario, climatic variables from the period prior to sowing until harvest were obtained. The three variable selection methods obtained models with accuracy close to 70 %. However, LASSO produced the best predictive model, selecting an intermediate number of variables with respect to Stepwise (lower number) and Boruta (higher number). The results could be extended to other pathosystems and inspire the construction of alarm systems based on climatic variables.
Fil: Suarez, Franco Marcelo. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; Argentina
Fil: Bruno, Cecilia Ines. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; Argentina
Fil: Giménez, María de la Paz. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. - Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola.; Argentina
Fil: Balzarini, Monica Graciela. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; Argentina
Materia
LASSO
STEPWISE
BORUTA
REGRESION LOGISTICA
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/256706

id CONICETDig_f7a33dd52a576a45edf265918e1099fb
oai_identifier_str oai:ri.conicet.gov.ar:11336/256706
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivosComparison of variable selection procedures to model weather-pathogen relation in cropsSuarez, Franco MarceloBruno, Cecilia InesGiménez, María de la PazBalzarini, Monica GracielaLASSOSTEPWISEBORUTAREGRESION LOGISTICAhttps://purl.org/becyt/ford/4.5https://purl.org/becyt/ford/4Hoy es posible acceder fácilmente a cuantiosos volúmenes de datos climáticos georreferenciados. Estos pueden ser usados para modelar la relación entre condiciones climáticas y enfermedad, para lo cual es necesario usar múltiples variables meteorológicas, usualmente correlacionadas y redundantes. La selección de variables permite identificar un subconjunto de regresoras relevantes para construir modelos predictivos. Stepwise, Boruta y LASSO son procedimientos de selección de variables de distinta naturaleza por lo que su desempeño relativo ha sido poco explorado. El objetivo de este trabajo fue la comparación de estos métodos aplicados simultáneamente en la construcción de modelos de regresión para predecir riesgo de enfermedad desde datos climáticos. Se utilizaron tres bases de datos georreferenciados con valores de presencia/ausencia de distintos patógenos en cultivos de maíz en Argentina. Para cada escenario se obtuvieron variables climáticas del periodo previo a la siembra hasta la cosecha. Con los tres métodos se generaron modelos predictivos con precisión de clasificación cercana al 70 %. LASSO produjo mejor predicción, seleccionando una cantidad intermedia de variables respecto a Stepwise (menor cantidad) y a Boruta (mayor). Los resultados podrían extenderse a otros patosistemas y contribuir a la construcción de sistemas de alarma basados en variables climáticas.Nowadays it is possible to easily access large volumes of georeferenced climatic data. These data can be used to model the relationship between climatic conditions and disease from multiple meteorological variables, usually correlated and redundant. The selection of variables allows the identification of a subset of relevant regressors to build predictive models. Stepwise, Boruta, and LASSO are variable selection procedures of different nature, so their relative performance has been scarcely explored. The objective of this work was the comparison of these methods simultaneously applied in the construction of regression models to predict disease risk from climatic data. Three georeferenced databases were used with presence/absence values of different pathogens in maize crops in Argentina. For each scenario, climatic variables from the period prior to sowing until harvest were obtained. The three variable selection methods obtained models with accuracy close to 70 %. However, LASSO produced the best predictive model, selecting an intermediate number of variables with respect to Stepwise (lower number) and Boruta (higher number). The results could be extended to other pathosystems and inspire the construction of alarm systems based on climatic variables.Fil: Suarez, Franco Marcelo. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; ArgentinaFil: Bruno, Cecilia Ines. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; ArgentinaFil: Giménez, María de la Paz. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. - Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola.; ArgentinaFil: Balzarini, Monica Graciela. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; ArgentinaUniversidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias2024-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/256706Suarez, Franco Marcelo; Bruno, Cecilia Ines; Giménez, María de la Paz; Balzarini, Monica Graciela; Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos; Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias; AgriScientia; 40; 2; 1-2024; 37-481668-298XCONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unc.edu.ar/index.php/agris/article/view/40871info:eu-repo/semantics/altIdentifier/doi/10.31047/1668.298x.v40.n2.40871info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T10:41:27Zoai:ri.conicet.gov.ar:11336/256706instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 10:41:27.64CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
Comparison of variable selection procedures to model weather-pathogen relation in crops
title Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
spellingShingle Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
Suarez, Franco Marcelo
LASSO
STEPWISE
BORUTA
REGRESION LOGISTICA
title_short Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
title_full Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
title_fullStr Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
title_full_unstemmed Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
title_sort Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos
dc.creator.none.fl_str_mv Suarez, Franco Marcelo
Bruno, Cecilia Ines
Giménez, María de la Paz
Balzarini, Monica Graciela
author Suarez, Franco Marcelo
author_facet Suarez, Franco Marcelo
Bruno, Cecilia Ines
Giménez, María de la Paz
Balzarini, Monica Graciela
author_role author
author2 Bruno, Cecilia Ines
Giménez, María de la Paz
Balzarini, Monica Graciela
author2_role author
author
author
dc.subject.none.fl_str_mv LASSO
STEPWISE
BORUTA
REGRESION LOGISTICA
topic LASSO
STEPWISE
BORUTA
REGRESION LOGISTICA
purl_subject.fl_str_mv https://purl.org/becyt/ford/4.5
https://purl.org/becyt/ford/4
dc.description.none.fl_txt_mv Hoy es posible acceder fácilmente a cuantiosos volúmenes de datos climáticos georreferenciados. Estos pueden ser usados para modelar la relación entre condiciones climáticas y enfermedad, para lo cual es necesario usar múltiples variables meteorológicas, usualmente correlacionadas y redundantes. La selección de variables permite identificar un subconjunto de regresoras relevantes para construir modelos predictivos. Stepwise, Boruta y LASSO son procedimientos de selección de variables de distinta naturaleza por lo que su desempeño relativo ha sido poco explorado. El objetivo de este trabajo fue la comparación de estos métodos aplicados simultáneamente en la construcción de modelos de regresión para predecir riesgo de enfermedad desde datos climáticos. Se utilizaron tres bases de datos georreferenciados con valores de presencia/ausencia de distintos patógenos en cultivos de maíz en Argentina. Para cada escenario se obtuvieron variables climáticas del periodo previo a la siembra hasta la cosecha. Con los tres métodos se generaron modelos predictivos con precisión de clasificación cercana al 70 %. LASSO produjo mejor predicción, seleccionando una cantidad intermedia de variables respecto a Stepwise (menor cantidad) y a Boruta (mayor). Los resultados podrían extenderse a otros patosistemas y contribuir a la construcción de sistemas de alarma basados en variables climáticas.
Nowadays it is possible to easily access large volumes of georeferenced climatic data. These data can be used to model the relationship between climatic conditions and disease from multiple meteorological variables, usually correlated and redundant. The selection of variables allows the identification of a subset of relevant regressors to build predictive models. Stepwise, Boruta, and LASSO are variable selection procedures of different nature, so their relative performance has been scarcely explored. The objective of this work was the comparison of these methods simultaneously applied in the construction of regression models to predict disease risk from climatic data. Three georeferenced databases were used with presence/absence values of different pathogens in maize crops in Argentina. For each scenario, climatic variables from the period prior to sowing until harvest were obtained. The three variable selection methods obtained models with accuracy close to 70 %. However, LASSO produced the best predictive model, selecting an intermediate number of variables with respect to Stepwise (lower number) and Boruta (higher number). The results could be extended to other pathosystems and inspire the construction of alarm systems based on climatic variables.
Fil: Suarez, Franco Marcelo. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; Argentina
Fil: Bruno, Cecilia Ines. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; Argentina
Fil: Giménez, María de la Paz. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. - Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola.; Argentina
Fil: Balzarini, Monica Graciela. Instituto Nacional de Tecnologia Agropecuaria. Centro de Investigaciones Agropecuarias. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma | Consejo Nacional de Investigaciones Cientificas y Tecnicas. Centro Cientifico Tecnologico Conicet - Cordoba. Unidad de Fitopatologia y Modelizacion Agricola. Grupo Vinculado Catedra de Estadistica y Biometria de la Facultad de Ciencias Agropecuarias de la Universidad Nacional de Cordoba Al Ufyma.; Argentina
description Hoy es posible acceder fácilmente a cuantiosos volúmenes de datos climáticos georreferenciados. Estos pueden ser usados para modelar la relación entre condiciones climáticas y enfermedad, para lo cual es necesario usar múltiples variables meteorológicas, usualmente correlacionadas y redundantes. La selección de variables permite identificar un subconjunto de regresoras relevantes para construir modelos predictivos. Stepwise, Boruta y LASSO son procedimientos de selección de variables de distinta naturaleza por lo que su desempeño relativo ha sido poco explorado. El objetivo de este trabajo fue la comparación de estos métodos aplicados simultáneamente en la construcción de modelos de regresión para predecir riesgo de enfermedad desde datos climáticos. Se utilizaron tres bases de datos georreferenciados con valores de presencia/ausencia de distintos patógenos en cultivos de maíz en Argentina. Para cada escenario se obtuvieron variables climáticas del periodo previo a la siembra hasta la cosecha. Con los tres métodos se generaron modelos predictivos con precisión de clasificación cercana al 70 %. LASSO produjo mejor predicción, seleccionando una cantidad intermedia de variables respecto a Stepwise (menor cantidad) y a Boruta (mayor). Los resultados podrían extenderse a otros patosistemas y contribuir a la construcción de sistemas de alarma basados en variables climáticas.
publishDate 2024
dc.date.none.fl_str_mv 2024-01
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/256706
Suarez, Franco Marcelo; Bruno, Cecilia Ines; Giménez, María de la Paz; Balzarini, Monica Graciela; Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos; Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias; AgriScientia; 40; 2; 1-2024; 37-48
1668-298X
CONICET Digital
CONICET
url http://hdl.handle.net/11336/256706
identifier_str_mv Suarez, Franco Marcelo; Bruno, Cecilia Ines; Giménez, María de la Paz; Balzarini, Monica Graciela; Comparación de procedimientos de selección de variables para la modelación de la relación clima-patógenos en cultivos; Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias; AgriScientia; 40; 2; 1-2024; 37-48
1668-298X
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unc.edu.ar/index.php/agris/article/view/40871
info:eu-repo/semantics/altIdentifier/doi/10.31047/1668.298x.v40.n2.40871
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias
publisher.none.fl_str_mv Universidad Nacional de Córdoba. Facultad de Ciencias Agropecuarias
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844614445561544704
score 13.069144