Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual

Autores
Banchero, Santiago; Veron, Santiago Ramón; Petek, Mariana; Sarrailhe, Sofia; De Abelleyra, Diego
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto.
Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
Fil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
Fil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; Argentina
Fil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; Argentina
Fil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
Fuente
50 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual)
Materia
Machine Learning
Remote Sensing
Detection
Anomalies
Aprendizaje Electrónico
Teledetección
Detección
Anomalías
Isolation Forest
Bosque de Aislamiento
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
INTA Digital (INTA)
Institución
Instituto Nacional de Tecnología Agropecuaria
OAI Identificador
oai:localhost:20.500.12123/11679

id INTADig_4afe6836c260151590b07cad5bb83a3e
oai_identifier_str oai:localhost:20.500.12123/11679
network_acronym_str INTADig
repository_id_str l
network_name_str INTA Digital (INTA)
spelling Detección de outliers en muestras de entrenamiento generadas mediante interpretación visualBanchero, SantiagoVeron, Santiago RamónPetek, MarianaSarrailhe, SofiaDe Abelleyra, DiegoMachine LearningRemote SensingDetectionAnomaliesAprendizaje ElectrónicoTeledetecciónDetecciónAnomalíasIsolation ForestBosque de AislamientoLas clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto.Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; ArgentinaFil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; ArgentinaFil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; ArgentinaFil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; ArgentinaFil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; ArgentinaSociedad Argentina de Informática2022-04-20T10:38:03Z2022-04-20T10:38:03Z2021-10-18info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://hdl.handle.net/20.500.12123/1167950 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual)reponame:INTA Digital (INTA)instname:Instituto Nacional de Tecnología Agropecuariaspainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)2025-09-29T13:45:32Zoai:localhost:20.500.12123/11679instacron:INTAInstitucionalhttp://repositorio.inta.gob.ar/Organismo científico-tecnológicoNo correspondehttp://repositorio.inta.gob.ar/oai/requesttripaldi.nicolas@inta.gob.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:l2025-09-29 13:45:32.574INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuariafalse
dc.title.none.fl_str_mv Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
spellingShingle Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
Banchero, Santiago
Machine Learning
Remote Sensing
Detection
Anomalies
Aprendizaje Electrónico
Teledetección
Detección
Anomalías
Isolation Forest
Bosque de Aislamiento
title_short Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_full Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_fullStr Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_full_unstemmed Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
title_sort Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
dc.creator.none.fl_str_mv Banchero, Santiago
Veron, Santiago Ramón
Petek, Mariana
Sarrailhe, Sofia
De Abelleyra, Diego
author Banchero, Santiago
author_facet Banchero, Santiago
Veron, Santiago Ramón
Petek, Mariana
Sarrailhe, Sofia
De Abelleyra, Diego
author_role author
author2 Veron, Santiago Ramón
Petek, Mariana
Sarrailhe, Sofia
De Abelleyra, Diego
author2_role author
author
author
author
dc.subject.none.fl_str_mv Machine Learning
Remote Sensing
Detection
Anomalies
Aprendizaje Electrónico
Teledetección
Detección
Anomalías
Isolation Forest
Bosque de Aislamiento
topic Machine Learning
Remote Sensing
Detection
Anomalies
Aprendizaje Electrónico
Teledetección
Detección
Anomalías
Isolation Forest
Bosque de Aislamiento
dc.description.none.fl_txt_mv Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto.
Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
Fil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
Fil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; Argentina
Fil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; Argentina
Fil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
description Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto.
publishDate 2021
dc.date.none.fl_str_mv 2021-10-18
2022-04-20T10:38:03Z
2022-04-20T10:38:03Z
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/20.500.12123/11679
url http://hdl.handle.net/20.500.12123/11679
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Sociedad Argentina de Informática
publisher.none.fl_str_mv Sociedad Argentina de Informática
dc.source.none.fl_str_mv 50 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual)
reponame:INTA Digital (INTA)
instname:Instituto Nacional de Tecnología Agropecuaria
reponame_str INTA Digital (INTA)
collection INTA Digital (INTA)
instname_str Instituto Nacional de Tecnología Agropecuaria
repository.name.fl_str_mv INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuaria
repository.mail.fl_str_mv tripaldi.nicolas@inta.gob.ar
_version_ 1844619164106358784
score 12.559606