Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual
- Autores
- Banchero, Santiago; Veron, Santiago Ramón; Petek, Mariana; Sarrailhe, Sofia; De Abelleyra, Diego
- Año de publicación
- 2021
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto.
Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
Fil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina
Fil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; Argentina
Fil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; Argentina
Fil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina - Fuente
- 50 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual)
- Materia
-
Machine Learning
Remote Sensing
Detection
Anomalies
Aprendizaje Electrónico
Teledetección
Detección
Anomalías
Isolation Forest
Bosque de Aislamiento - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Instituto Nacional de Tecnología Agropecuaria
- OAI Identificador
- oai:localhost:20.500.12123/11679
Ver los metadatos del registro completo
id |
INTADig_4afe6836c260151590b07cad5bb83a3e |
---|---|
oai_identifier_str |
oai:localhost:20.500.12123/11679 |
network_acronym_str |
INTADig |
repository_id_str |
l |
network_name_str |
INTA Digital (INTA) |
spelling |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visualBanchero, SantiagoVeron, Santiago RamónPetek, MarianaSarrailhe, SofiaDe Abelleyra, DiegoMachine LearningRemote SensingDetectionAnomaliesAprendizaje ElectrónicoTeledetecciónDetecciónAnomalíasIsolation ForestBosque de AislamientoLas clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto.Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; ArgentinaFil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; ArgentinaFil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; ArgentinaFil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; ArgentinaFil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; ArgentinaSociedad Argentina de Informática2022-04-20T10:38:03Z2022-04-20T10:38:03Z2021-10-18info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://hdl.handle.net/20.500.12123/1167950 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual)reponame:INTA Digital (INTA)instname:Instituto Nacional de Tecnología Agropecuariaspainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)2025-09-29T13:45:32Zoai:localhost:20.500.12123/11679instacron:INTAInstitucionalhttp://repositorio.inta.gob.ar/Organismo científico-tecnológicoNo correspondehttp://repositorio.inta.gob.ar/oai/requesttripaldi.nicolas@inta.gob.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:l2025-09-29 13:45:32.574INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuariafalse |
dc.title.none.fl_str_mv |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
title |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
spellingShingle |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual Banchero, Santiago Machine Learning Remote Sensing Detection Anomalies Aprendizaje Electrónico Teledetección Detección Anomalías Isolation Forest Bosque de Aislamiento |
title_short |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
title_full |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
title_fullStr |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
title_full_unstemmed |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
title_sort |
Detección de outliers en muestras de entrenamiento generadas mediante interpretación visual |
dc.creator.none.fl_str_mv |
Banchero, Santiago Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego |
author |
Banchero, Santiago |
author_facet |
Banchero, Santiago Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego |
author_role |
author |
author2 |
Veron, Santiago Ramón Petek, Mariana Sarrailhe, Sofia De Abelleyra, Diego |
author2_role |
author author author author |
dc.subject.none.fl_str_mv |
Machine Learning Remote Sensing Detection Anomalies Aprendizaje Electrónico Teledetección Detección Anomalías Isolation Forest Bosque de Aislamiento |
topic |
Machine Learning Remote Sensing Detection Anomalies Aprendizaje Electrónico Teledetección Detección Anomalías Isolation Forest Bosque de Aislamiento |
dc.description.none.fl_txt_mv |
Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto. Fil: Banchero, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina Fil: Verón, S. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina Fil: Petek, M. Universidad de Buenos Aires. Facultad de Agronomía; Argentina Fil: Sarrailhe, S. Universidad de Buenos Aires. Facultad de Agronomía; Argentina Fil: Abelleyra, D. Instituto Nacional de Tecnología Agropecuaria (INTA). Instituto de Clima y Agua; Argentina |
description |
Las clasificaciones supervisadas son procesos extremadamente sensibles a la calidad de las muestras utilizadas. La presencia de outliers en las muestras de entrenamiento suele ser una fuente de error muy frecuente. El objetivo de este trabajo es presentar una metodología de detección de outliers con Isolation Forest, en muestras recolectadas mediante interpretación visual de imágenes satelitales generadas por el Proyecto MapBiomas Pampa Trinacional. Isolation Forest, el algoritmo no supervisado utilizado puede detectar anomalías directamente basándose en el concepto de aislamiento sin utilizar ninguna métrica. La metodología consiste en la identificación de outliers (preparación de muestras, modelado y definición del umbral) y la validación del método. El modelado permite etiquetar de manera automática cada muestra como outlier o normal a partir del score. Se logró verificar los píxeles de la muestra señalada como outlier y tipificar el error en 6 categorías. Los resultados muestran una cantidad decreciente de outliers a lo largo del periodo analizado. Los años con mayor cantidad de outliers tienen una correspondencia con los años de menor disponibilidad de imágenes para la construcción de los mosaicos y contribuciones importantes del tipo Error del Mosaico. La clase con mayor porcentaje de error fue Bosque cerrado (14.7%) y los tipos de errores con mayor proporción fueron Clase Mal Asignada (20.39%) y Borde (19.57%). La metodología propuesta permitió el mejoramiento de muestras obtenidas mediante interpretación visual de imágenes satelitales de manera automática con un 80% de acierto. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-10-18 2022-04-20T10:38:03Z 2022-04-20T10:38:03Z |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/20.500.12123/11679 |
url |
http://hdl.handle.net/20.500.12123/11679 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Sociedad Argentina de Informática |
publisher.none.fl_str_mv |
Sociedad Argentina de Informática |
dc.source.none.fl_str_mv |
50 Jornadas Argentinas de Informática (50 JAIIO), 13 Congreso Argentino de AgroInformática (CAI 2021), 18 al 29 de octubre de 2021 (virtual) reponame:INTA Digital (INTA) instname:Instituto Nacional de Tecnología Agropecuaria |
reponame_str |
INTA Digital (INTA) |
collection |
INTA Digital (INTA) |
instname_str |
Instituto Nacional de Tecnología Agropecuaria |
repository.name.fl_str_mv |
INTA Digital (INTA) - Instituto Nacional de Tecnología Agropecuaria |
repository.mail.fl_str_mv |
tripaldi.nicolas@inta.gob.ar |
_version_ |
1844619164106358784 |
score |
12.559606 |