Interpretabilidad de modelos de redes neuronales para visión por computadora

Autores
Stanchi, Oscar Agustín
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.
Carrera: Doctorado en Ciencias Informáticas Lugar de trabajo: Instituto de Investigación en Informática (III-LIDI) Organismo: CONICET Año de inicio de beca: 2023 Año de finalización de beca: 2028 Apellido, Nombre del Director/a/e: Ronchetti, Franco Apellido, Nombre del Codirector/a/e: Hasperué, Waldo Lugar de desarrollo: Instituto de Investigación en Informática (III-LIDI) Áreas de conocimiento: Cs de la Computación Tipo de investigación: Aplicada
Facultad de Informática
Materia
Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/173159

id SEDICI_912dcb26f81594a1ad2212c06a826657
oai_identifier_str oai:sedici.unlp.edu.ar:10915/173159
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Interpretabilidad de modelos de redes neuronales para visión por computadoraInterpretability of neural network models for computer visionStanchi, Oscar AgustínCs de la Computaciónsistemas inteligentesredes neuronales profundasvisión por computadorainterpretabilidadfondo de ojointelligent systemsdeep learningcomputer visioninterpretabilityfundus imageLa inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.Carrera: Doctorado en Ciencias Informáticas Lugar de trabajo: Instituto de Investigación en Informática (III-LIDI) Organismo: CONICET Año de inicio de beca: 2023 Año de finalización de beca: 2028 Apellido, Nombre del Director/a/e: Ronchetti, Franco Apellido, Nombre del Codirector/a/e: Hasperué, Waldo Lugar de desarrollo: Instituto de Investigación en Informática (III-LIDI) Áreas de conocimiento: Cs de la Computación Tipo de investigación: AplicadaFacultad de Informática2024-11-20info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/173159spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-04-15T11:52:44Zoai:sedici.unlp.edu.ar:10915/173159Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-04-15 11:52:44.673SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Interpretabilidad de modelos de redes neuronales para visión por computadora
Interpretability of neural network models for computer vision
title Interpretabilidad de modelos de redes neuronales para visión por computadora
spellingShingle Interpretabilidad de modelos de redes neuronales para visión por computadora
Stanchi, Oscar Agustín
Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
title_short Interpretabilidad de modelos de redes neuronales para visión por computadora
title_full Interpretabilidad de modelos de redes neuronales para visión por computadora
title_fullStr Interpretabilidad de modelos de redes neuronales para visión por computadora
title_full_unstemmed Interpretabilidad de modelos de redes neuronales para visión por computadora
title_sort Interpretabilidad de modelos de redes neuronales para visión por computadora
dc.creator.none.fl_str_mv Stanchi, Oscar Agustín
author Stanchi, Oscar Agustín
author_facet Stanchi, Oscar Agustín
author_role author
dc.subject.none.fl_str_mv Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
topic Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
dc.description.none.fl_txt_mv La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.
Carrera: Doctorado en Ciencias Informáticas Lugar de trabajo: Instituto de Investigación en Informática (III-LIDI) Organismo: CONICET Año de inicio de beca: 2023 Año de finalización de beca: 2028 Apellido, Nombre del Director/a/e: Ronchetti, Franco Apellido, Nombre del Codirector/a/e: Hasperué, Waldo Lugar de desarrollo: Instituto de Investigación en Informática (III-LIDI) Áreas de conocimiento: Cs de la Computación Tipo de investigación: Aplicada
Facultad de Informática
description La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.
publishDate 2024
dc.date.none.fl_str_mv 2024-11-20
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/173159
url http://sedici.unlp.edu.ar/handle/10915/173159
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1862569321022095360
score 13.203462