Interpretabilidad de modelos de redes neuronales para visión por computadora

Autores: Stanchi, Oscar Agustín
Año de publicación: 2024
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.
Carrera: Doctorado en Ciencias Informáticas Lugar de trabajo: Instituto de Investigación en Informática (III-LIDI) Organismo: CONICET Año de inicio de beca: 2023 Año de finalización de beca: 2028 Apellido, Nombre del Director/a/e: Ronchetti, Franco Apellido, Nombre del Codirector/a/e: Hasperué, Waldo Lugar de desarrollo: Instituto de Investigación en Informática (III-LIDI) Áreas de conocimiento: Cs de la Computación Tipo de investigación: Aplicada
Facultad de Informática
Materia: Cs de la Computación
sistemas inteligentes
redes neuronales profundas
visión por computadora
interpretabilidad
fondo de ojo
intelligent systems
deep learning
computer vision
interpretability
fundus image
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/173159

Acceder

id	SEDICI_912dcb26f81594a1ad2212c06a826657
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/173159
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Interpretabilidad de modelos de redes neuronales para visión por computadoraInterpretability of neural network models for computer visionStanchi, Oscar AgustínCs de la Computaciónsistemas inteligentesredes neuronales profundasvisión por computadorainterpretabilidadfondo de ojointelligent systemsdeep learningcomputer visioninterpretabilityfundus imageLa inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.Carrera: Doctorado en Ciencias Informáticas Lugar de trabajo: Instituto de Investigación en Informática (III-LIDI) Organismo: CONICET Año de inicio de beca: 2023 Año de finalización de beca: 2028 Apellido, Nombre del Director/a/e: Ronchetti, Franco Apellido, Nombre del Codirector/a/e: Hasperué, Waldo Lugar de desarrollo: Instituto de Investigación en Informática (III-LIDI) Áreas de conocimiento: Cs de la Computación Tipo de investigación: AplicadaFacultad de Informática2024-11-20info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/173159spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-04-15T11:52:44Zoai:sedici.unlp.edu.ar:10915/173159Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-04-15 11:52:44.673SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Interpretabilidad de modelos de redes neuronales para visión por computadora Interpretability of neural network models for computer vision
title	Interpretabilidad de modelos de redes neuronales para visión por computadora
spellingShingle	Interpretabilidad de modelos de redes neuronales para visión por computadora Stanchi, Oscar Agustín Cs de la Computación sistemas inteligentes redes neuronales profundas visión por computadora interpretabilidad fondo de ojo intelligent systems deep learning computer vision interpretability fundus image
title_short	Interpretabilidad de modelos de redes neuronales para visión por computadora
title_full	Interpretabilidad de modelos de redes neuronales para visión por computadora
title_fullStr	Interpretabilidad de modelos de redes neuronales para visión por computadora
title_full_unstemmed	Interpretabilidad de modelos de redes neuronales para visión por computadora
title_sort	Interpretabilidad de modelos de redes neuronales para visión por computadora
dc.creator.none.fl_str_mv	Stanchi, Oscar Agustín
author	Stanchi, Oscar Agustín
author_facet	Stanchi, Oscar Agustín
author_role	author
dc.subject.none.fl_str_mv	Cs de la Computación sistemas inteligentes redes neuronales profundas visión por computadora interpretabilidad fondo de ojo intelligent systems deep learning computer vision interpretability fundus image
topic	Cs de la Computación sistemas inteligentes redes neuronales profundas visión por computadora interpretabilidad fondo de ojo intelligent systems deep learning computer vision interpretability fundus image
dc.description.none.fl_txt_mv	La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado. Carrera: Doctorado en Ciencias Informáticas Lugar de trabajo: Instituto de Investigación en Informática (III-LIDI) Organismo: CONICET Año de inicio de beca: 2023 Año de finalización de beca: 2028 Apellido, Nombre del Director/a/e: Ronchetti, Franco Apellido, Nombre del Codirector/a/e: Hasperué, Waldo Lugar de desarrollo: Instituto de Investigación en Informática (III-LIDI) Áreas de conocimiento: Cs de la Computación Tipo de investigación: Aplicada Facultad de Informática
description	La inteligencia artificial ha revolucionado diversas industrias, destacando las redes neuronales como uno de sus modelos más utilizados. Estos modelos son tradicionalmente considerados como de caja negra. En los últimos años, se han realizado varios esfuerzos para comprender su funcionamiento de forma tal que el mismo sea más predecible y modulable. La interpretabilidad es un campo de investigación que tiene como objetivo estudiar técnicas para comprender los estímulos por los cuales modelos de caja negra generan determinadas salidas. Se utiliza con un rol diagnóstico para descubrir cómo es la contribución de las capas ocultas en los modelos, y es de extrema importancia en el ámbito de la medicina.En particular, la retinopatía diabética es una enfermedad aguda que afecta a un enorme porcentaje de la población mundial y que puede tratarse con detección temprana. Por ello, sería de gran utilidad contar con modelos que permitan automatizar el análisis de imágenes de fondo de ojos, debido a que en muchas regiones el número de oftalmólogos disponibles es insuficiente. El objetivo es tener un modelo que permita determinar la calidad de una imagen para asistir a la captura y análisis de las mismas en tiempo real, y además que sea interpretable para poder otorgar feedback a los profesionales médicos y así entender qué características se tienen en cuenta en la clasificación. En el marco de esta línea de investigación se presentó un modelo encoder-decoder basado en la arquitectura VGG16 de predicción de calidad de imagen que se denominó VISTA. Al modelo se le incorporó un módulo de Concept Whitening, una técnica de interpretabilidad intrínseca, que indica en base a qué conceptos la red realiza sus predicciones. También se realizaron pruebas con RISE, un método post-hoc y local. Este genera un mapa de importancia que, al aplicarlo a imágenes, permite visualizar las regiones de la misma que fueron importantes para la predicción de determinada clase. El uso de diferentes métodos de interpretabilidad integrados en el modelo genera información visual interpretable para que los oftalmólogos entiendan la correctitud del modelo utilizado. La implementación de RISE se realizó con el framework Captum. También se implementó un dataset loader para los conjuntos de datos EyePACS y EyeQ cuyas imágenes sirven para evaluar retinopatía diabética y la calidad de las imágenes para esta patología, respectivamente. Estos conjuntos de datos fueron utilizados para el entrenamiento del modelo.Se iterará al respecto con el desarrollo de una aplicación que admita a los médicos y técnicos usar sus teléfonos móviles para tomar fotografías de fondo de ojos y así evaluarlas para detectar trastornos mediante modelos de IA, incluyendo una explicación del diagnóstico brindado, lo cual permitirá reducir significativamente la tasa de ceguera en países donde el acceso a servicios oftalmológicos es limitado.
publishDate	2024
dc.date.none.fl_str_mv	2024-11-20
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/173159
url	http://sedici.unlp.edu.ar/handle/10915/173159
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1862569321022095360
score	13.203462

Interpretabilidad de modelos de redes neuronales para visión por computadora

Publicaciones similares