Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes

Autores
Arellano, Franco Javier
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión aceptada
Colaborador/a o director/a de tesis
Orlando, José Ignacio
Telesco, Lucas Gabriel
Descripción
La mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores.
Fil: Arellano, Franco Javier. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
Fil: Orlando, José Ignacio. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
Fil: Telesco, Lucas Gabriel. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
Materia
Algoritmos de aprendizaje profundo
Google Images
Medicina
Recolección de imágenes
Inteligencia artificial
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc/2.5/ar/
Repositorio
RIDAA (UNICEN)
Institución
Universidad Nacional del Centro de la Provincia de Buenos Aires
OAI Identificador
oai:ridaa.unicen.edu.ar:123456789/4414

id RIDUNICEN_089707aad58d072c368a41492b945be2
oai_identifier_str oai:ridaa.unicen.edu.ar:123456789/4414
network_acronym_str RIDUNICEN
repository_id_str a
network_name_str RIDAA (UNICEN)
spelling Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenesArellano, Franco JavierAlgoritmos de aprendizaje profundoGoogle ImagesMedicinaRecolección de imágenesInteligencia artificialLa mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores.Fil: Arellano, Franco Javier. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.Fil: Orlando, José Ignacio. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.Fil: Telesco, Lucas Gabriel. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias ExactasOrlando, José IgnacioTelesco, Lucas Gabriel2024-022025-04-21T11:22:27Z2025-04-21T11:22:27Zinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfapplication/pdfArellano, F. J. (2024). Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes [Tesis de grado]. Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina.https://www.ridaa.unicen.edu.ar/handle/123456789/4414spahttp://creativecommons.org/licenses/by-nc/2.5/ar/info:eu-repo/semantics/openAccessreponame:RIDAA (UNICEN)instname:Universidad Nacional del Centro de la Provincia de Buenos Aires2025-10-23T11:15:18Zoai:ridaa.unicen.edu.ar:123456789/4414instacron:UNICENInstitucionalhttps://www.ridaa.unicen.edu.ar/Universidad públicaNo correspondehttps://www.ridaa.unicen.edu.ar/oailleiboff@rec.unicen.edu.ar;gimeroni@rec.unicen.edu.ar;lvarela@rec.unicen.edu.ar ;ArgentinaNo correspondeNo correspondeNo correspondeopendoar:a2025-10-23 11:15:18.34RIDAA (UNICEN) - Universidad Nacional del Centro de la Provincia de Buenos Airesfalse
dc.title.none.fl_str_mv Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
title Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
spellingShingle Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
Arellano, Franco Javier
Algoritmos de aprendizaje profundo
Google Images
Medicina
Recolección de imágenes
Inteligencia artificial
title_short Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
title_full Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
title_fullStr Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
title_full_unstemmed Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
title_sort Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
dc.creator.none.fl_str_mv Arellano, Franco Javier
author Arellano, Franco Javier
author_facet Arellano, Franco Javier
author_role author
dc.contributor.none.fl_str_mv Orlando, José Ignacio
Telesco, Lucas Gabriel
dc.subject.none.fl_str_mv Algoritmos de aprendizaje profundo
Google Images
Medicina
Recolección de imágenes
Inteligencia artificial
topic Algoritmos de aprendizaje profundo
Google Images
Medicina
Recolección de imágenes
Inteligencia artificial
dc.description.none.fl_txt_mv La mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores.
Fil: Arellano, Franco Javier. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
Fil: Orlando, José Ignacio. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
Fil: Telesco, Lucas Gabriel. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
description La mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores.
publishDate 2024
dc.date.none.fl_str_mv 2024-02
2025-04-21T11:22:27Z
2025-04-21T11:22:27Z
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv Arellano, F. J. (2024). Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes [Tesis de grado]. Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina.
https://www.ridaa.unicen.edu.ar/handle/123456789/4414
identifier_str_mv Arellano, F. J. (2024). Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes [Tesis de grado]. Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina.
url https://www.ridaa.unicen.edu.ar/handle/123456789/4414
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv http://creativecommons.org/licenses/by-nc/2.5/ar/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc/2.5/ar/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas
publisher.none.fl_str_mv Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas
dc.source.none.fl_str_mv reponame:RIDAA (UNICEN)
instname:Universidad Nacional del Centro de la Provincia de Buenos Aires
reponame_str RIDAA (UNICEN)
collection RIDAA (UNICEN)
instname_str Universidad Nacional del Centro de la Provincia de Buenos Aires
repository.name.fl_str_mv RIDAA (UNICEN) - Universidad Nacional del Centro de la Provincia de Buenos Aires
repository.mail.fl_str_mv lleiboff@rec.unicen.edu.ar;gimeroni@rec.unicen.edu.ar;lvarela@rec.unicen.edu.ar ;
_version_ 1846785131001413632
score 12.982451