Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes
- Autores
- Arellano, Franco Javier
- Año de publicación
- 2024
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión aceptada
- Colaborador/a o director/a de tesis
- Orlando, José Ignacio
Telesco, Lucas Gabriel - Descripción
- La mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores.
Fil: Arellano, Franco Javier. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
Fil: Orlando, José Ignacio. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.
Fil: Telesco, Lucas Gabriel. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. - Materia
-
Algoritmos de aprendizaje profundo
Google Images
Medicina
Recolección de imágenes
Inteligencia artificial - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc/2.5/ar/
- Repositorio
.jpg)
- Institución
- Universidad Nacional del Centro de la Provincia de Buenos Aires
- OAI Identificador
- oai:ridaa.unicen.edu.ar:123456789/4414
Ver los metadatos del registro completo
| id |
RIDUNICEN_089707aad58d072c368a41492b945be2 |
|---|---|
| oai_identifier_str |
oai:ridaa.unicen.edu.ar:123456789/4414 |
| network_acronym_str |
RIDUNICEN |
| repository_id_str |
a |
| network_name_str |
RIDAA (UNICEN) |
| spelling |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenesArellano, Franco JavierAlgoritmos de aprendizaje profundoGoogle ImagesMedicinaRecolección de imágenesInteligencia artificialLa mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores.Fil: Arellano, Franco Javier. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.Fil: Orlando, José Ignacio. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.Fil: Telesco, Lucas Gabriel. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina.Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias ExactasOrlando, José IgnacioTelesco, Lucas Gabriel2024-022025-04-21T11:22:27Z2025-04-21T11:22:27Zinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfapplication/pdfArellano, F. J. (2024). Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes [Tesis de grado]. Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina.https://www.ridaa.unicen.edu.ar/handle/123456789/4414spahttp://creativecommons.org/licenses/by-nc/2.5/ar/info:eu-repo/semantics/openAccessreponame:RIDAA (UNICEN)instname:Universidad Nacional del Centro de la Provincia de Buenos Aires2025-10-23T11:15:18Zoai:ridaa.unicen.edu.ar:123456789/4414instacron:UNICENInstitucionalhttps://www.ridaa.unicen.edu.ar/Universidad públicaNo correspondehttps://www.ridaa.unicen.edu.ar/oailleiboff@rec.unicen.edu.ar;gimeroni@rec.unicen.edu.ar;lvarela@rec.unicen.edu.ar ;ArgentinaNo correspondeNo correspondeNo correspondeopendoar:a2025-10-23 11:15:18.34RIDAA (UNICEN) - Universidad Nacional del Centro de la Provincia de Buenos Airesfalse |
| dc.title.none.fl_str_mv |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes |
| title |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes |
| spellingShingle |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes Arellano, Franco Javier Algoritmos de aprendizaje profundo Google Images Medicina Recolección de imágenes Inteligencia artificial |
| title_short |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes |
| title_full |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes |
| title_fullStr |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes |
| title_full_unstemmed |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes |
| title_sort |
Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes |
| dc.creator.none.fl_str_mv |
Arellano, Franco Javier |
| author |
Arellano, Franco Javier |
| author_facet |
Arellano, Franco Javier |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Orlando, José Ignacio Telesco, Lucas Gabriel |
| dc.subject.none.fl_str_mv |
Algoritmos de aprendizaje profundo Google Images Medicina Recolección de imágenes Inteligencia artificial |
| topic |
Algoritmos de aprendizaje profundo Google Images Medicina Recolección de imágenes Inteligencia artificial |
| dc.description.none.fl_txt_mv |
La mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores. Fil: Arellano, Franco Javier. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. Fil: Orlando, José Ignacio. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. Fil: Telesco, Lucas Gabriel. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. |
| description |
La mejora en la eficacia de los algoritmos de aprendizaje profundo ha despertado un interés generalizado en esta tecnología. Uno de los campos donde ha tenido un impacto más significativo es la medicina, donde la capacidad de estos algoritmos para reconocer patrones se ha explotado con éxito para analizar imágenes de patologías complejas y proporcionar diagnósticos precisos. Para obtener buenos resultados, los algoritmos de aprendizaje profundo requieren ser entrenados con una gran cantidad de datos. Esto suele ser dificultoso en medicina, por ejemplo, donde la obtención de los estudios implica colaborar con diversos profesionales y pacientes y hacer uso de equipamiento complejo y costoso. En este trabajo se presenta el desarrollo de una plataforma diseñada para obtener imágenes mediante la extracción automática de la web, conocida como web scraping. Nuestro objetivo principal es recolectar un número importante de imágenes obtenidas a través del motor de búsqueda de Google Images para una consulta específica, y almacenarlas en un único repositorio para su posterior procesamiento y análisis. La solución propuesta, desarrollada íntegramente en Python, utiliza la biblioteca Selenium para interactuar con las interfaces web y realizar el scraping del contenido de forma eficiente. Se plantearon dos implementaciones, una secuencial y otra concurrente, y se analizaron los tiempos de descarga de cada una. Además, se propuso la integración de un módulo de detección de anomalías para el filtrado de imágenes no adecuadas al dominio esperado, a través de una API REST. A partir de esta incorporación, se plantearon dos alternativas adicionales, una basada en una regla heurística que prioriza búsquedas y recorridos en imágenes similares a las esperadas, y otra que poda las descargas de aquellas imágenes detectadas como anómalas. El algoritmo propuesto demostró ser capaz de obtener un gran número de imágenes en tiempos cortos, lo que favorecerá su aplicación para recolectar datos para entrenamiento de algoritmos auto-supervisados. Asimismo, la implementación concurrente combinada con la estrategia de poda mostró ser lo suficientemente robusta como para recolectar imágenes de utilidad para las aplicaciones posteriores. |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-02 2025-04-21T11:22:27Z 2025-04-21T11:22:27Z |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/acceptedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
| format |
bachelorThesis |
| status_str |
acceptedVersion |
| dc.identifier.none.fl_str_mv |
Arellano, F. J. (2024). Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes [Tesis de grado]. Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina. https://www.ridaa.unicen.edu.ar/handle/123456789/4414 |
| identifier_str_mv |
Arellano, F. J. (2024). Desarrollo de una plataforma web asistida por inteligencia artificial para descarga masiva de imágenes [Tesis de grado]. Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina. |
| url |
https://www.ridaa.unicen.edu.ar/handle/123456789/4414 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc/2.5/ar/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc/2.5/ar/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf application/pdf |
| dc.publisher.none.fl_str_mv |
Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas |
| publisher.none.fl_str_mv |
Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas |
| dc.source.none.fl_str_mv |
reponame:RIDAA (UNICEN) instname:Universidad Nacional del Centro de la Provincia de Buenos Aires |
| reponame_str |
RIDAA (UNICEN) |
| collection |
RIDAA (UNICEN) |
| instname_str |
Universidad Nacional del Centro de la Provincia de Buenos Aires |
| repository.name.fl_str_mv |
RIDAA (UNICEN) - Universidad Nacional del Centro de la Provincia de Buenos Aires |
| repository.mail.fl_str_mv |
lleiboff@rec.unicen.edu.ar;gimeroni@rec.unicen.edu.ar;lvarela@rec.unicen.edu.ar ; |
| _version_ |
1846785131001413632 |
| score |
12.982451 |