Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica
- Autores
- Guerra, Francisco; Monti, Kevin; Fernández, Juan Manuel
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- El acceso a información en documentos académicos no estructurados, como programas de asignaturas en PDF, continúa siendo un obstáculo para la comunidad universitaria. Este trabajo propone una solución basada en Retrieval-Augmented Generation (RAG), que integra modelos de lenguaje de gran escala (LLMs) con recuperación semántica para habilitar consultas en lenguaje natural sobre programas de la Universidad Nacional de Luján. La metodología incluye crawling automatizado, extracción y segmentación de texto, vectorización y almacenamiento, complementados con un enrutador inteligente que dirige consultas al índice de cada carrera. Las pruebas preliminares evidencian la capacidad del sistema para recuperar información precisa sobre objetivos, contenidos y docentes, validando la aplicabilidad de RAG en el ámbito académico. Como líneas futuras se plantea optimizar el preprocesamiento OCR, ampliar el corpus y desarrollar una interfaz web accesible para la comunidad.
Red de Universidades con Carreras en Informática - Materia
-
Ciencias Informáticas
Recuperación Aumentada por Generación (RAG)
Modelo de Lenguaje de Gran escala (LLM)
OCR
Crawling
Vectorización
Indice - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/191535
Ver los metadatos del registro completo
| id |
SEDICI_5b2051b6502f8b86004db420b9480779 |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/191535 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académicaGuerra, FranciscoMonti, KevinFernández, Juan ManuelCiencias InformáticasRecuperación Aumentada por Generación (RAG)Modelo de Lenguaje de Gran escala (LLM)OCRCrawlingVectorizaciónIndiceEl acceso a información en documentos académicos no estructurados, como programas de asignaturas en PDF, continúa siendo un obstáculo para la comunidad universitaria. Este trabajo propone una solución basada en Retrieval-Augmented Generation (RAG), que integra modelos de lenguaje de gran escala (LLMs) con recuperación semántica para habilitar consultas en lenguaje natural sobre programas de la Universidad Nacional de Luján. La metodología incluye crawling automatizado, extracción y segmentación de texto, vectorización y almacenamiento, complementados con un enrutador inteligente que dirige consultas al índice de cada carrera. Las pruebas preliminares evidencian la capacidad del sistema para recuperar información precisa sobre objetivos, contenidos y docentes, validando la aplicabilidad de RAG en el ámbito académico. Como líneas futuras se plantea optimizar el preprocesamiento OCR, ampliar el corpus y desarrollar una interfaz web accesible para la comunidad.Red de Universidades con Carreras en Informática2025-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf1165-1169http://sedici.unlp.edu.ar/handle/10915/191535spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-8258-99-7info:eu-repo/semantics/reference/hdl/10915/189846info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-04-15T11:58:50Zoai:sedici.unlp.edu.ar:10915/191535Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-04-15 11:58:50.604SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica |
| title |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica |
| spellingShingle |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica Guerra, Francisco Ciencias Informáticas Recuperación Aumentada por Generación (RAG) Modelo de Lenguaje de Gran escala (LLM) OCR Crawling Vectorización Indice |
| title_short |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica |
| title_full |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica |
| title_fullStr |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica |
| title_full_unstemmed |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica |
| title_sort |
Sistema de generación aumentada por recuperación (RAG) para el acceso a información académica |
| dc.creator.none.fl_str_mv |
Guerra, Francisco Monti, Kevin Fernández, Juan Manuel |
| author |
Guerra, Francisco |
| author_facet |
Guerra, Francisco Monti, Kevin Fernández, Juan Manuel |
| author_role |
author |
| author2 |
Monti, Kevin Fernández, Juan Manuel |
| author2_role |
author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas Recuperación Aumentada por Generación (RAG) Modelo de Lenguaje de Gran escala (LLM) OCR Crawling Vectorización Indice |
| topic |
Ciencias Informáticas Recuperación Aumentada por Generación (RAG) Modelo de Lenguaje de Gran escala (LLM) OCR Crawling Vectorización Indice |
| dc.description.none.fl_txt_mv |
El acceso a información en documentos académicos no estructurados, como programas de asignaturas en PDF, continúa siendo un obstáculo para la comunidad universitaria. Este trabajo propone una solución basada en Retrieval-Augmented Generation (RAG), que integra modelos de lenguaje de gran escala (LLMs) con recuperación semántica para habilitar consultas en lenguaje natural sobre programas de la Universidad Nacional de Luján. La metodología incluye crawling automatizado, extracción y segmentación de texto, vectorización y almacenamiento, complementados con un enrutador inteligente que dirige consultas al índice de cada carrera. Las pruebas preliminares evidencian la capacidad del sistema para recuperar información precisa sobre objetivos, contenidos y docentes, validando la aplicabilidad de RAG en el ámbito académico. Como líneas futuras se plantea optimizar el preprocesamiento OCR, ampliar el corpus y desarrollar una interfaz web accesible para la comunidad. Red de Universidades con Carreras en Informática |
| description |
El acceso a información en documentos académicos no estructurados, como programas de asignaturas en PDF, continúa siendo un obstáculo para la comunidad universitaria. Este trabajo propone una solución basada en Retrieval-Augmented Generation (RAG), que integra modelos de lenguaje de gran escala (LLMs) con recuperación semántica para habilitar consultas en lenguaje natural sobre programas de la Universidad Nacional de Luján. La metodología incluye crawling automatizado, extracción y segmentación de texto, vectorización y almacenamiento, complementados con un enrutador inteligente que dirige consultas al índice de cada carrera. Las pruebas preliminares evidencian la capacidad del sistema para recuperar información precisa sobre objetivos, contenidos y docentes, validando la aplicabilidad de RAG en el ámbito académico. Como líneas futuras se plantea optimizar el preprocesamiento OCR, ampliar el corpus y desarrollar una interfaz web accesible para la comunidad. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-10 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/191535 |
| url |
http://sedici.unlp.edu.ar/handle/10915/191535 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/isbn/978-987-8258-99-7 info:eu-repo/semantics/reference/hdl/10915/189846 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf 1165-1169 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1862569412772495360 |
| score |
13.203462 |