Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)

Autores
Ryckeboer, Hugo Emilio; Spossito, Osvaldo Mario; Gargano, Cecilia Victoria; Prilusky, Elisa Mirta; Barone, Miriam Andrea Teresa; Procopio, Gastón Emanuel; Quintana, Fabio Hernán
Año de publicación
2016
Idioma
español castellano
Tipo de recurso
informe técnico
Estado
versión aceptada
Descripción
Al evaluar los logros de las distintas etapas, que se realizaron durante la investigación precedente (2013-2014), surgieron ideas de mejora que, en bien de no demorar el objetivo de tener un prototipo, fueron recogidas, y no evaluadas durante el proyecto anterior pasando al presente. Contando con un sistema funcionando, es sencillo sustituir componentes y ver si con ello se obtienen mejoras. A continuación, se señalan los avances de las 3 observaciones heredadas, que fueron las inquietudes centrales de este proyecto. 1- La lematización del idioma español disponible no daba resultados satisfactorios. En esta etapa se demuestra su mejora a realizar el procesamiento más rápido que la forma secuencial, se aceleró notablemente sin afectar la exhaustividad y relevancia. 2- Dada la posibilidad de extender la selección de documentos a corpus muy voluminosos, existen diversas ideas de subdividir el corpus en Grupos aplicando técnicas de Agrupamiento (Clustering), de modo tal de disminuir el espacio de búsqueda cuando se procesa una consulta. En este proyecto se incorporaron estas tecnologías a nuestro prototipo, con la intención de evaluar mejoras, pero se deberá reflexionar en un nuevo proyecto sobre la utilización conjunta de SVD (Descomposición en Valores Singulares) y agrupamiento. 3- Los sistemas que operan en gran escala deben recurrir necesariamente al uso en paralelo de varios procesadores. Se estudió la forma de paralelizar algunos algoritmos para acelerar adecuadamente los cómputos, demostrando que la mejora arroja resultados muy positivos, los tiempos bajan drásticamente. Se logró distribuir en placas de video, pero esto abren nuevos interrogantes que son motivos de nuevos proyectos.
Fil: Ryckeboer, Hugo Emilio. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Spositto, Osvaldo Mario. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Gargano, Cecilia Victoria. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Prilusky, Elisa Mirta. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Barone, Miriam Andrea Teresa. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Procopio, Gastón Emanuel. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Quintana, Fabio Hernán. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Materia
INDEXACION
ESTRATEGIAS DE BUSQUEDA
RECUPERACION DE LA INFORMACION
005.74
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
Repositorio Digital UNLaM
Institución
Universidad Nacional de La Matanza
OAI Identificador
oai:repositoriocyt.unlam.edu.ar:123456789/575

id RDUNLAM_c04d825d125c975ad070069dc84eb827
oai_identifier_str oai:repositoriocyt.unlam.edu.ar:123456789/575
network_acronym_str RDUNLAM
repository_id_str a
network_name_str Repositorio Digital UNLaM
spelling Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)Ryckeboer, Hugo EmilioSpossito, Osvaldo MarioGargano, Cecilia VictoriaPrilusky, Elisa MirtaBarone, Miriam Andrea TeresaProcopio, Gastón EmanuelQuintana, Fabio HernánINDEXACIONESTRATEGIAS DE BUSQUEDARECUPERACION DE LA INFORMACION005.74Al evaluar los logros de las distintas etapas, que se realizaron durante la investigación precedente (2013-2014), surgieron ideas de mejora que, en bien de no demorar el objetivo de tener un prototipo, fueron recogidas, y no evaluadas durante el proyecto anterior pasando al presente. Contando con un sistema funcionando, es sencillo sustituir componentes y ver si con ello se obtienen mejoras. A continuación, se señalan los avances de las 3 observaciones heredadas, que fueron las inquietudes centrales de este proyecto. 1- La lematización del idioma español disponible no daba resultados satisfactorios. En esta etapa se demuestra su mejora a realizar el procesamiento más rápido que la forma secuencial, se aceleró notablemente sin afectar la exhaustividad y relevancia. 2- Dada la posibilidad de extender la selección de documentos a corpus muy voluminosos, existen diversas ideas de subdividir el corpus en Grupos aplicando técnicas de Agrupamiento (Clustering), de modo tal de disminuir el espacio de búsqueda cuando se procesa una consulta. En este proyecto se incorporaron estas tecnologías a nuestro prototipo, con la intención de evaluar mejoras, pero se deberá reflexionar en un nuevo proyecto sobre la utilización conjunta de SVD (Descomposición en Valores Singulares) y agrupamiento. 3- Los sistemas que operan en gran escala deben recurrir necesariamente al uso en paralelo de varios procesadores. Se estudió la forma de paralelizar algunos algoritmos para acelerar adecuadamente los cómputos, demostrando que la mejora arroja resultados muy positivos, los tiempos bajan drásticamente. Se logró distribuir en placas de video, pero esto abren nuevos interrogantes que son motivos de nuevos proyectos.Fil: Ryckeboer, Hugo Emilio. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.Fil: Spositto, Osvaldo Mario. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.Fil: Gargano, Cecilia Victoria. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.Fil: Prilusky, Elisa Mirta. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.Fil: Barone, Miriam Andrea Teresa. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.Fil: Procopio, Gastón Emanuel. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.Fil: Quintana, Fabio Hernán. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones TecnológicasRyckeboer, Hugo EmilioSpositto, Osvaldo Mario20162021-06-10T21:31:41Z2021-06-10T21:31:41Zinfo:eu-repo/semantics/reportinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_18ghinfo:ar-repo/semantics/informeTecnicoapplication/pdfapplication/pdfRyckeboer, H, E., Spositto, O. M., Gargano, C. V., Prilusky, E. M., Barone, M. A. T., Procopio, G. E., Quintana, F. H. (2016). Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente) [Archivo PDF]. San Justo: Universidad Nacional de La Matanza. Recuperado de http://repositoriocyt.unlam.edu.ar/handle/123456789/575http://repositoriocyt.unlam.edu.ar/handle/123456789/575spainfo:eu-repo/grantAgreement/SPU/PROINCE/C177/AR. Buenos Aires. San Justo/Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/Licencia Creative Commons Atribución-NoComercial-CompartirIgual 2.5 Argentina (CC BY-NC-SA 2.5 AR)reponame:Repositorio Digital UNLaMinstname:Universidad Nacional de La Matanza2025-10-16T10:05:24Zoai:repositoriocyt.unlam.edu.ar:123456789/575instacron:UNLaMInstitucionalhttps://repositoriocyt.unlam.edu.ar/Universidad públicaNo correspondehttps://repositoriocyt.unlam.edu.ar/oaicytunlam@gmail.comArgentinaNo correspondeNo correspondeNo correspondeopendoar:a2025-10-16 10:05:24.566Repositorio Digital UNLaM - Universidad Nacional de La Matanzafalse
dc.title.none.fl_str_mv Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
title Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
spellingShingle Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
Ryckeboer, Hugo Emilio
INDEXACION
ESTRATEGIAS DE BUSQUEDA
RECUPERACION DE LA INFORMACION
005.74
title_short Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
title_full Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
title_fullStr Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
title_full_unstemmed Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
title_sort Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
dc.creator.none.fl_str_mv Ryckeboer, Hugo Emilio
Spossito, Osvaldo Mario
Gargano, Cecilia Victoria
Prilusky, Elisa Mirta
Barone, Miriam Andrea Teresa
Procopio, Gastón Emanuel
Quintana, Fabio Hernán
author Ryckeboer, Hugo Emilio
author_facet Ryckeboer, Hugo Emilio
Spossito, Osvaldo Mario
Gargano, Cecilia Victoria
Prilusky, Elisa Mirta
Barone, Miriam Andrea Teresa
Procopio, Gastón Emanuel
Quintana, Fabio Hernán
author_role author
author2 Spossito, Osvaldo Mario
Gargano, Cecilia Victoria
Prilusky, Elisa Mirta
Barone, Miriam Andrea Teresa
Procopio, Gastón Emanuel
Quintana, Fabio Hernán
author2_role author
author
author
author
author
author
dc.contributor.none.fl_str_mv Ryckeboer, Hugo Emilio
Spositto, Osvaldo Mario
dc.subject.none.fl_str_mv INDEXACION
ESTRATEGIAS DE BUSQUEDA
RECUPERACION DE LA INFORMACION
005.74
topic INDEXACION
ESTRATEGIAS DE BUSQUEDA
RECUPERACION DE LA INFORMACION
005.74
dc.description.none.fl_txt_mv Al evaluar los logros de las distintas etapas, que se realizaron durante la investigación precedente (2013-2014), surgieron ideas de mejora que, en bien de no demorar el objetivo de tener un prototipo, fueron recogidas, y no evaluadas durante el proyecto anterior pasando al presente. Contando con un sistema funcionando, es sencillo sustituir componentes y ver si con ello se obtienen mejoras. A continuación, se señalan los avances de las 3 observaciones heredadas, que fueron las inquietudes centrales de este proyecto. 1- La lematización del idioma español disponible no daba resultados satisfactorios. En esta etapa se demuestra su mejora a realizar el procesamiento más rápido que la forma secuencial, se aceleró notablemente sin afectar la exhaustividad y relevancia. 2- Dada la posibilidad de extender la selección de documentos a corpus muy voluminosos, existen diversas ideas de subdividir el corpus en Grupos aplicando técnicas de Agrupamiento (Clustering), de modo tal de disminuir el espacio de búsqueda cuando se procesa una consulta. En este proyecto se incorporaron estas tecnologías a nuestro prototipo, con la intención de evaluar mejoras, pero se deberá reflexionar en un nuevo proyecto sobre la utilización conjunta de SVD (Descomposición en Valores Singulares) y agrupamiento. 3- Los sistemas que operan en gran escala deben recurrir necesariamente al uso en paralelo de varios procesadores. Se estudió la forma de paralelizar algunos algoritmos para acelerar adecuadamente los cómputos, demostrando que la mejora arroja resultados muy positivos, los tiempos bajan drásticamente. Se logró distribuir en placas de video, pero esto abren nuevos interrogantes que son motivos de nuevos proyectos.
Fil: Ryckeboer, Hugo Emilio. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Spositto, Osvaldo Mario. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Gargano, Cecilia Victoria. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Prilusky, Elisa Mirta. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Barone, Miriam Andrea Teresa. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Procopio, Gastón Emanuel. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
Fil: Quintana, Fabio Hernán. Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas; Argentina.
description Al evaluar los logros de las distintas etapas, que se realizaron durante la investigación precedente (2013-2014), surgieron ideas de mejora que, en bien de no demorar el objetivo de tener un prototipo, fueron recogidas, y no evaluadas durante el proyecto anterior pasando al presente. Contando con un sistema funcionando, es sencillo sustituir componentes y ver si con ello se obtienen mejoras. A continuación, se señalan los avances de las 3 observaciones heredadas, que fueron las inquietudes centrales de este proyecto. 1- La lematización del idioma español disponible no daba resultados satisfactorios. En esta etapa se demuestra su mejora a realizar el procesamiento más rápido que la forma secuencial, se aceleró notablemente sin afectar la exhaustividad y relevancia. 2- Dada la posibilidad de extender la selección de documentos a corpus muy voluminosos, existen diversas ideas de subdividir el corpus en Grupos aplicando técnicas de Agrupamiento (Clustering), de modo tal de disminuir el espacio de búsqueda cuando se procesa una consulta. En este proyecto se incorporaron estas tecnologías a nuestro prototipo, con la intención de evaluar mejoras, pero se deberá reflexionar en un nuevo proyecto sobre la utilización conjunta de SVD (Descomposición en Valores Singulares) y agrupamiento. 3- Los sistemas que operan en gran escala deben recurrir necesariamente al uso en paralelo de varios procesadores. Se estudió la forma de paralelizar algunos algoritmos para acelerar adecuadamente los cómputos, demostrando que la mejora arroja resultados muy positivos, los tiempos bajan drásticamente. Se logró distribuir en placas de video, pero esto abren nuevos interrogantes que son motivos de nuevos proyectos.
publishDate 2016
dc.date.none.fl_str_mv 2016
2021-06-10T21:31:41Z
2021-06-10T21:31:41Z
dc.type.none.fl_str_mv info:eu-repo/semantics/report
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_18gh
info:ar-repo/semantics/informeTecnico
format report
status_str acceptedVersion
dc.identifier.none.fl_str_mv Ryckeboer, H, E., Spositto, O. M., Gargano, C. V., Prilusky, E. M., Barone, M. A. T., Procopio, G. E., Quintana, F. H. (2016). Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente) [Archivo PDF]. San Justo: Universidad Nacional de La Matanza. Recuperado de http://repositoriocyt.unlam.edu.ar/handle/123456789/575
http://repositoriocyt.unlam.edu.ar/handle/123456789/575
identifier_str_mv Ryckeboer, H, E., Spositto, O. M., Gargano, C. V., Prilusky, E. M., Barone, M. A. T., Procopio, G. E., Quintana, F. H. (2016). Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente) [Archivo PDF]. San Justo: Universidad Nacional de La Matanza. Recuperado de http://repositoriocyt.unlam.edu.ar/handle/123456789/575
url http://repositoriocyt.unlam.edu.ar/handle/123456789/575
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/grantAgreement/SPU/PROINCE/C177/AR. Buenos Aires. San Justo/Optimización de la recuperación de documentos, usando como técnica base el LSI (Lematización Semántica Latente)
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Licencia Creative Commons Atribución-NoComercial-CompartirIgual 2.5 Argentina (CC BY-NC-SA 2.5 AR)
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Licencia Creative Commons Atribución-NoComercial-CompartirIgual 2.5 Argentina (CC BY-NC-SA 2.5 AR)
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas
publisher.none.fl_str_mv Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas
dc.source.none.fl_str_mv reponame:Repositorio Digital UNLaM
instname:Universidad Nacional de La Matanza
reponame_str Repositorio Digital UNLaM
collection Repositorio Digital UNLaM
instname_str Universidad Nacional de La Matanza
repository.name.fl_str_mv Repositorio Digital UNLaM - Universidad Nacional de La Matanza
repository.mail.fl_str_mv cytunlam@gmail.com
_version_ 1846145781062434816
score 13.22299