Plataforma de Indexación Distribuida para Motores de Búsqueda

Autores
Etchart, Juan Martín
Año de publicación
2017
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión aceptada
Colaborador/a o director/a de tesis
Tolosa, Gabriel
Descripción
Fil: Etchart, Juan Martín. Universidad Nacional de Luján, Argentina.
El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. En la actualidad se cuenta con un gran volumen de datos a procesar, esto se presenta como un escenario ideal para pensar en una división del trabajo. La idea principal de la indexación distribuida es balancear las cargas de procesamiento trabajando de forma paralela. La distribución de cargas no es un proceso que se comporte de manera lineal, esto significa que, no necesariamente si un trabajo que es realizado por una sola computadora insume cierto tiempo, al dividirlo entre dos se llevará acabo en la mitad del tiempo. El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. Para la Plataforma de Indexación Distribuida se pretende codificar un módulo de particionamiento de la colección. Este módulo debe ofrecer dos tipos de estrategias, particionado por documentos y por términos. El proceso de distribución de los documentos entre los nodos puede realizarse de distintas maneras. Una de ellas consiste en dividir la cantidad de documentos entre los nodos de manera equitativa (Cant. Documentos / Cant. Nodos). Otra, se basa en repartir los documentos eligiendo el nodo que menos carga tiene. Esta diferencia entre la distribución de los documentos afectará de manera directa sobre los tiempos de indexación, y es un aspecto importante que se desea evaluar. Por otro lado, es posible hacer una división por términos y no por documentos. Esto significa que, a cada nodo se le asigna una cierta cantidad de términos que solo él tendrá. De igual manera que la partición por documentos, se ofrecen dos métodos. El primero consiste en dividir la cantidad de palabras entre los nodos de manera igualitaria (Cant. Términos / Cant. Nodos), y el otro, reparte los términos eligiendo el nodo que tiene menos carga. Si bien el particionamiento por términos es un aspecto que mejora notablemente la recuperación, se pretende realizar un análisis sobre su influencia en el proceso de indexación. Realizar pruebas utilizando las distintas configuraciones que ofrece la plataforma y analizar utilizando distintas métricas sobre los tiempos del proceso de indexación es otro de los objetivos principales de este trabajo. Además, se analiza qué configuración presenta la mejor eficiencia al indexar la colección de mayor tamaño sobre la arquitectura disponible, ya que hoy en día la indexación de grandes cantidades de datos es el escenario mas cotidiano. Finalmente, la plataforma desarrollada resulta una herramienta con fines educativos para asignaturas de recuperación de información y motores de búsqueda. Y dado que genera índices con Terrier, puede ser utilizada para pruebas en trabajos de investigación.
Materia
Índices
Indexación
Plataformas
Datos
Recuperación de información
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-nd/2.5/ar/
Repositorio
REDIUNLU (UNLu)
Institución
Universidad Nacional de Luján
OAI Identificador
oai:ri.unlu.edu.ar:rediunlu/1170

id REDIUNLU_810c0fcbe9a4a063ebb4865633d9173b
oai_identifier_str oai:ri.unlu.edu.ar:rediunlu/1170
network_acronym_str REDIUNLU
repository_id_str w
network_name_str REDIUNLU (UNLu)
spelling Plataforma de Indexación Distribuida para Motores de BúsquedaEtchart, Juan MartínÍndicesIndexaciónPlataformasDatosRecuperación de informaciónFil: Etchart, Juan Martín. Universidad Nacional de Luján, Argentina.El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. En la actualidad se cuenta con un gran volumen de datos a procesar, esto se presenta como un escenario ideal para pensar en una división del trabajo. La idea principal de la indexación distribuida es balancear las cargas de procesamiento trabajando de forma paralela. La distribución de cargas no es un proceso que se comporte de manera lineal, esto significa que, no necesariamente si un trabajo que es realizado por una sola computadora insume cierto tiempo, al dividirlo entre dos se llevará acabo en la mitad del tiempo. El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. Para la Plataforma de Indexación Distribuida se pretende codificar un módulo de particionamiento de la colección. Este módulo debe ofrecer dos tipos de estrategias, particionado por documentos y por términos. El proceso de distribución de los documentos entre los nodos puede realizarse de distintas maneras. Una de ellas consiste en dividir la cantidad de documentos entre los nodos de manera equitativa (Cant. Documentos / Cant. Nodos). Otra, se basa en repartir los documentos eligiendo el nodo que menos carga tiene. Esta diferencia entre la distribución de los documentos afectará de manera directa sobre los tiempos de indexación, y es un aspecto importante que se desea evaluar. Por otro lado, es posible hacer una división por términos y no por documentos. Esto significa que, a cada nodo se le asigna una cierta cantidad de términos que solo él tendrá. De igual manera que la partición por documentos, se ofrecen dos métodos. El primero consiste en dividir la cantidad de palabras entre los nodos de manera igualitaria (Cant. Términos / Cant. Nodos), y el otro, reparte los términos eligiendo el nodo que tiene menos carga. Si bien el particionamiento por términos es un aspecto que mejora notablemente la recuperación, se pretende realizar un análisis sobre su influencia en el proceso de indexación. Realizar pruebas utilizando las distintas configuraciones que ofrece la plataforma y analizar utilizando distintas métricas sobre los tiempos del proceso de indexación es otro de los objetivos principales de este trabajo. Además, se analiza qué configuración presenta la mejor eficiencia al indexar la colección de mayor tamaño sobre la arquitectura disponible, ya que hoy en día la indexación de grandes cantidades de datos es el escenario mas cotidiano. Finalmente, la plataforma desarrollada resulta una herramienta con fines educativos para asignaturas de recuperación de información y motores de búsqueda. Y dado que genera índices con Terrier, puede ser utilizada para pruebas en trabajos de investigación.Universidad Nacional de LujánTolosa, Gabriel2022-06-14T18:27:46Z2022-06-14T18:27:46Z2017Thesisinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfapplication/pdfhttp://ri.unlu.edu.ar/xmlui/handle/rediunlu/1170spaesinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-nd/2.5/ar/reponame:REDIUNLU (UNLu)instname:Universidad Nacional de Luján2025-09-04T11:14:42Zoai:ri.unlu.edu.ar:rediunlu/1170instacron:UNLuInstitucionalhttps://ri.unlu.edu.arUniversidad públicaNo correspondehttps://ri.unlu.edu.ar/oaivcano@unlu.edu.ar;fgutierrez@mail.unlu.edu.ar;faquilinogutierrez@gmail.com ArgentinaNo correspondeNo correspondeNo correspondeopendoar:w2025-09-04 11:14:43.065REDIUNLU (UNLu) - Universidad Nacional de Lujánfalse
dc.title.none.fl_str_mv Plataforma de Indexación Distribuida para Motores de Búsqueda
title Plataforma de Indexación Distribuida para Motores de Búsqueda
spellingShingle Plataforma de Indexación Distribuida para Motores de Búsqueda
Etchart, Juan Martín
Índices
Indexación
Plataformas
Datos
Recuperación de información
title_short Plataforma de Indexación Distribuida para Motores de Búsqueda
title_full Plataforma de Indexación Distribuida para Motores de Búsqueda
title_fullStr Plataforma de Indexación Distribuida para Motores de Búsqueda
title_full_unstemmed Plataforma de Indexación Distribuida para Motores de Búsqueda
title_sort Plataforma de Indexación Distribuida para Motores de Búsqueda
dc.creator.none.fl_str_mv Etchart, Juan Martín
author Etchart, Juan Martín
author_facet Etchart, Juan Martín
author_role author
dc.contributor.none.fl_str_mv Tolosa, Gabriel
dc.subject.none.fl_str_mv Índices
Indexación
Plataformas
Datos
Recuperación de información
topic Índices
Indexación
Plataformas
Datos
Recuperación de información
dc.description.none.fl_txt_mv Fil: Etchart, Juan Martín. Universidad Nacional de Luján, Argentina.
El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. En la actualidad se cuenta con un gran volumen de datos a procesar, esto se presenta como un escenario ideal para pensar en una división del trabajo. La idea principal de la indexación distribuida es balancear las cargas de procesamiento trabajando de forma paralela. La distribución de cargas no es un proceso que se comporte de manera lineal, esto significa que, no necesariamente si un trabajo que es realizado por una sola computadora insume cierto tiempo, al dividirlo entre dos se llevará acabo en la mitad del tiempo. El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. Para la Plataforma de Indexación Distribuida se pretende codificar un módulo de particionamiento de la colección. Este módulo debe ofrecer dos tipos de estrategias, particionado por documentos y por términos. El proceso de distribución de los documentos entre los nodos puede realizarse de distintas maneras. Una de ellas consiste en dividir la cantidad de documentos entre los nodos de manera equitativa (Cant. Documentos / Cant. Nodos). Otra, se basa en repartir los documentos eligiendo el nodo que menos carga tiene. Esta diferencia entre la distribución de los documentos afectará de manera directa sobre los tiempos de indexación, y es un aspecto importante que se desea evaluar. Por otro lado, es posible hacer una división por términos y no por documentos. Esto significa que, a cada nodo se le asigna una cierta cantidad de términos que solo él tendrá. De igual manera que la partición por documentos, se ofrecen dos métodos. El primero consiste en dividir la cantidad de palabras entre los nodos de manera igualitaria (Cant. Términos / Cant. Nodos), y el otro, reparte los términos eligiendo el nodo que tiene menos carga. Si bien el particionamiento por términos es un aspecto que mejora notablemente la recuperación, se pretende realizar un análisis sobre su influencia en el proceso de indexación. Realizar pruebas utilizando las distintas configuraciones que ofrece la plataforma y analizar utilizando distintas métricas sobre los tiempos del proceso de indexación es otro de los objetivos principales de este trabajo. Además, se analiza qué configuración presenta la mejor eficiencia al indexar la colección de mayor tamaño sobre la arquitectura disponible, ya que hoy en día la indexación de grandes cantidades de datos es el escenario mas cotidiano. Finalmente, la plataforma desarrollada resulta una herramienta con fines educativos para asignaturas de recuperación de información y motores de búsqueda. Y dado que genera índices con Terrier, puede ser utilizada para pruebas en trabajos de investigación.
description Fil: Etchart, Juan Martín. Universidad Nacional de Luján, Argentina.
publishDate 2017
dc.date.none.fl_str_mv 2017
2022-06-14T18:27:46Z
2022-06-14T18:27:46Z
dc.type.none.fl_str_mv Thesis
info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://ri.unlu.edu.ar/xmlui/handle/rediunlu/1170
url http://ri.unlu.edu.ar/xmlui/handle/rediunlu/1170
dc.language.none.fl_str_mv spa
es
language spa
language_invalid_str_mv es
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-nd/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-nd/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional de Luján
publisher.none.fl_str_mv Universidad Nacional de Luján
dc.source.none.fl_str_mv reponame:REDIUNLU (UNLu)
instname:Universidad Nacional de Luján
reponame_str REDIUNLU (UNLu)
collection REDIUNLU (UNLu)
instname_str Universidad Nacional de Luján
repository.name.fl_str_mv REDIUNLU (UNLu) - Universidad Nacional de Luján
repository.mail.fl_str_mv vcano@unlu.edu.ar;fgutierrez@mail.unlu.edu.ar;faquilinogutierrez@gmail.com
_version_ 1842344379061108736
score 12.623145