Ranking de dimensiones en vectores densos para recuperacón eficiente
- Autores
- Delvechio, Tomás; Ríssola, Esteban A.; Tolosa, Gabriel Hernán
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- La Recuperación de Información sobre colecciones de millones de documentos es una tarea computacionalmente intensiva. La aparición de representaciones densas (embeddings) posibilita construir vectores de centenas de dimensiones, convirtiendo al problema de resolver una consulta en una búsqueda de vectores más cercanos. Como es razonable considerar que no todas las dimensiones de estos embeddings son igualmente importantes, se propone rankear la importancia de las mismas para facilitar su poda seg´ún un requerimiento de efectividad objetivo. En este trabajo se evalúan diversos métodos para la poda. A partir de modelos ampliamente utilizados para generar embeddings y una colección de documentos y consultas de referencia en la comunidad, los experimentos muestran que es posible reducir el tamaño de los vectores hasta un 50% manteniendo hasta un 90% de efectividad, mejorando así la eficiencia.
Information retrieval over collections of millions of documents is a computationally intensive task. The emergence of dense representations (embeddings) enables the construction of vectors with hundreds of dimensions shifting the retrieval task into a nearest-neighbour vector search problem. We hypothesize that not all the embedding dimensions are equally important for the retrieval task and, therefore some could be pruned. In this paper, we propose to rank embedding dimensions based on their importance and evaluate different pruning methods following an objective effectiveness requirement.Based on widely used models for generating embeddings and well-known document collections, our experiments show that it is possible to reduce the size of vectors by up to 50% while maintaining the effectiveness of up to 90 %, thus improving efficiency.
Sociedad Argentina de Informática e Investigación Operativa - Materia
-
Ciencias Informáticas
vectores densos
neural IR
ranking de dimensiones
eficiencia
dense vectors
dimenons ranking
efficiency - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/190521
Ver los metadatos del registro completo
| id |
SEDICI_ab99d9c0bdf9d5b7ab18c6643b8093b7 |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/190521 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Ranking de dimensiones en vectores densos para recuperacón eficienteDense Vectors Dimensions Ranking for Efficient RetrievalDelvechio, TomásRíssola, Esteban A.Tolosa, Gabriel HernánCiencias Informáticasvectores densosneural IRranking de dimensioneseficienciadense vectorsdimenons rankingefficiencyLa Recuperación de Información sobre colecciones de millones de documentos es una tarea computacionalmente intensiva. La aparición de representaciones densas (embeddings) posibilita construir vectores de centenas de dimensiones, convirtiendo al problema de resolver una consulta en una búsqueda de vectores más cercanos. Como es razonable considerar que no todas las dimensiones de estos embeddings son igualmente importantes, se propone rankear la importancia de las mismas para facilitar su poda seg´ún un requerimiento de efectividad objetivo. En este trabajo se evalúan diversos métodos para la poda. A partir de modelos ampliamente utilizados para generar embeddings y una colección de documentos y consultas de referencia en la comunidad, los experimentos muestran que es posible reducir el tamaño de los vectores hasta un 50% manteniendo hasta un 90% de efectividad, mejorando así la eficiencia.Information retrieval over collections of millions of documents is a computationally intensive task. The emergence of dense representations (embeddings) enables the construction of vectors with hundreds of dimensions shifting the retrieval task into a nearest-neighbour vector search problem. We hypothesize that not all the embedding dimensions are equally important for the retrieval task and, therefore some could be pruned. In this paper, we propose to rank embedding dimensions based on their importance and evaluate different pruning methods following an objective effectiveness requirement.Based on widely used models for generating embeddings and well-known document collections, our experiments show that it is possible to reduce the size of vectors by up to 50% while maintaining the effectiveness of up to 90 %, thus improving efficiency.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf22-26http://sedici.unlp.edu.ar/handle/10915/190521spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19736info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-02-26T11:39:42Zoai:sedici.unlp.edu.ar:10915/190521Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-02-26 11:39:42.606SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Ranking de dimensiones en vectores densos para recuperacón eficiente Dense Vectors Dimensions Ranking for Efficient Retrieval |
| title |
Ranking de dimensiones en vectores densos para recuperacón eficiente |
| spellingShingle |
Ranking de dimensiones en vectores densos para recuperacón eficiente Delvechio, Tomás Ciencias Informáticas vectores densos neural IR ranking de dimensiones eficiencia dense vectors dimenons ranking efficiency |
| title_short |
Ranking de dimensiones en vectores densos para recuperacón eficiente |
| title_full |
Ranking de dimensiones en vectores densos para recuperacón eficiente |
| title_fullStr |
Ranking de dimensiones en vectores densos para recuperacón eficiente |
| title_full_unstemmed |
Ranking de dimensiones en vectores densos para recuperacón eficiente |
| title_sort |
Ranking de dimensiones en vectores densos para recuperacón eficiente |
| dc.creator.none.fl_str_mv |
Delvechio, Tomás Ríssola, Esteban A. Tolosa, Gabriel Hernán |
| author |
Delvechio, Tomás |
| author_facet |
Delvechio, Tomás Ríssola, Esteban A. Tolosa, Gabriel Hernán |
| author_role |
author |
| author2 |
Ríssola, Esteban A. Tolosa, Gabriel Hernán |
| author2_role |
author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas vectores densos neural IR ranking de dimensiones eficiencia dense vectors dimenons ranking efficiency |
| topic |
Ciencias Informáticas vectores densos neural IR ranking de dimensiones eficiencia dense vectors dimenons ranking efficiency |
| dc.description.none.fl_txt_mv |
La Recuperación de Información sobre colecciones de millones de documentos es una tarea computacionalmente intensiva. La aparición de representaciones densas (embeddings) posibilita construir vectores de centenas de dimensiones, convirtiendo al problema de resolver una consulta en una búsqueda de vectores más cercanos. Como es razonable considerar que no todas las dimensiones de estos embeddings son igualmente importantes, se propone rankear la importancia de las mismas para facilitar su poda seg´ún un requerimiento de efectividad objetivo. En este trabajo se evalúan diversos métodos para la poda. A partir de modelos ampliamente utilizados para generar embeddings y una colección de documentos y consultas de referencia en la comunidad, los experimentos muestran que es posible reducir el tamaño de los vectores hasta un 50% manteniendo hasta un 90% de efectividad, mejorando así la eficiencia. Information retrieval over collections of millions of documents is a computationally intensive task. The emergence of dense representations (embeddings) enables the construction of vectors with hundreds of dimensions shifting the retrieval task into a nearest-neighbour vector search problem. We hypothesize that not all the embedding dimensions are equally important for the retrieval task and, therefore some could be pruned. In this paper, we propose to rank embedding dimensions based on their importance and evaluate different pruning methods following an objective effectiveness requirement.Based on widely used models for generating embeddings and well-known document collections, our experiments show that it is possible to reduce the size of vectors by up to 50% while maintaining the effectiveness of up to 90 %, thus improving efficiency. Sociedad Argentina de Informática e Investigación Operativa |
| description |
La Recuperación de Información sobre colecciones de millones de documentos es una tarea computacionalmente intensiva. La aparición de representaciones densas (embeddings) posibilita construir vectores de centenas de dimensiones, convirtiendo al problema de resolver una consulta en una búsqueda de vectores más cercanos. Como es razonable considerar que no todas las dimensiones de estos embeddings son igualmente importantes, se propone rankear la importancia de las mismas para facilitar su poda seg´ún un requerimiento de efectividad objetivo. En este trabajo se evalúan diversos métodos para la poda. A partir de modelos ampliamente utilizados para generar embeddings y una colección de documentos y consultas de referencia en la comunidad, los experimentos muestran que es posible reducir el tamaño de los vectores hasta un 50% manteniendo hasta un 90% de efectividad, mejorando así la eficiencia. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/190521 |
| url |
http://sedici.unlp.edu.ar/handle/10915/190521 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19736 info:eu-repo/semantics/altIdentifier/issn/2451-7496 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf 22-26 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1858282591281479680 |
| score |
12.665996 |