MessIRve: A Large-Scale Spanish Information Retrieval Dataset
- Autores
- Valentini, Francisco Tomás; Cotik, Viviana Erica; Furman, Damián Ariel; Bercovich, Ivan; Altszyler Lemcovich, Edgar Jaim; Pérez, Juan Manuel
- Año de publicación
- 2024
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google’s autocomplete API and relevant documents sourced from Wikipedia. MessIRve’s queries reflect diverse Spanishspeaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers.
Fil: Valentini, Francisco Tomás. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina
Fil: Cotik, Viviana Erica. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina
Fil: Furman, Damián Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina
Fil: Bercovich, Ivan. University of California; Estados Unidos
Fil: Altszyler Lemcovich, Edgar Jaim. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Quantit; Argentina
Fil: Pérez, Juan Manuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina - Materia
-
INFORMATION RETRIEVAL
RESOURCES AND EVALUATION
NATURAL LANGUAGE PROCESSING
NLP DATASETS - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by/2.5/ar/
- Repositorio
- Institución
- Consejo Nacional de Investigaciones Científicas y Técnicas
- OAI Identificador
- oai:ri.conicet.gov.ar:11336/258637
Ver los metadatos del registro completo
id |
CONICETDig_cd2fe829cd1de89ef2b53b4578d388c2 |
---|---|
oai_identifier_str |
oai:ri.conicet.gov.ar:11336/258637 |
network_acronym_str |
CONICETDig |
repository_id_str |
3498 |
network_name_str |
CONICET Digital (CONICET) |
spelling |
MessIRve: A Large-Scale Spanish Information Retrieval DatasetValentini, Francisco TomásCotik, Viviana EricaFurman, Damián ArielBercovich, IvanAltszyler Lemcovich, Edgar JaimPérez, Juan ManuelINFORMATION RETRIEVALRESOURCES AND EVALUATIONNATURAL LANGUAGE PROCESSINGNLP DATASETShttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google’s autocomplete API and relevant documents sourced from Wikipedia. MessIRve’s queries reflect diverse Spanishspeaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers.Fil: Valentini, Francisco Tomás. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaFil: Cotik, Viviana Erica. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; ArgentinaFil: Furman, Damián Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaFil: Bercovich, Ivan. University of California; Estados UnidosFil: Altszyler Lemcovich, Edgar Jaim. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Quantit; ArgentinaFil: Pérez, Juan Manuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; ArgentinaCornell University2024-09info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/258637Valentini, Francisco Tomás; Cotik, Viviana Erica; Furman, Damián Ariel; Bercovich, Ivan; Altszyler Lemcovich, Edgar Jaim; et al.; MessIRve: A Large-Scale Spanish Information Retrieval Dataset; Cornell University; arXiv; 9-2024; 1-132331-8422CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://arxiv.org/abs/2409.05994info:eu-repo/semantics/altIdentifier/doi/10.48550/arXiv.2409.05994info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-10-15T15:11:26Zoai:ri.conicet.gov.ar:11336/258637instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-10-15 15:11:26.763CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse |
dc.title.none.fl_str_mv |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset |
title |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset |
spellingShingle |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset Valentini, Francisco Tomás INFORMATION RETRIEVAL RESOURCES AND EVALUATION NATURAL LANGUAGE PROCESSING NLP DATASETS |
title_short |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset |
title_full |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset |
title_fullStr |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset |
title_full_unstemmed |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset |
title_sort |
MessIRve: A Large-Scale Spanish Information Retrieval Dataset |
dc.creator.none.fl_str_mv |
Valentini, Francisco Tomás Cotik, Viviana Erica Furman, Damián Ariel Bercovich, Ivan Altszyler Lemcovich, Edgar Jaim Pérez, Juan Manuel |
author |
Valentini, Francisco Tomás |
author_facet |
Valentini, Francisco Tomás Cotik, Viviana Erica Furman, Damián Ariel Bercovich, Ivan Altszyler Lemcovich, Edgar Jaim Pérez, Juan Manuel |
author_role |
author |
author2 |
Cotik, Viviana Erica Furman, Damián Ariel Bercovich, Ivan Altszyler Lemcovich, Edgar Jaim Pérez, Juan Manuel |
author2_role |
author author author author author |
dc.subject.none.fl_str_mv |
INFORMATION RETRIEVAL RESOURCES AND EVALUATION NATURAL LANGUAGE PROCESSING NLP DATASETS |
topic |
INFORMATION RETRIEVAL RESOURCES AND EVALUATION NATURAL LANGUAGE PROCESSING NLP DATASETS |
purl_subject.fl_str_mv |
https://purl.org/becyt/ford/1.2 https://purl.org/becyt/ford/1 |
dc.description.none.fl_txt_mv |
Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google’s autocomplete API and relevant documents sourced from Wikipedia. MessIRve’s queries reflect diverse Spanishspeaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers. Fil: Valentini, Francisco Tomás. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina Fil: Cotik, Viviana Erica. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Departamento de Computación; Argentina Fil: Furman, Damián Ariel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina Fil: Bercovich, Ivan. University of California; Estados Unidos Fil: Altszyler Lemcovich, Edgar Jaim. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina. Quantit; Argentina Fil: Pérez, Juan Manuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Oficina de Coordinación Administrativa Ciudad Universitaria. Instituto de Investigación en Ciencias de la Computación. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Instituto de Investigación en Ciencias de la Computación; Argentina |
description |
Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google’s autocomplete API and relevant documents sourced from Wikipedia. MessIRve’s queries reflect diverse Spanishspeaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-09 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11336/258637 Valentini, Francisco Tomás; Cotik, Viviana Erica; Furman, Damián Ariel; Bercovich, Ivan; Altszyler Lemcovich, Edgar Jaim; et al.; MessIRve: A Large-Scale Spanish Information Retrieval Dataset; Cornell University; arXiv; 9-2024; 1-13 2331-8422 CONICET Digital CONICET |
url |
http://hdl.handle.net/11336/258637 |
identifier_str_mv |
Valentini, Francisco Tomás; Cotik, Viviana Erica; Furman, Damián Ariel; Bercovich, Ivan; Altszyler Lemcovich, Edgar Jaim; et al.; MessIRve: A Large-Scale Spanish Information Retrieval Dataset; Cornell University; arXiv; 9-2024; 1-13 2331-8422 CONICET Digital CONICET |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://arxiv.org/abs/2409.05994 info:eu-repo/semantics/altIdentifier/doi/10.48550/arXiv.2409.05994 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by/2.5/ar/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by/2.5/ar/ |
dc.format.none.fl_str_mv |
application/pdf application/pdf |
dc.publisher.none.fl_str_mv |
Cornell University |
publisher.none.fl_str_mv |
Cornell University |
dc.source.none.fl_str_mv |
reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas |
reponame_str |
CONICET Digital (CONICET) |
collection |
CONICET Digital (CONICET) |
instname_str |
Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.name.fl_str_mv |
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.mail.fl_str_mv |
dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar |
_version_ |
1846083262593630208 |
score |
13.22299 |