Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining

Autores
Aguilar, Luis Humberto
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
A medida que la cantidad de información disponible en la web aumenta, también lo hace la tarea de localizarla y analizarla, por lo cual realizar esta tarea de forma manual puede ser costosa en función al tiempo y esfuerzo invertido. Aunque los buscadores y los motores de bases de datos pueden ayudar a encontrar la información requerida, en infraestructuras digitales grandes donde los resultados de búsqueda se cuentan por millares – o más– se precisan de nuevas herramientas para obtener el contenido buscado de manera efectiva. Este trabajo propone la aplicación de Web Scraping y Text Mining como insumos metodológicos para poder compilar y procesar grandes volúmenes de datos en infraestructuras digitales de una forma más automatizada. La automatización de ambos procesos aporta una gran ventaja al analizar corpus textuales de miles de registros lo cual simplifica de manera significativa la obtención de diferentes tipos de datos, facilitando el trabajo considerablemente. Se espera que esta contribución permita ampliar las posibilidades de la comunidad arqueológica en clave de una metodología novedosa para la obtención y el manejo de datos estructurados y no estructurados que pueden ser integrados a las investigaciones de la comunidad arqueológica en general.
As the amount of information available on the web increases, so does the task of locating and analysing it, and performing this task manually can be costly in terms of time and effort. Although search engines and database engines can help to find the required information, in large digital infrastructures where search results are in the thousands - or more - new tools are needed to effectively retrieve the searched content. This paper proposes the application of Web Scraping and Text Mining as methodological inputs to be able to compile and process large volumes of data in digital infrastructures in a more automated way. The automation of both processes provides a great advantage in analysing textual corpora of thousands of records, which significantly simplifies the collection of different types of data, facilitating the work considerably. It is hoped that this contribution will expand the possibilities of the archaeological community in terms of a novel methodology for the collection and handling of structured and unstructured data that can be integrated into the research of the wider archaeological community.
Fil: Aguilar, Luis Humberto. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba. Instituto de Antropología de Córdoba. Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Instituto de Antropología de Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología; Argentina
Materia
Web scraping
Arqueología digital
Análisis de datos
Text mining
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/226918

id CONICETDig_69e3ee5e4af8bb32e5579aca68b7cd3a
oai_identifier_str oai:ri.conicet.gov.ar:11336/226918
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text MiningScraping Archaeology: A Methodological Approach from the Web Scraping and Text MiningAguilar, Luis HumbertoWeb scrapingArqueología digitalAnálisis de datosText mininghttps://purl.org/becyt/ford/6.1https://purl.org/becyt/ford/6A medida que la cantidad de información disponible en la web aumenta, también lo hace la tarea de localizarla y analizarla, por lo cual realizar esta tarea de forma manual puede ser costosa en función al tiempo y esfuerzo invertido. Aunque los buscadores y los motores de bases de datos pueden ayudar a encontrar la información requerida, en infraestructuras digitales grandes donde los resultados de búsqueda se cuentan por millares – o más– se precisan de nuevas herramientas para obtener el contenido buscado de manera efectiva. Este trabajo propone la aplicación de Web Scraping y Text Mining como insumos metodológicos para poder compilar y procesar grandes volúmenes de datos en infraestructuras digitales de una forma más automatizada. La automatización de ambos procesos aporta una gran ventaja al analizar corpus textuales de miles de registros lo cual simplifica de manera significativa la obtención de diferentes tipos de datos, facilitando el trabajo considerablemente. Se espera que esta contribución permita ampliar las posibilidades de la comunidad arqueológica en clave de una metodología novedosa para la obtención y el manejo de datos estructurados y no estructurados que pueden ser integrados a las investigaciones de la comunidad arqueológica en general.As the amount of information available on the web increases, so does the task of locating and analysing it, and performing this task manually can be costly in terms of time and effort. Although search engines and database engines can help to find the required information, in large digital infrastructures where search results are in the thousands - or more - new tools are needed to effectively retrieve the searched content. This paper proposes the application of Web Scraping and Text Mining as methodological inputs to be able to compile and process large volumes of data in digital infrastructures in a more automated way. The automation of both processes provides a great advantage in analysing textual corpora of thousands of records, which significantly simplifies the collection of different types of data, facilitating the work considerably. It is hoped that this contribution will expand the possibilities of the archaeological community in terms of a novel methodology for the collection and handling of structured and unstructured data that can be integrated into the research of the wider archaeological community.Fil: Aguilar, Luis Humberto. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba. Instituto de Antropología de Córdoba. Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Instituto de Antropología de Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología; ArgentinaUniversidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología2023-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/226918Aguilar, Luis Humberto; Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining; Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología; Revista del Museo de Antropología; 16; 3; 12-2023; 439-4501852-060X1852-4826CONICET DigitalCONICETspainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unc.edu.ar/index.php/antropologia/article/view/41094info:eu-repo/semantics/altIdentifier/doi/10.31048/1852.4826.v16.n2.41094info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-10T13:05:57Zoai:ri.conicet.gov.ar:11336/226918instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-10 13:05:58.294CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
Scraping Archaeology: A Methodological Approach from the Web Scraping and Text Mining
title Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
spellingShingle Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
Aguilar, Luis Humberto
Web scraping
Arqueología digital
Análisis de datos
Text mining
title_short Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
title_full Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
title_fullStr Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
title_full_unstemmed Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
title_sort Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining
dc.creator.none.fl_str_mv Aguilar, Luis Humberto
author Aguilar, Luis Humberto
author_facet Aguilar, Luis Humberto
author_role author
dc.subject.none.fl_str_mv Web scraping
Arqueología digital
Análisis de datos
Text mining
topic Web scraping
Arqueología digital
Análisis de datos
Text mining
purl_subject.fl_str_mv https://purl.org/becyt/ford/6.1
https://purl.org/becyt/ford/6
dc.description.none.fl_txt_mv A medida que la cantidad de información disponible en la web aumenta, también lo hace la tarea de localizarla y analizarla, por lo cual realizar esta tarea de forma manual puede ser costosa en función al tiempo y esfuerzo invertido. Aunque los buscadores y los motores de bases de datos pueden ayudar a encontrar la información requerida, en infraestructuras digitales grandes donde los resultados de búsqueda se cuentan por millares – o más– se precisan de nuevas herramientas para obtener el contenido buscado de manera efectiva. Este trabajo propone la aplicación de Web Scraping y Text Mining como insumos metodológicos para poder compilar y procesar grandes volúmenes de datos en infraestructuras digitales de una forma más automatizada. La automatización de ambos procesos aporta una gran ventaja al analizar corpus textuales de miles de registros lo cual simplifica de manera significativa la obtención de diferentes tipos de datos, facilitando el trabajo considerablemente. Se espera que esta contribución permita ampliar las posibilidades de la comunidad arqueológica en clave de una metodología novedosa para la obtención y el manejo de datos estructurados y no estructurados que pueden ser integrados a las investigaciones de la comunidad arqueológica en general.
As the amount of information available on the web increases, so does the task of locating and analysing it, and performing this task manually can be costly in terms of time and effort. Although search engines and database engines can help to find the required information, in large digital infrastructures where search results are in the thousands - or more - new tools are needed to effectively retrieve the searched content. This paper proposes the application of Web Scraping and Text Mining as methodological inputs to be able to compile and process large volumes of data in digital infrastructures in a more automated way. The automation of both processes provides a great advantage in analysing textual corpora of thousands of records, which significantly simplifies the collection of different types of data, facilitating the work considerably. It is hoped that this contribution will expand the possibilities of the archaeological community in terms of a novel methodology for the collection and handling of structured and unstructured data that can be integrated into the research of the wider archaeological community.
Fil: Aguilar, Luis Humberto. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Córdoba. Instituto de Antropología de Córdoba. Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Instituto de Antropología de Córdoba; Argentina. Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología; Argentina
description A medida que la cantidad de información disponible en la web aumenta, también lo hace la tarea de localizarla y analizarla, por lo cual realizar esta tarea de forma manual puede ser costosa en función al tiempo y esfuerzo invertido. Aunque los buscadores y los motores de bases de datos pueden ayudar a encontrar la información requerida, en infraestructuras digitales grandes donde los resultados de búsqueda se cuentan por millares – o más– se precisan de nuevas herramientas para obtener el contenido buscado de manera efectiva. Este trabajo propone la aplicación de Web Scraping y Text Mining como insumos metodológicos para poder compilar y procesar grandes volúmenes de datos en infraestructuras digitales de una forma más automatizada. La automatización de ambos procesos aporta una gran ventaja al analizar corpus textuales de miles de registros lo cual simplifica de manera significativa la obtención de diferentes tipos de datos, facilitando el trabajo considerablemente. Se espera que esta contribución permita ampliar las posibilidades de la comunidad arqueológica en clave de una metodología novedosa para la obtención y el manejo de datos estructurados y no estructurados que pueden ser integrados a las investigaciones de la comunidad arqueológica en general.
publishDate 2023
dc.date.none.fl_str_mv 2023-12
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/226918
Aguilar, Luis Humberto; Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining; Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología; Revista del Museo de Antropología; 16; 3; 12-2023; 439-450
1852-060X
1852-4826
CONICET Digital
CONICET
url http://hdl.handle.net/11336/226918
identifier_str_mv Aguilar, Luis Humberto; Raspando la Arqueología: Una Aproximación Metodológica desde el Web Scraping y Text Mining; Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología; Revista del Museo de Antropología; 16; 3; 12-2023; 439-450
1852-060X
1852-4826
CONICET Digital
CONICET
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unc.edu.ar/index.php/antropologia/article/view/41094
info:eu-repo/semantics/altIdentifier/doi/10.31048/1852.4826.v16.n2.41094
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología
publisher.none.fl_str_mv Universidad Nacional de Córdoba. Facultad de Filosofía y Humanidades. Museo de Antropología
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1842980235350376448
score 12.993085