Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación
- Autores
- González, Claudia M.; Varela, Sebastián; Miguel, Sandra
- Año de publicación
- 2018
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- En este trabajo se muestran resultados preliminares obtenidos al aplicar la técnica de clustering basado en k-means y un modelado de tópicos usando Latent Dirichlet Allocation (LDA) sobre un corpus de registros de la base de datos Scopus utilizando paquetes del lenguaje R. El objetivo general es detectar aquellas áreas que permitan estimar el esfuerzo que realizan los recursos humanos de investigación de determinado lugar geográfico para abordar los problemas que son propios de ese territorio y sus habitantes. Por ello, el corpus responde a una estrategia de búsqueda que comprende la producción del gran área Ciencias Sociales & Humanas en el periodo 2010-2015, restringida a aquellos trabajos que tuvieran algún autor con afiliación argentina, además de contener Argentina (o alguna de sus variaciones explicitadas en la estrategia de búsqueda) en los campos título, resumen y palabras clave. Para el procesamiento se utilizaron los paquetes bibliometrix (2017), que sirve para realizar análisis bibliométricos y de co-citación; el paquete topicsmodels (2017) que permite implementar LDA y CTM (Correlated Topics Models); el paquete tidytext (2017) que permite aplicar algunas técnicas de procesamiento del lenguaje natural dentro de las cuales se encuentra la detección de n-gramas. En este trabajo, se procedió a sacar bigramas y se los interpretó de manera cualitativa, detectando 7 áreas (ver referencia de colores en figura 1). Se generaron los clusters mediante la técnica de K-medias y se procedió a realizar un análisis de los clusters obtenidos a la luz de las categorías que se derivaron de los bigramas. Luego se realizó lo mismo aplicando modelado de tópicos con LDA.
Sociedad Argentina de Informática e Investigación Operativa - Materia
-
Ciencias Informáticas
cienciometría
Clustering
modelado de tópicos
Latent Drichlet Allocation (LDA) - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-sa/3.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/72173
Ver los metadatos del registro completo
id |
SEDICI_4efa4bc17d9ffe4c986417c2b48c2024 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/72173 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigaciónGonzález, Claudia M.Varela, SebastiánMiguel, SandraCiencias InformáticascienciometríaClusteringmodelado de tópicosLatent Drichlet Allocation (LDA)En este trabajo se muestran resultados preliminares obtenidos al aplicar la técnica de clustering basado en k-means y un modelado de tópicos usando Latent Dirichlet Allocation (LDA) sobre un corpus de registros de la base de datos Scopus utilizando paquetes del lenguaje R. El objetivo general es detectar aquellas áreas que permitan estimar el esfuerzo que realizan los recursos humanos de investigación de determinado lugar geográfico para abordar los problemas que son propios de ese territorio y sus habitantes. Por ello, el corpus responde a una estrategia de búsqueda que comprende la producción del gran área Ciencias Sociales & Humanas en el periodo 2010-2015, restringida a aquellos trabajos que tuvieran algún autor con afiliación argentina, además de contener Argentina (o alguna de sus variaciones explicitadas en la estrategia de búsqueda) en los campos título, resumen y palabras clave. Para el procesamiento se utilizaron los paquetes bibliometrix (2017), que sirve para realizar análisis bibliométricos y de co-citación; el paquete topicsmodels (2017) que permite implementar LDA y CTM (Correlated Topics Models); el paquete tidytext (2017) que permite aplicar algunas técnicas de procesamiento del lenguaje natural dentro de las cuales se encuentra la detección de n-gramas. En este trabajo, se procedió a sacar bigramas y se los interpretó de manera cualitativa, detectando 7 áreas (ver referencia de colores en figura 1). Se generaron los clusters mediante la técnica de K-medias y se procedió a realizar un análisis de los clusters obtenidos a la luz de las categorías que se derivaron de los bigramas. Luego se realizó lo mismo aplicando modelado de tópicos con LDA.Sociedad Argentina de Informática e Investigación Operativa2018-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionResumenhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf27-28http://sedici.unlp.edu.ar/handle/10915/72173spainfo:eu-repo/semantics/altIdentifier/url/http://47jaiio.sadio.org.ar/sites/default/files/LatinR_16.pdfinfo:eu-repo/semantics/altIdentifier/issn/2618-3196info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/3.0/Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:11:49Zoai:sedici.unlp.edu.ar:10915/72173Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:11:49.855SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación |
title |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación |
spellingShingle |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación González, Claudia M. Ciencias Informáticas cienciometría Clustering modelado de tópicos Latent Drichlet Allocation (LDA) |
title_short |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación |
title_full |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación |
title_fullStr |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación |
title_full_unstemmed |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación |
title_sort |
Uso de R en bibliometría: exploración de técnicas para la detección de temas locales de investigación |
dc.creator.none.fl_str_mv |
González, Claudia M. Varela, Sebastián Miguel, Sandra |
author |
González, Claudia M. |
author_facet |
González, Claudia M. Varela, Sebastián Miguel, Sandra |
author_role |
author |
author2 |
Varela, Sebastián Miguel, Sandra |
author2_role |
author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas cienciometría Clustering modelado de tópicos Latent Drichlet Allocation (LDA) |
topic |
Ciencias Informáticas cienciometría Clustering modelado de tópicos Latent Drichlet Allocation (LDA) |
dc.description.none.fl_txt_mv |
En este trabajo se muestran resultados preliminares obtenidos al aplicar la técnica de clustering basado en k-means y un modelado de tópicos usando Latent Dirichlet Allocation (LDA) sobre un corpus de registros de la base de datos Scopus utilizando paquetes del lenguaje R. El objetivo general es detectar aquellas áreas que permitan estimar el esfuerzo que realizan los recursos humanos de investigación de determinado lugar geográfico para abordar los problemas que son propios de ese territorio y sus habitantes. Por ello, el corpus responde a una estrategia de búsqueda que comprende la producción del gran área Ciencias Sociales & Humanas en el periodo 2010-2015, restringida a aquellos trabajos que tuvieran algún autor con afiliación argentina, además de contener Argentina (o alguna de sus variaciones explicitadas en la estrategia de búsqueda) en los campos título, resumen y palabras clave. Para el procesamiento se utilizaron los paquetes bibliometrix (2017), que sirve para realizar análisis bibliométricos y de co-citación; el paquete topicsmodels (2017) que permite implementar LDA y CTM (Correlated Topics Models); el paquete tidytext (2017) que permite aplicar algunas técnicas de procesamiento del lenguaje natural dentro de las cuales se encuentra la detección de n-gramas. En este trabajo, se procedió a sacar bigramas y se los interpretó de manera cualitativa, detectando 7 áreas (ver referencia de colores en figura 1). Se generaron los clusters mediante la técnica de K-medias y se procedió a realizar un análisis de los clusters obtenidos a la luz de las categorías que se derivaron de los bigramas. Luego se realizó lo mismo aplicando modelado de tópicos con LDA. Sociedad Argentina de Informática e Investigación Operativa |
description |
En este trabajo se muestran resultados preliminares obtenidos al aplicar la técnica de clustering basado en k-means y un modelado de tópicos usando Latent Dirichlet Allocation (LDA) sobre un corpus de registros de la base de datos Scopus utilizando paquetes del lenguaje R. El objetivo general es detectar aquellas áreas que permitan estimar el esfuerzo que realizan los recursos humanos de investigación de determinado lugar geográfico para abordar los problemas que son propios de ese territorio y sus habitantes. Por ello, el corpus responde a una estrategia de búsqueda que comprende la producción del gran área Ciencias Sociales & Humanas en el periodo 2010-2015, restringida a aquellos trabajos que tuvieran algún autor con afiliación argentina, además de contener Argentina (o alguna de sus variaciones explicitadas en la estrategia de búsqueda) en los campos título, resumen y palabras clave. Para el procesamiento se utilizaron los paquetes bibliometrix (2017), que sirve para realizar análisis bibliométricos y de co-citación; el paquete topicsmodels (2017) que permite implementar LDA y CTM (Correlated Topics Models); el paquete tidytext (2017) que permite aplicar algunas técnicas de procesamiento del lenguaje natural dentro de las cuales se encuentra la detección de n-gramas. En este trabajo, se procedió a sacar bigramas y se los interpretó de manera cualitativa, detectando 7 áreas (ver referencia de colores en figura 1). Se generaron los clusters mediante la técnica de K-medias y se procedió a realizar un análisis de los clusters obtenidos a la luz de las categorías que se derivaron de los bigramas. Luego se realizó lo mismo aplicando modelado de tópicos con LDA. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-09 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Resumen http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/72173 |
url |
http://sedici.unlp.edu.ar/handle/10915/72173 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/http://47jaiio.sadio.org.ar/sites/default/files/LatinR_16.pdf info:eu-repo/semantics/altIdentifier/issn/2618-3196 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-sa/3.0/ Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-sa/3.0/ Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0) |
dc.format.none.fl_str_mv |
application/pdf 27-28 |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1844615988410056704 |
score |
13.070432 |