Clasificación automática de papers de ciencias de la computación

Autores
Scherz, Alejandro
Año de publicación
2018
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Castaño, Jose Manuel
Descripción
El presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías.
The present work consists in the development of a system of automatic classification of papers, which allows them to be assigned the appropriate category according to their content through the application of machine learning techniques. Such a tool can save paper publishers the significant time it takes to go through a process of selecting hierarchical categories to sort them correctly, and thus facilitate their search once they have been published in online bibliographic repositories. For the implementation of this system, a collection of articles of all kind was obtained from the website of the Digital Library of the ACM (Association for Computing Machinery) [ws@a] , from which the training datasets were generated that will be used together with a tool called MALLET [ws@c] to determine the category of papers that have not yet been classified, studying the particular case of the latest taxonomies presented by the site (1998 and 2012 versions). The system, which is implemented in Python 2.7 [ws@d] and interacts with the Java [ws@b] API of the MALLET tool, provides an interactive interface (both graphical and console mode), in which various options can be selected, including the classification stage to execute, the paper fields taken into account for the training, the classification algorithms to use, and the taxonomy to consider for the prediction of the categories.
Fil: Scherz, Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
CLASIFICACION JERARQUICA DE TEXTOS
MACHINE LEARNING
DATA MINING
ACM
HIERARCHICAL TEXT CLASSIFICATION
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000635_Scherz

id BDUBAFCEN_7e94617b53498f65399b0decb5607152
oai_identifier_str seminario:seminario_nCOM000635_Scherz
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Clasificación automática de papers de ciencias de la computaciónAutomatic classification of papers of computer scienceScherz, AlejandroCLASIFICACION JERARQUICA DE TEXTOSMACHINE LEARNINGDATA MININGACMHIERARCHICAL TEXT CLASSIFICATIONEl presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías.The present work consists in the development of a system of automatic classification of papers, which allows them to be assigned the appropriate category according to their content through the application of machine learning techniques. Such a tool can save paper publishers the significant time it takes to go through a process of selecting hierarchical categories to sort them correctly, and thus facilitate their search once they have been published in online bibliographic repositories. For the implementation of this system, a collection of articles of all kind was obtained from the website of the Digital Library of the ACM (Association for Computing Machinery) [ws@a] , from which the training datasets were generated that will be used together with a tool called MALLET [ws@c] to determine the category of papers that have not yet been classified, studying the particular case of the latest taxonomies presented by the site (1998 and 2012 versions). The system, which is implemented in Python 2.7 [ws@d] and interacts with the Java [ws@b] API of the MALLET tool, provides an interactive interface (both graphical and console mode), in which various options can be selected, including the classification stage to execute, the paper fields taken into account for the training, the classification algorithms to use, and the taxonomy to consider for the prediction of the categories.Fil: Scherz, Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesCastaño, Jose Manuel2018info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000635_Scherzspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:36Zseminario:seminario_nCOM000635_ScherzInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:37.749Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Clasificación automática de papers de ciencias de la computación
Automatic classification of papers of computer science
title Clasificación automática de papers de ciencias de la computación
spellingShingle Clasificación automática de papers de ciencias de la computación
Scherz, Alejandro
CLASIFICACION JERARQUICA DE TEXTOS
MACHINE LEARNING
DATA MINING
ACM
HIERARCHICAL TEXT CLASSIFICATION
title_short Clasificación automática de papers de ciencias de la computación
title_full Clasificación automática de papers de ciencias de la computación
title_fullStr Clasificación automática de papers de ciencias de la computación
title_full_unstemmed Clasificación automática de papers de ciencias de la computación
title_sort Clasificación automática de papers de ciencias de la computación
dc.creator.none.fl_str_mv Scherz, Alejandro
author Scherz, Alejandro
author_facet Scherz, Alejandro
author_role author
dc.contributor.none.fl_str_mv Castaño, Jose Manuel
dc.subject.none.fl_str_mv CLASIFICACION JERARQUICA DE TEXTOS
MACHINE LEARNING
DATA MINING
ACM
HIERARCHICAL TEXT CLASSIFICATION
topic CLASIFICACION JERARQUICA DE TEXTOS
MACHINE LEARNING
DATA MINING
ACM
HIERARCHICAL TEXT CLASSIFICATION
dc.description.none.fl_txt_mv El presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías.
The present work consists in the development of a system of automatic classification of papers, which allows them to be assigned the appropriate category according to their content through the application of machine learning techniques. Such a tool can save paper publishers the significant time it takes to go through a process of selecting hierarchical categories to sort them correctly, and thus facilitate their search once they have been published in online bibliographic repositories. For the implementation of this system, a collection of articles of all kind was obtained from the website of the Digital Library of the ACM (Association for Computing Machinery) [ws@a] , from which the training datasets were generated that will be used together with a tool called MALLET [ws@c] to determine the category of papers that have not yet been classified, studying the particular case of the latest taxonomies presented by the site (1998 and 2012 versions). The system, which is implemented in Python 2.7 [ws@d] and interacts with the Java [ws@b] API of the MALLET tool, provides an interactive interface (both graphical and console mode), in which various options can be selected, including the classification stage to execute, the paper fields taken into account for the training, the classification algorithms to use, and the taxonomy to consider for the prediction of the categories.
Fil: Scherz, Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description El presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías.
publishDate 2018
dc.date.none.fl_str_mv 2018
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000635_Scherz
url https://hdl.handle.net/20.500.12110/seminario_nCOM000635_Scherz
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618755258187776
score 13.070432