Clasificación automática de papers de ciencias de la computación
- Autores
- Scherz, Alejandro
- Año de publicación
- 2018
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Castaño, Jose Manuel
- Descripción
- El presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías.
The present work consists in the development of a system of automatic classification of papers, which allows them to be assigned the appropriate category according to their content through the application of machine learning techniques. Such a tool can save paper publishers the significant time it takes to go through a process of selecting hierarchical categories to sort them correctly, and thus facilitate their search once they have been published in online bibliographic repositories. For the implementation of this system, a collection of articles of all kind was obtained from the website of the Digital Library of the ACM (Association for Computing Machinery) [ws@a] , from which the training datasets were generated that will be used together with a tool called MALLET [ws@c] to determine the category of papers that have not yet been classified, studying the particular case of the latest taxonomies presented by the site (1998 and 2012 versions). The system, which is implemented in Python 2.7 [ws@d] and interacts with the Java [ws@b] API of the MALLET tool, provides an interactive interface (both graphical and console mode), in which various options can be selected, including the classification stage to execute, the paper fields taken into account for the training, the classification algorithms to use, and the taxonomy to consider for the prediction of the categories.
Fil: Scherz, Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
CLASIFICACION JERARQUICA DE TEXTOS
MACHINE LEARNING
DATA MINING
ACM
HIERARCHICAL TEXT CLASSIFICATION - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000635_Scherz
Ver los metadatos del registro completo
id |
BDUBAFCEN_7e94617b53498f65399b0decb5607152 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000635_Scherz |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Clasificación automática de papers de ciencias de la computaciónAutomatic classification of papers of computer scienceScherz, AlejandroCLASIFICACION JERARQUICA DE TEXTOSMACHINE LEARNINGDATA MININGACMHIERARCHICAL TEXT CLASSIFICATIONEl presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías.The present work consists in the development of a system of automatic classification of papers, which allows them to be assigned the appropriate category according to their content through the application of machine learning techniques. Such a tool can save paper publishers the significant time it takes to go through a process of selecting hierarchical categories to sort them correctly, and thus facilitate their search once they have been published in online bibliographic repositories. For the implementation of this system, a collection of articles of all kind was obtained from the website of the Digital Library of the ACM (Association for Computing Machinery) [ws@a] , from which the training datasets were generated that will be used together with a tool called MALLET [ws@c] to determine the category of papers that have not yet been classified, studying the particular case of the latest taxonomies presented by the site (1998 and 2012 versions). The system, which is implemented in Python 2.7 [ws@d] and interacts with the Java [ws@b] API of the MALLET tool, provides an interactive interface (both graphical and console mode), in which various options can be selected, including the classification stage to execute, the paper fields taken into account for the training, the classification algorithms to use, and the taxonomy to consider for the prediction of the categories.Fil: Scherz, Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesCastaño, Jose Manuel2018info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000635_Scherzspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:36Zseminario:seminario_nCOM000635_ScherzInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:37.749Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Clasificación automática de papers de ciencias de la computación Automatic classification of papers of computer science |
title |
Clasificación automática de papers de ciencias de la computación |
spellingShingle |
Clasificación automática de papers de ciencias de la computación Scherz, Alejandro CLASIFICACION JERARQUICA DE TEXTOS MACHINE LEARNING DATA MINING ACM HIERARCHICAL TEXT CLASSIFICATION |
title_short |
Clasificación automática de papers de ciencias de la computación |
title_full |
Clasificación automática de papers de ciencias de la computación |
title_fullStr |
Clasificación automática de papers de ciencias de la computación |
title_full_unstemmed |
Clasificación automática de papers de ciencias de la computación |
title_sort |
Clasificación automática de papers de ciencias de la computación |
dc.creator.none.fl_str_mv |
Scherz, Alejandro |
author |
Scherz, Alejandro |
author_facet |
Scherz, Alejandro |
author_role |
author |
dc.contributor.none.fl_str_mv |
Castaño, Jose Manuel |
dc.subject.none.fl_str_mv |
CLASIFICACION JERARQUICA DE TEXTOS MACHINE LEARNING DATA MINING ACM HIERARCHICAL TEXT CLASSIFICATION |
topic |
CLASIFICACION JERARQUICA DE TEXTOS MACHINE LEARNING DATA MINING ACM HIERARCHICAL TEXT CLASSIFICATION |
dc.description.none.fl_txt_mv |
El presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías. The present work consists in the development of a system of automatic classification of papers, which allows them to be assigned the appropriate category according to their content through the application of machine learning techniques. Such a tool can save paper publishers the significant time it takes to go through a process of selecting hierarchical categories to sort them correctly, and thus facilitate their search once they have been published in online bibliographic repositories. For the implementation of this system, a collection of articles of all kind was obtained from the website of the Digital Library of the ACM (Association for Computing Machinery) [ws@a] , from which the training datasets were generated that will be used together with a tool called MALLET [ws@c] to determine the category of papers that have not yet been classified, studying the particular case of the latest taxonomies presented by the site (1998 and 2012 versions). The system, which is implemented in Python 2.7 [ws@d] and interacts with the Java [ws@b] API of the MALLET tool, provides an interactive interface (both graphical and console mode), in which various options can be selected, including the classification stage to execute, the paper fields taken into account for the training, the classification algorithms to use, and the taxonomy to consider for the prediction of the categories. Fil: Scherz, Alejandro. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
El presente trabajo consiste en el desarrollo de un sistema de clasificación automática de papers, que permite asignarles la categoría adecuada de acuerdo al contenido de los mismos mediante la aplicación de técnicas de machine learning. Una herramienta de estas características puede ahorrar a los publicadores de papers el tiempo significativo que implica atravesar un proceso de selección de categorías jerárquicas para clasificarlos correctamente, y de esta manera facilitar su búsqueda una vez que se han publicado en los repositorios bibliográficos online. Para la implementación de este sistema se obtuvo una colección de artículos de todo tipo del sitio web de la Librería Digital de la ACM (Association for Computing Machinery) [ws@a] a partir de la cual se generaron los datasets de entrenamiento que se utilizarán junto con una herramienta llamada MALLET [ws@c] para determinar la categoría´ıa de papers que aún no han sido clasificados, estudiando el caso particular de las últimas taxonomías que presenta dicho sitio (versiones de 1998 y 2012). El sistema, que se encuentra implementado en Python 2.7 [ws@d] e interactúa con la API de Java [ws@b] de la herramienta MALLET, provee una interfaz interactiva (tanto gráfica como en consola), en la cual se puede seleccionar diversas opciones, entre ellas la etapa de clasificación a ejecutar, los campos del paper tenidos en cuenta para el entrenamiento, los algoritmos de clasificación a utilizar, y la taxonomía a considerar para la predicción de las categorías. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000635_Scherz |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000635_Scherz |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618755258187776 |
score |
13.070432 |