Minería de texto para la categorización automática de documentos

Autores
Pérez Abelleira, M. Alicia; Cardoso, Carolina A.
Año de publicación
2010
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión enviada
Descripción
La clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje.
Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Pérez Abelleira, M. Alicia. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Materia
Procesamiento de datos
Recopilación de datos
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Repositorio Institucional (UCaSal)
Institución
Universidad Católica de Salta
OAI Identificador
oai:bibliotecas.ucasal.edu.ar:60534

id RIUCASAL_e6d1a2711388d0ea1d20c82512ce875a
oai_identifier_str oai:bibliotecas.ucasal.edu.ar:60534
network_acronym_str RIUCASAL
repository_id_str 3930
network_name_str Repositorio Institucional (UCaSal)
spelling Minería de texto para la categorización automática de documentosPérez Abelleira, M. AliciaCardoso, Carolina A.Procesamiento de datosRecopilación de datosLa clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje.Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Pérez Abelleira, M. Alicia. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Universidad Católica de Salta. Facultad de Ingeniería (Salta)2010-12-30info:eu-repo/semantics/articleinfo:eu-repo/semantics/submittedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=605346053420161201u u u0frey0103 baspaCuadernos de Ingeniería1001514Salta (province)info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)reponame:Repositorio Institucional (UCaSal)instname:Universidad Católica de Saltainstacron:UCaSal2025-10-16T10:10:59Zoai:bibliotecas.ucasal.edu.ar:60534Institucionalhttp://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=16Universidad privadaNo correspondehttp://bibliotecas.ucasal.edu.ar/ws/oai2_7?verb=Identifycdiedrich@ucasal.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:39302025-10-16 10:10:59.788Repositorio Institucional (UCaSal) - Universidad Católica de Saltafalse
dc.title.none.fl_str_mv Minería de texto para la categorización automática de documentos
title Minería de texto para la categorización automática de documentos
spellingShingle Minería de texto para la categorización automática de documentos
Pérez Abelleira, M. Alicia
Procesamiento de datos
Recopilación de datos
title_short Minería de texto para la categorización automática de documentos
title_full Minería de texto para la categorización automática de documentos
title_fullStr Minería de texto para la categorización automática de documentos
title_full_unstemmed Minería de texto para la categorización automática de documentos
title_sort Minería de texto para la categorización automática de documentos
dc.creator.none.fl_str_mv Pérez Abelleira, M. Alicia
Cardoso, Carolina A.
author Pérez Abelleira, M. Alicia
author_facet Pérez Abelleira, M. Alicia
Cardoso, Carolina A.
author_role author
author2 Cardoso, Carolina A.
author2_role author
dc.subject.none.fl_str_mv Procesamiento de datos
Recopilación de datos
topic Procesamiento de datos
Recopilación de datos
dc.description.none.fl_txt_mv La clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje.
Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Pérez Abelleira, M. Alicia. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
description La clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje.
publishDate 2010
dc.date.none.fl_str_mv 2010-12-30
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/submittedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str submittedVersion
dc.identifier.none.fl_str_mv https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=60534
60534
20161201u u u0frey0103 ba
url https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=60534
identifier_str_mv 60534
20161201u u u0frey0103 ba
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv Cuadernos de Ingeniería
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv 1001514
Salta (province)
dc.publisher.none.fl_str_mv Universidad Católica de Salta. Facultad de Ingeniería (Salta)
publisher.none.fl_str_mv Universidad Católica de Salta. Facultad de Ingeniería (Salta)
dc.source.none.fl_str_mv reponame:Repositorio Institucional (UCaSal)
instname:Universidad Católica de Salta
instacron:UCaSal
reponame_str Repositorio Institucional (UCaSal)
collection Repositorio Institucional (UCaSal)
instname_str Universidad Católica de Salta
instacron_str UCaSal
institution UCaSal
repository.name.fl_str_mv Repositorio Institucional (UCaSal) - Universidad Católica de Salta
repository.mail.fl_str_mv cdiedrich@ucasal.edu.ar
_version_ 1846146123212783616
score 12.712165