Minería de texto para la categorización automática de documentos
- Autores
- Pérez Abelleira, M. Alicia; Cardoso, Carolina A.
- Año de publicación
- 2010
- Idioma
- español castellano
- Tipo de recurso
- artículo
- Estado
- versión enviada
- Descripción
- La clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje.
Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.
Fil: Pérez Abelleira, M. Alicia. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. - Materia
-
Procesamiento de datos
Recopilación de datos - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Universidad Católica de Salta
- OAI Identificador
- oai:bibliotecas.ucasal.edu.ar:60534
Ver los metadatos del registro completo
id |
RIUCASAL_e6d1a2711388d0ea1d20c82512ce875a |
---|---|
oai_identifier_str |
oai:bibliotecas.ucasal.edu.ar:60534 |
network_acronym_str |
RIUCASAL |
repository_id_str |
3930 |
network_name_str |
Repositorio Institucional (UCaSal) |
spelling |
Minería de texto para la categorización automática de documentosPérez Abelleira, M. AliciaCardoso, Carolina A.Procesamiento de datosRecopilación de datosLa clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje.Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Fil: Pérez Abelleira, M. Alicia. Universidad Católica de Salta. Facultad de Ingeniería; Argentina.Universidad Católica de Salta. Facultad de Ingeniería (Salta)2010-12-30info:eu-repo/semantics/articleinfo:eu-repo/semantics/submittedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttps://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=605346053420161201u u u0frey0103 baspaCuadernos de Ingeniería1001514Salta (province)info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)reponame:Repositorio Institucional (UCaSal)instname:Universidad Católica de Saltainstacron:UCaSal2025-10-16T10:10:59Zoai:bibliotecas.ucasal.edu.ar:60534Institucionalhttp://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=16Universidad privadaNo correspondehttp://bibliotecas.ucasal.edu.ar/ws/oai2_7?verb=Identifycdiedrich@ucasal.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:39302025-10-16 10:10:59.788Repositorio Institucional (UCaSal) - Universidad Católica de Saltafalse |
dc.title.none.fl_str_mv |
Minería de texto para la categorización automática de documentos |
title |
Minería de texto para la categorización automática de documentos |
spellingShingle |
Minería de texto para la categorización automática de documentos Pérez Abelleira, M. Alicia Procesamiento de datos Recopilación de datos |
title_short |
Minería de texto para la categorización automática de documentos |
title_full |
Minería de texto para la categorización automática de documentos |
title_fullStr |
Minería de texto para la categorización automática de documentos |
title_full_unstemmed |
Minería de texto para la categorización automática de documentos |
title_sort |
Minería de texto para la categorización automática de documentos |
dc.creator.none.fl_str_mv |
Pérez Abelleira, M. Alicia Cardoso, Carolina A. |
author |
Pérez Abelleira, M. Alicia |
author_facet |
Pérez Abelleira, M. Alicia Cardoso, Carolina A. |
author_role |
author |
author2 |
Cardoso, Carolina A. |
author2_role |
author |
dc.subject.none.fl_str_mv |
Procesamiento de datos Recopilación de datos |
topic |
Procesamiento de datos Recopilación de datos |
dc.description.none.fl_txt_mv |
La clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje. Fil: Cardoso, Carolina A.. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. Fil: Pérez Abelleira, M. Alicia. Universidad Católica de Salta. Facultad de Ingeniería; Argentina. |
description |
La clasificación de documentos de texto es una aplicación de la minería de textos que pretende extraer información de texto no estructurado. Su interés se justifica porque se estima que entre el 80% y el 90% de los datos de las organizaciones son no estructurados. Por otro lado, la búsqueda semántica permite al usuario especificar en una consulta no solamente términos que deben aparecer en el documento, sino conceptos y relaciones, que pueden detectarse mediante el análisis de texto. El objetivo de este trabajo es implementar un buscador semántico que aproveche el resultado de algoritmos de aprendizaje automático para la clasificación de documentos. El dominio de aplicación es un corpus de más de 8000 documentos que contienen nueve años de resoluciones rectorales de la Universidad Católica de Salta en distintos formatos (Microsoft Word, texto plano, PDF). El sistema aprovecha las ventajas de la arquitectura UIMA sobre la que se han implementado analizadores que extraen meta-datos (fecha y número de resolución, unidad académica, personas, etc.) Asimismo se han explorado una variedad de algoritmos de aprendizaje semi-supervisado aplicados a la categorización de documentos, comparándolos experimentalmente entre sí y con algoritmos supervisados. Estos últimos precisan una gran cantidad de ejemplos etiquetados, algo generalmente costoso en la práctica en el caso de la clasificación de documentos. Los algoritmos semisupervisados en cambio son capaces de aprovechar ejemplos no etiquetados. En particular, en los experimentos en nuestro dominio el algoritmo de co-training ha demostrado tener buenas propiedades, incluso a pesar de la restricción teórica de que los atributos deben ser redundantes e independientes. No obstante el algoritmo supervisado SMO que entrena SVMs es superior. Nuestro objetivo final es construir un buscador semántico que utilice los metadatos obtenidos automáticamente por los anotadores implementados en UIMA y las categorías asignadas automáticamente por los algoritmos de aprendizaje. |
publishDate |
2010 |
dc.date.none.fl_str_mv |
2010-12-30 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/submittedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
submittedVersion |
dc.identifier.none.fl_str_mv |
https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=60534 60534 20161201u u u0frey0103 ba |
url |
https://bibliotecas.ucasal.edu.ar/opac_css/index.php?lvl=cmspage&pageid=24&id_notice=60534 |
identifier_str_mv |
60534 20161201u u u0frey0103 ba |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
Cuadernos de Ingeniería |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Atribución/Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
1001514 Salta (province) |
dc.publisher.none.fl_str_mv |
Universidad Católica de Salta. Facultad de Ingeniería (Salta) |
publisher.none.fl_str_mv |
Universidad Católica de Salta. Facultad de Ingeniería (Salta) |
dc.source.none.fl_str_mv |
reponame:Repositorio Institucional (UCaSal) instname:Universidad Católica de Salta instacron:UCaSal |
reponame_str |
Repositorio Institucional (UCaSal) |
collection |
Repositorio Institucional (UCaSal) |
instname_str |
Universidad Católica de Salta |
instacron_str |
UCaSal |
institution |
UCaSal |
repository.name.fl_str_mv |
Repositorio Institucional (UCaSal) - Universidad Católica de Salta |
repository.mail.fl_str_mv |
cdiedrich@ucasal.edu.ar |
_version_ |
1846146123212783616 |
score |
12.712165 |