Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores

Autores
Gean, Chu Chia
Año de publicación
2004
Idioma
portugués
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Atualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho.
Nowadays, due to the large volume of text available in digital media, the automatic document categorization becomes an important modern Information Retrieval task. In this paper we describe a new approach to the problem, based on the classical vector space model for text treatment and on the use of Pattern Recognition techniques. As texts collections produce huge dimensional vector spaces, we attack the problem using several preprocessing techniques, and a set of k-Nearest-Neighbors classifiers, each of them dedicated to a sub-space of the original space. The final classification is obtained by a combination of the results of the individual classifiers. We apply our approach to documents extracted from the TIPSTER and REUTERS databases. The obtained results and some conclusions are presented.
Eje: V - Workshop de agentes y sistemas inteligentes
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
Intelligent agents
ARTIFICIAL INTELLIGENCE
Recuperação de Informações
Classificação Automática de Documentos
Aprendizagem de Máquina Baseada em Instâncias
Subespaços Aleatórios
Conjuntos de Classificadores
Information Retrieval
Automatic Text Categorization
nstance-Based Machine Learning
Random Subspaces
Multiple classifiers
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/22507

id SEDICI_e9deb92b3546ffbe054c5517b347e5e9
oai_identifier_str oai:sedici.unlp.edu.ar:10915/22507
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadoresGean, Chu ChiaCiencias InformáticasIntelligent agentsARTIFICIAL INTELLIGENCERecuperação de InformaçõesClassificação Automática de DocumentosAprendizagem de Máquina Baseada em InstânciasSubespaços AleatóriosConjuntos de ClassificadoresInformation RetrievalAutomatic Text Categorizationnstance-Based Machine LearningRandom SubspacesMultiple classifiersAtualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho.Nowadays, due to the large volume of text available in digital media, the automatic document categorization becomes an important modern Information Retrieval task. In this paper we describe a new approach to the problem, based on the classical vector space model for text treatment and on the use of Pattern Recognition techniques. As texts collections produce huge dimensional vector spaces, we attack the problem using several preprocessing techniques, and a set of k-Nearest-Neighbors classifiers, each of them dedicated to a sub-space of the original space. The final classification is obtained by a combination of the results of the individual classifiers. We apply our approach to documents extracted from the TIPSTER and REUTERS databases. The obtained results and some conclusions are presented.Eje: V - Workshop de agentes y sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI)2004info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/22507info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)porreponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T10:27:53Zoai:sedici.unlp.edu.ar:10915/22507Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 10:27:53.736SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
title Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
spellingShingle Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
Gean, Chu Chia
Ciencias Informáticas
Intelligent agents
ARTIFICIAL INTELLIGENCE
Recuperação de Informações
Classificação Automática de Documentos
Aprendizagem de Máquina Baseada em Instâncias
Subespaços Aleatórios
Conjuntos de Classificadores
Information Retrieval
Automatic Text Categorization
nstance-Based Machine Learning
Random Subspaces
Multiple classifiers
title_short Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
title_full Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
title_fullStr Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
title_full_unstemmed Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
title_sort Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
dc.creator.none.fl_str_mv Gean, Chu Chia
author Gean, Chu Chia
author_facet Gean, Chu Chia
author_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
Intelligent agents
ARTIFICIAL INTELLIGENCE
Recuperação de Informações
Classificação Automática de Documentos
Aprendizagem de Máquina Baseada em Instâncias
Subespaços Aleatórios
Conjuntos de Classificadores
Information Retrieval
Automatic Text Categorization
nstance-Based Machine Learning
Random Subspaces
Multiple classifiers
topic Ciencias Informáticas
Intelligent agents
ARTIFICIAL INTELLIGENCE
Recuperação de Informações
Classificação Automática de Documentos
Aprendizagem de Máquina Baseada em Instâncias
Subespaços Aleatórios
Conjuntos de Classificadores
Information Retrieval
Automatic Text Categorization
nstance-Based Machine Learning
Random Subspaces
Multiple classifiers
dc.description.none.fl_txt_mv Atualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho.
Nowadays, due to the large volume of text available in digital media, the automatic document categorization becomes an important modern Information Retrieval task. In this paper we describe a new approach to the problem, based on the classical vector space model for text treatment and on the use of Pattern Recognition techniques. As texts collections produce huge dimensional vector spaces, we attack the problem using several preprocessing techniques, and a set of k-Nearest-Neighbors classifiers, each of them dedicated to a sub-space of the original space. The final classification is obtained by a combination of the results of the individual classifiers. We apply our approach to documents extracted from the TIPSTER and REUTERS databases. The obtained results and some conclusions are presented.
Eje: V - Workshop de agentes y sistemas inteligentes
Red de Universidades con Carreras en Informática (RedUNCI)
description Atualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho.
publishDate 2004
dc.date.none.fl_str_mv 2004
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/22507
url http://sedici.unlp.edu.ar/handle/10915/22507
dc.language.none.fl_str_mv por
language por
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1842260117065564160
score 13.13397