Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores
- Autores
- Gean, Chu Chia
- Año de publicación
- 2004
- Idioma
- portugués
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Atualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho.
Nowadays, due to the large volume of text available in digital media, the automatic document categorization becomes an important modern Information Retrieval task. In this paper we describe a new approach to the problem, based on the classical vector space model for text treatment and on the use of Pattern Recognition techniques. As texts collections produce huge dimensional vector spaces, we attack the problem using several preprocessing techniques, and a set of k-Nearest-Neighbors classifiers, each of them dedicated to a sub-space of the original space. The final classification is obtained by a combination of the results of the individual classifiers. We apply our approach to documents extracted from the TIPSTER and REUTERS databases. The obtained results and some conclusions are presented.
Eje: V - Workshop de agentes y sistemas inteligentes
Red de Universidades con Carreras en Informática (RedUNCI) - Materia
-
Ciencias Informáticas
Intelligent agents
ARTIFICIAL INTELLIGENCE
Recuperação de Informações
Classificação Automática de Documentos
Aprendizagem de Máquina Baseada em Instâncias
Subespaços Aleatórios
Conjuntos de Classificadores
Information Retrieval
Automatic Text Categorization
nstance-Based Machine Learning
Random Subspaces
Multiple classifiers - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/22507
Ver los metadatos del registro completo
id |
SEDICI_e9deb92b3546ffbe054c5517b347e5e9 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/22507 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadoresGean, Chu ChiaCiencias InformáticasIntelligent agentsARTIFICIAL INTELLIGENCERecuperação de InformaçõesClassificação Automática de DocumentosAprendizagem de Máquina Baseada em InstânciasSubespaços AleatóriosConjuntos de ClassificadoresInformation RetrievalAutomatic Text Categorizationnstance-Based Machine LearningRandom SubspacesMultiple classifiersAtualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho.Nowadays, due to the large volume of text available in digital media, the automatic document categorization becomes an important modern Information Retrieval task. In this paper we describe a new approach to the problem, based on the classical vector space model for text treatment and on the use of Pattern Recognition techniques. As texts collections produce huge dimensional vector spaces, we attack the problem using several preprocessing techniques, and a set of k-Nearest-Neighbors classifiers, each of them dedicated to a sub-space of the original space. The final classification is obtained by a combination of the results of the individual classifiers. We apply our approach to documents extracted from the TIPSTER and REUTERS databases. The obtained results and some conclusions are presented.Eje: V - Workshop de agentes y sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI)2004info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/22507info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)porreponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T10:27:53Zoai:sedici.unlp.edu.ar:10915/22507Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 10:27:53.736SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores |
title |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores |
spellingShingle |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores Gean, Chu Chia Ciencias Informáticas Intelligent agents ARTIFICIAL INTELLIGENCE Recuperação de Informações Classificação Automática de Documentos Aprendizagem de Máquina Baseada em Instâncias Subespaços Aleatórios Conjuntos de Classificadores Information Retrieval Automatic Text Categorization nstance-Based Machine Learning Random Subspaces Multiple classifiers |
title_short |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores |
title_full |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores |
title_fullStr |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores |
title_full_unstemmed |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores |
title_sort |
Classificação automática de documentos usando subespaços aleatórios e conjuntos de classificadores |
dc.creator.none.fl_str_mv |
Gean, Chu Chia |
author |
Gean, Chu Chia |
author_facet |
Gean, Chu Chia |
author_role |
author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Intelligent agents ARTIFICIAL INTELLIGENCE Recuperação de Informações Classificação Automática de Documentos Aprendizagem de Máquina Baseada em Instâncias Subespaços Aleatórios Conjuntos de Classificadores Information Retrieval Automatic Text Categorization nstance-Based Machine Learning Random Subspaces Multiple classifiers |
topic |
Ciencias Informáticas Intelligent agents ARTIFICIAL INTELLIGENCE Recuperação de Informações Classificação Automática de Documentos Aprendizagem de Máquina Baseada em Instâncias Subespaços Aleatórios Conjuntos de Classificadores Information Retrieval Automatic Text Categorization nstance-Based Machine Learning Random Subspaces Multiple classifiers |
dc.description.none.fl_txt_mv |
Atualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho. Nowadays, due to the large volume of text available in digital media, the automatic document categorization becomes an important modern Information Retrieval task. In this paper we describe a new approach to the problem, based on the classical vector space model for text treatment and on the use of Pattern Recognition techniques. As texts collections produce huge dimensional vector spaces, we attack the problem using several preprocessing techniques, and a set of k-Nearest-Neighbors classifiers, each of them dedicated to a sub-space of the original space. The final classification is obtained by a combination of the results of the individual classifiers. We apply our approach to documents extracted from the TIPSTER and REUTERS databases. The obtained results and some conclusions are presented. Eje: V - Workshop de agentes y sistemas inteligentes Red de Universidades con Carreras en Informática (RedUNCI) |
description |
Atualmente, devido ao volume grande de texto disponível em meios digitais, a classificação automática de documentos se torna uma tarefa importante da área do Tratamento Automatizado de Informações. Neste artigo descreve-se uma nova abordagem para o problema, baseada no modelo vetorial para o tratamento de textos e no uso de técnicas de Reconhecimento de Padrões. Como coleções de textos produzem espaços vetoriais de dimensão bastante elevada, o problema é tratado usando várias técnicas de préprocessamento e um conjunto de classificadores baseados em instâncias – do tipo k-vizinhos mais próximos, cada um dos quais dedicado a um subespaço do espaço original. A classificação final é obtida por uma combinação de resultados dos classificadores individuais. Esta abordagem foi aplicada a documentos oriundos das bases de dados TIPSTER e REUTERS, amplamente utilizadas na área. São apresentados os principais resultados obtidos e algumas conclusões e perspectivas do trabalho. |
publishDate |
2004 |
dc.date.none.fl_str_mv |
2004 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/22507 |
url |
http://sedici.unlp.edu.ar/handle/10915/22507 |
dc.language.none.fl_str_mv |
por |
language |
por |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1842260117065564160 |
score |
13.13397 |