Classificação automática de texto buscando similaridade de palavras e significados ocultos

Autores
Rocha, Ricardo Luis de Azevedo da; Catae, Fabricio S.
Año de publicación
2012
Idioma
portugués
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Adotamos o m etodo da indexação da semântica latente (LSI) para classifi car documentos que estejam relacionados por algum meio não restrito apenas aos termos presentes, mas buscando outras formas de similaridades. A redu cão de dimensionalidade da matriz Termo-Documento n~ao e novidade, sendo normalmente adotado entre 200 a 300 dimensões. Nesse trabalho, transformamos o LSI em um algoritmo semi-supervisionado e determinamos o n umero ideal de dimensão durante a fase de treinamento. O algoritmo utiliza um espa co isom etrico a aquele de nido pela matriz Termo-Documento para acelerar os c alculos.
Eje: Workshop Bases de datos y minería de datos (WBDDM)
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
base de datos
Clustering
Semantics
Data mining
information retrieval
latent semantic indexing
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/23750

id SEDICI_530b632c2b8d7114b7738eb2360ca75d
oai_identifier_str oai:sedici.unlp.edu.ar:10915/23750
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Classificação automática de texto buscando similaridade de palavras e significados ocultosRocha, Ricardo Luis de Azevedo daCatae, Fabricio S.Ciencias Informáticasbase de datosClusteringSemanticsData mininginformation retrievallatent semantic indexingAdotamos o m etodo da indexação da semântica latente (LSI) para classifi car documentos que estejam relacionados por algum meio não restrito apenas aos termos presentes, mas buscando outras formas de similaridades. A redu cão de dimensionalidade da matriz Termo-Documento n~ao e novidade, sendo normalmente adotado entre 200 a 300 dimensões. Nesse trabalho, transformamos o LSI em um algoritmo semi-supervisionado e determinamos o n umero ideal de dimensão durante a fase de treinamento. O algoritmo utiliza um espa co isom etrico a aquele de nido pela matriz Termo-Documento para acelerar os c alculos.Eje: Workshop Bases de datos y minería de datos (WBDDM)Red de Universidades con Carreras en Informática (RedUNCI)2012-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/23750info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)porreponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-15T10:48:14Zoai:sedici.unlp.edu.ar:10915/23750Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-15 10:48:14.189SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Classificação automática de texto buscando similaridade de palavras e significados ocultos
title Classificação automática de texto buscando similaridade de palavras e significados ocultos
spellingShingle Classificação automática de texto buscando similaridade de palavras e significados ocultos
Rocha, Ricardo Luis de Azevedo da
Ciencias Informáticas
base de datos
Clustering
Semantics
Data mining
information retrieval
latent semantic indexing
title_short Classificação automática de texto buscando similaridade de palavras e significados ocultos
title_full Classificação automática de texto buscando similaridade de palavras e significados ocultos
title_fullStr Classificação automática de texto buscando similaridade de palavras e significados ocultos
title_full_unstemmed Classificação automática de texto buscando similaridade de palavras e significados ocultos
title_sort Classificação automática de texto buscando similaridade de palavras e significados ocultos
dc.creator.none.fl_str_mv Rocha, Ricardo Luis de Azevedo da
Catae, Fabricio S.
author Rocha, Ricardo Luis de Azevedo da
author_facet Rocha, Ricardo Luis de Azevedo da
Catae, Fabricio S.
author_role author
author2 Catae, Fabricio S.
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
base de datos
Clustering
Semantics
Data mining
information retrieval
latent semantic indexing
topic Ciencias Informáticas
base de datos
Clustering
Semantics
Data mining
information retrieval
latent semantic indexing
dc.description.none.fl_txt_mv Adotamos o m etodo da indexação da semântica latente (LSI) para classifi car documentos que estejam relacionados por algum meio não restrito apenas aos termos presentes, mas buscando outras formas de similaridades. A redu cão de dimensionalidade da matriz Termo-Documento n~ao e novidade, sendo normalmente adotado entre 200 a 300 dimensões. Nesse trabalho, transformamos o LSI em um algoritmo semi-supervisionado e determinamos o n umero ideal de dimensão durante a fase de treinamento. O algoritmo utiliza um espa co isom etrico a aquele de nido pela matriz Termo-Documento para acelerar os c alculos.
Eje: Workshop Bases de datos y minería de datos (WBDDM)
Red de Universidades con Carreras en Informática (RedUNCI)
description Adotamos o m etodo da indexação da semântica latente (LSI) para classifi car documentos que estejam relacionados por algum meio não restrito apenas aos termos presentes, mas buscando outras formas de similaridades. A redu cão de dimensionalidade da matriz Termo-Documento n~ao e novidade, sendo normalmente adotado entre 200 a 300 dimensões. Nesse trabalho, transformamos o LSI em um algoritmo semi-supervisionado e determinamos o n umero ideal de dimensão durante a fase de treinamento. O algoritmo utiliza um espa co isom etrico a aquele de nido pela matriz Termo-Documento para acelerar os c alculos.
publishDate 2012
dc.date.none.fl_str_mv 2012-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/23750
url http://sedici.unlp.edu.ar/handle/10915/23750
dc.language.none.fl_str_mv por
language por
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1846063909370331137
score 13.22299