Caracterización de documentos utilizando técnicas de minería de textos

Autores
Aquino, Germán Osvaldo
Año de publicación
2013
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión aceptada
Colaborador/a o director/a de tesis
Lanzarini, Laura Cristina
Descripción
Obtener el conjunto de términos más representativos de un documento es una tarea importante, ya que permite caracterizarlo y simplificar los procesos de búsqueda y recuperación. En este trabajo se presenta un nuevo método que, sin importar el idioma en el que el documento esté escrito, permite extraer el conjunto de palabras clave más adecuado. Su funcionamiento se basa en una Red Neuronal que, luego de ser entrenada, es capaz de decidir para cada término del documento si se trata de una palabra clave o no. El ingreso del documento a la Red Neuronal implicó la definición de una representación numérica adecuada que permite medir la participación de un término dentro del documento. El método propuesto fue medido sobre una base de datos de artículos científicos publicados en WICC entre los años 1999 y 2012 demostrando un desempeño superior al de KEA, uno de los algoritmos de extracción de palabras clave más citados en la bibliografía.
Licenciado en Informática
Universidad Nacional de La Plata
Facultad de Informática
Materia
Ciencias Informáticas
documentos
Data mining
minería de datos
extracción de palabras clave
redes neuronales
aprendizaje automático
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-nd/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/63166

id SEDICI_db2b56f9ce2f9048ae7ddf3cd8c87d76
oai_identifier_str oai:sedici.unlp.edu.ar:10915/63166
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Caracterización de documentos utilizando técnicas de minería de textosAquino, Germán OsvaldoCiencias InformáticasdocumentosData miningminería de datosextracción de palabras claveredes neuronalesaprendizaje automáticoObtener el conjunto de términos más representativos de un documento es una tarea importante, ya que permite caracterizarlo y simplificar los procesos de búsqueda y recuperación. En este trabajo se presenta un nuevo método que, sin importar el idioma en el que el documento esté escrito, permite extraer el conjunto de palabras clave más adecuado. Su funcionamiento se basa en una Red Neuronal que, luego de ser entrenada, es capaz de decidir para cada término del documento si se trata de una palabra clave o no. El ingreso del documento a la Red Neuronal implicó la definición de una representación numérica adecuada que permite medir la participación de un término dentro del documento. El método propuesto fue medido sobre una base de datos de artículos científicos publicados en WICC entre los años 1999 y 2012 demostrando un desempeño superior al de KEA, uno de los algoritmos de extracción de palabras clave más citados en la bibliografía.Licenciado en InformáticaUniversidad Nacional de La PlataFacultad de InformáticaLanzarini, Laura Cristina2013-12info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionTesis de gradohttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/63166spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:08:19Zoai:sedici.unlp.edu.ar:10915/63166Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:08:19.963SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Caracterización de documentos utilizando técnicas de minería de textos
title Caracterización de documentos utilizando técnicas de minería de textos
spellingShingle Caracterización de documentos utilizando técnicas de minería de textos
Aquino, Germán Osvaldo
Ciencias Informáticas
documentos
Data mining
minería de datos
extracción de palabras clave
redes neuronales
aprendizaje automático
title_short Caracterización de documentos utilizando técnicas de minería de textos
title_full Caracterización de documentos utilizando técnicas de minería de textos
title_fullStr Caracterización de documentos utilizando técnicas de minería de textos
title_full_unstemmed Caracterización de documentos utilizando técnicas de minería de textos
title_sort Caracterización de documentos utilizando técnicas de minería de textos
dc.creator.none.fl_str_mv Aquino, Germán Osvaldo
author Aquino, Germán Osvaldo
author_facet Aquino, Germán Osvaldo
author_role author
dc.contributor.none.fl_str_mv Lanzarini, Laura Cristina
dc.subject.none.fl_str_mv Ciencias Informáticas
documentos
Data mining
minería de datos
extracción de palabras clave
redes neuronales
aprendizaje automático
topic Ciencias Informáticas
documentos
Data mining
minería de datos
extracción de palabras clave
redes neuronales
aprendizaje automático
dc.description.none.fl_txt_mv Obtener el conjunto de términos más representativos de un documento es una tarea importante, ya que permite caracterizarlo y simplificar los procesos de búsqueda y recuperación. En este trabajo se presenta un nuevo método que, sin importar el idioma en el que el documento esté escrito, permite extraer el conjunto de palabras clave más adecuado. Su funcionamiento se basa en una Red Neuronal que, luego de ser entrenada, es capaz de decidir para cada término del documento si se trata de una palabra clave o no. El ingreso del documento a la Red Neuronal implicó la definición de una representación numérica adecuada que permite medir la participación de un término dentro del documento. El método propuesto fue medido sobre una base de datos de artículos científicos publicados en WICC entre los años 1999 y 2012 demostrando un desempeño superior al de KEA, uno de los algoritmos de extracción de palabras clave más citados en la bibliografía.
Licenciado en Informática
Universidad Nacional de La Plata
Facultad de Informática
description Obtener el conjunto de términos más representativos de un documento es una tarea importante, ya que permite caracterizarlo y simplificar los procesos de búsqueda y recuperación. En este trabajo se presenta un nuevo método que, sin importar el idioma en el que el documento esté escrito, permite extraer el conjunto de palabras clave más adecuado. Su funcionamiento se basa en una Red Neuronal que, luego de ser entrenada, es capaz de decidir para cada término del documento si se trata de una palabra clave o no. El ingreso del documento a la Red Neuronal implicó la definición de una representación numérica adecuada que permite medir la participación de un término dentro del documento. El método propuesto fue medido sobre una base de datos de artículos científicos publicados en WICC entre los años 1999 y 2012 demostrando un desempeño superior al de KEA, uno de los algoritmos de extracción de palabras clave más citados en la bibliografía.
publishDate 2013
dc.date.none.fl_str_mv 2013-12
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/acceptedVersion
Tesis de grado
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/63166
url http://sedici.unlp.edu.ar/handle/10915/63166
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-nd/4.0/
Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844615955364184064
score 13.070432