Detección de epidemias en textos periodísticos escritos en español

Autores
Dellanzo, Claudia Antonella
Año de publicación
2021
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Cotik, Viviana Erica
Descripción
Existen diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto.
There are several diseases present both in the world and in Latin America, being some of them: Chagas, dengue fever, Guillain-Barré syndrome, Zika, microcephaly, measles, and hantavirus. The availability of information about them, such as the number of cases and the location in which they occur, is crucial to understand the propagation of the illnesses and to have more resources that allow taking action to diminish their incidence. To extract information about diseases outbreaks in progress, we need to have the appropriate resources. Due to the lack of corpora in Spanish about diseases outbreaks, we created an annotated corpus to detect named entities and relations, based on news articles from ProMED-mail. On one side, we worked with the entire articles and, on the other, only with the titles. We evaluated the consistency between the annotations through the implementation of Cohen’s kappa coefficient, achieving a result of 0.53. We implemented two algorithms for named entity detection: a rule-based and a deep learning one based on Flair’s proposal, which uses a bidirectional long-short term memory (Bi-LSTM) network with Conditional Random Fields (CRF). The annotated corpus was used to test both algorithms and to train the machine learning one. To evaluate their performances, we implemented an F1-score (exact and partial match), achieving better results with the neural network’s algorithm (both for the micro-average value and for most entities). Finally, we implemented a baseline for relation extraction based on the co-occurrence of named entities, allowing us to establish links between them. To evaluate its performance, we implemented an F1-score exact match.
Fil: Dellanzo, Claudia Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
RECONOCIMIENTO DE ENTIDADES NOMBRADAS
DETECCION DE RELACIONES
CREACION DE CORPUS ANOTADO
ESPAÑOL
NLP
DETECCION DE EPIDEMIAS
EXTRACCION DE INFORMACION
NAMED ENTITY RECOGNITION
RELATION DETECTION
ANNOTATED CORPUS CREATION
SPANISH
NLP
EPIDEMIC DETECTION
INFORMATION EXTRACTION
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nCOM000837_Dellanzo

id BDUBAFCEN_d112f721bea82da385f57c05f5d60e85
oai_identifier_str seminario:seminario_nCOM000837_Dellanzo
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Detección de epidemias en textos periodísticos escritos en españolDellanzo, Claudia AntonellaRECONOCIMIENTO DE ENTIDADES NOMBRADASDETECCION DE RELACIONESCREACION DE CORPUS ANOTADOESPAÑOLNLPDETECCION DE EPIDEMIASEXTRACCION DE INFORMACIONNAMED ENTITY RECOGNITIONRELATION DETECTIONANNOTATED CORPUS CREATIONSPANISHNLPEPIDEMIC DETECTIONINFORMATION EXTRACTIONExisten diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto.There are several diseases present both in the world and in Latin America, being some of them: Chagas, dengue fever, Guillain-Barré syndrome, Zika, microcephaly, measles, and hantavirus. The availability of information about them, such as the number of cases and the location in which they occur, is crucial to understand the propagation of the illnesses and to have more resources that allow taking action to diminish their incidence. To extract information about diseases outbreaks in progress, we need to have the appropriate resources. Due to the lack of corpora in Spanish about diseases outbreaks, we created an annotated corpus to detect named entities and relations, based on news articles from ProMED-mail. On one side, we worked with the entire articles and, on the other, only with the titles. We evaluated the consistency between the annotations through the implementation of Cohen’s kappa coefficient, achieving a result of 0.53. We implemented two algorithms for named entity detection: a rule-based and a deep learning one based on Flair’s proposal, which uses a bidirectional long-short term memory (Bi-LSTM) network with Conditional Random Fields (CRF). The annotated corpus was used to test both algorithms and to train the machine learning one. To evaluate their performances, we implemented an F1-score (exact and partial match), achieving better results with the neural network’s algorithm (both for the micro-average value and for most entities). Finally, we implemented a baseline for relation extraction based on the co-occurrence of named entities, allowing us to establish links between them. To evaluate its performance, we implemented an F1-score exact match.Fil: Dellanzo, Claudia Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesCotik, Viviana Erica2021-09-21info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000837_Dellanzospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:38Zseminario:seminario_nCOM000837_DellanzoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:39.879Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Detección de epidemias en textos periodísticos escritos en español
title Detección de epidemias en textos periodísticos escritos en español
spellingShingle Detección de epidemias en textos periodísticos escritos en español
Dellanzo, Claudia Antonella
RECONOCIMIENTO DE ENTIDADES NOMBRADAS
DETECCION DE RELACIONES
CREACION DE CORPUS ANOTADO
ESPAÑOL
NLP
DETECCION DE EPIDEMIAS
EXTRACCION DE INFORMACION
NAMED ENTITY RECOGNITION
RELATION DETECTION
ANNOTATED CORPUS CREATION
SPANISH
NLP
EPIDEMIC DETECTION
INFORMATION EXTRACTION
title_short Detección de epidemias en textos periodísticos escritos en español
title_full Detección de epidemias en textos periodísticos escritos en español
title_fullStr Detección de epidemias en textos periodísticos escritos en español
title_full_unstemmed Detección de epidemias en textos periodísticos escritos en español
title_sort Detección de epidemias en textos periodísticos escritos en español
dc.creator.none.fl_str_mv Dellanzo, Claudia Antonella
author Dellanzo, Claudia Antonella
author_facet Dellanzo, Claudia Antonella
author_role author
dc.contributor.none.fl_str_mv Cotik, Viviana Erica
dc.subject.none.fl_str_mv RECONOCIMIENTO DE ENTIDADES NOMBRADAS
DETECCION DE RELACIONES
CREACION DE CORPUS ANOTADO
ESPAÑOL
NLP
DETECCION DE EPIDEMIAS
EXTRACCION DE INFORMACION
NAMED ENTITY RECOGNITION
RELATION DETECTION
ANNOTATED CORPUS CREATION
SPANISH
NLP
EPIDEMIC DETECTION
INFORMATION EXTRACTION
topic RECONOCIMIENTO DE ENTIDADES NOMBRADAS
DETECCION DE RELACIONES
CREACION DE CORPUS ANOTADO
ESPAÑOL
NLP
DETECCION DE EPIDEMIAS
EXTRACCION DE INFORMACION
NAMED ENTITY RECOGNITION
RELATION DETECTION
ANNOTATED CORPUS CREATION
SPANISH
NLP
EPIDEMIC DETECTION
INFORMATION EXTRACTION
dc.description.none.fl_txt_mv Existen diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto.
There are several diseases present both in the world and in Latin America, being some of them: Chagas, dengue fever, Guillain-Barré syndrome, Zika, microcephaly, measles, and hantavirus. The availability of information about them, such as the number of cases and the location in which they occur, is crucial to understand the propagation of the illnesses and to have more resources that allow taking action to diminish their incidence. To extract information about diseases outbreaks in progress, we need to have the appropriate resources. Due to the lack of corpora in Spanish about diseases outbreaks, we created an annotated corpus to detect named entities and relations, based on news articles from ProMED-mail. On one side, we worked with the entire articles and, on the other, only with the titles. We evaluated the consistency between the annotations through the implementation of Cohen’s kappa coefficient, achieving a result of 0.53. We implemented two algorithms for named entity detection: a rule-based and a deep learning one based on Flair’s proposal, which uses a bidirectional long-short term memory (Bi-LSTM) network with Conditional Random Fields (CRF). The annotated corpus was used to test both algorithms and to train the machine learning one. To evaluate their performances, we implemented an F1-score (exact and partial match), achieving better results with the neural network’s algorithm (both for the micro-average value and for most entities). Finally, we implemented a baseline for relation extraction based on the co-occurrence of named entities, allowing us to establish links between them. To evaluate its performance, we implemented an F1-score exact match.
Fil: Dellanzo, Claudia Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description Existen diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto.
publishDate 2021
dc.date.none.fl_str_mv 2021-09-21
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nCOM000837_Dellanzo
url https://hdl.handle.net/20.500.12110/seminario_nCOM000837_Dellanzo
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618756675862528
score 13.070432