Detección de epidemias en textos periodísticos escritos en español
- Autores
- Dellanzo, Claudia Antonella
- Año de publicación
- 2021
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Cotik, Viviana Erica
- Descripción
- Existen diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto.
There are several diseases present both in the world and in Latin America, being some of them: Chagas, dengue fever, Guillain-Barré syndrome, Zika, microcephaly, measles, and hantavirus. The availability of information about them, such as the number of cases and the location in which they occur, is crucial to understand the propagation of the illnesses and to have more resources that allow taking action to diminish their incidence. To extract information about diseases outbreaks in progress, we need to have the appropriate resources. Due to the lack of corpora in Spanish about diseases outbreaks, we created an annotated corpus to detect named entities and relations, based on news articles from ProMED-mail. On one side, we worked with the entire articles and, on the other, only with the titles. We evaluated the consistency between the annotations through the implementation of Cohen’s kappa coefficient, achieving a result of 0.53. We implemented two algorithms for named entity detection: a rule-based and a deep learning one based on Flair’s proposal, which uses a bidirectional long-short term memory (Bi-LSTM) network with Conditional Random Fields (CRF). The annotated corpus was used to test both algorithms and to train the machine learning one. To evaluate their performances, we implemented an F1-score (exact and partial match), achieving better results with the neural network’s algorithm (both for the micro-average value and for most entities). Finally, we implemented a baseline for relation extraction based on the co-occurrence of named entities, allowing us to establish links between them. To evaluate its performance, we implemented an F1-score exact match.
Fil: Dellanzo, Claudia Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
RECONOCIMIENTO DE ENTIDADES NOMBRADAS
DETECCION DE RELACIONES
CREACION DE CORPUS ANOTADO
ESPAÑOL
NLP
DETECCION DE EPIDEMIAS
EXTRACCION DE INFORMACION
NAMED ENTITY RECOGNITION
RELATION DETECTION
ANNOTATED CORPUS CREATION
SPANISH
NLP
EPIDEMIC DETECTION
INFORMATION EXTRACTION - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000837_Dellanzo
Ver los metadatos del registro completo
id |
BDUBAFCEN_d112f721bea82da385f57c05f5d60e85 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000837_Dellanzo |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Detección de epidemias en textos periodísticos escritos en españolDellanzo, Claudia AntonellaRECONOCIMIENTO DE ENTIDADES NOMBRADASDETECCION DE RELACIONESCREACION DE CORPUS ANOTADOESPAÑOLNLPDETECCION DE EPIDEMIASEXTRACCION DE INFORMACIONNAMED ENTITY RECOGNITIONRELATION DETECTIONANNOTATED CORPUS CREATIONSPANISHNLPEPIDEMIC DETECTIONINFORMATION EXTRACTIONExisten diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto.There are several diseases present both in the world and in Latin America, being some of them: Chagas, dengue fever, Guillain-Barré syndrome, Zika, microcephaly, measles, and hantavirus. The availability of information about them, such as the number of cases and the location in which they occur, is crucial to understand the propagation of the illnesses and to have more resources that allow taking action to diminish their incidence. To extract information about diseases outbreaks in progress, we need to have the appropriate resources. Due to the lack of corpora in Spanish about diseases outbreaks, we created an annotated corpus to detect named entities and relations, based on news articles from ProMED-mail. On one side, we worked with the entire articles and, on the other, only with the titles. We evaluated the consistency between the annotations through the implementation of Cohen’s kappa coefficient, achieving a result of 0.53. We implemented two algorithms for named entity detection: a rule-based and a deep learning one based on Flair’s proposal, which uses a bidirectional long-short term memory (Bi-LSTM) network with Conditional Random Fields (CRF). The annotated corpus was used to test both algorithms and to train the machine learning one. To evaluate their performances, we implemented an F1-score (exact and partial match), achieving better results with the neural network’s algorithm (both for the micro-average value and for most entities). Finally, we implemented a baseline for relation extraction based on the co-occurrence of named entities, allowing us to establish links between them. To evaluate its performance, we implemented an F1-score exact match.Fil: Dellanzo, Claudia Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesCotik, Viviana Erica2021-09-21info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000837_Dellanzospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:38Zseminario:seminario_nCOM000837_DellanzoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:39.879Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Detección de epidemias en textos periodísticos escritos en español |
title |
Detección de epidemias en textos periodísticos escritos en español |
spellingShingle |
Detección de epidemias en textos periodísticos escritos en español Dellanzo, Claudia Antonella RECONOCIMIENTO DE ENTIDADES NOMBRADAS DETECCION DE RELACIONES CREACION DE CORPUS ANOTADO ESPAÑOL NLP DETECCION DE EPIDEMIAS EXTRACCION DE INFORMACION NAMED ENTITY RECOGNITION RELATION DETECTION ANNOTATED CORPUS CREATION SPANISH NLP EPIDEMIC DETECTION INFORMATION EXTRACTION |
title_short |
Detección de epidemias en textos periodísticos escritos en español |
title_full |
Detección de epidemias en textos periodísticos escritos en español |
title_fullStr |
Detección de epidemias en textos periodísticos escritos en español |
title_full_unstemmed |
Detección de epidemias en textos periodísticos escritos en español |
title_sort |
Detección de epidemias en textos periodísticos escritos en español |
dc.creator.none.fl_str_mv |
Dellanzo, Claudia Antonella |
author |
Dellanzo, Claudia Antonella |
author_facet |
Dellanzo, Claudia Antonella |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cotik, Viviana Erica |
dc.subject.none.fl_str_mv |
RECONOCIMIENTO DE ENTIDADES NOMBRADAS DETECCION DE RELACIONES CREACION DE CORPUS ANOTADO ESPAÑOL NLP DETECCION DE EPIDEMIAS EXTRACCION DE INFORMACION NAMED ENTITY RECOGNITION RELATION DETECTION ANNOTATED CORPUS CREATION SPANISH NLP EPIDEMIC DETECTION INFORMATION EXTRACTION |
topic |
RECONOCIMIENTO DE ENTIDADES NOMBRADAS DETECCION DE RELACIONES CREACION DE CORPUS ANOTADO ESPAÑOL NLP DETECCION DE EPIDEMIAS EXTRACCION DE INFORMACION NAMED ENTITY RECOGNITION RELATION DETECTION ANNOTATED CORPUS CREATION SPANISH NLP EPIDEMIC DETECTION INFORMATION EXTRACTION |
dc.description.none.fl_txt_mv |
Existen diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto. There are several diseases present both in the world and in Latin America, being some of them: Chagas, dengue fever, Guillain-Barré syndrome, Zika, microcephaly, measles, and hantavirus. The availability of information about them, such as the number of cases and the location in which they occur, is crucial to understand the propagation of the illnesses and to have more resources that allow taking action to diminish their incidence. To extract information about diseases outbreaks in progress, we need to have the appropriate resources. Due to the lack of corpora in Spanish about diseases outbreaks, we created an annotated corpus to detect named entities and relations, based on news articles from ProMED-mail. On one side, we worked with the entire articles and, on the other, only with the titles. We evaluated the consistency between the annotations through the implementation of Cohen’s kappa coefficient, achieving a result of 0.53. We implemented two algorithms for named entity detection: a rule-based and a deep learning one based on Flair’s proposal, which uses a bidirectional long-short term memory (Bi-LSTM) network with Conditional Random Fields (CRF). The annotated corpus was used to test both algorithms and to train the machine learning one. To evaluate their performances, we implemented an F1-score (exact and partial match), achieving better results with the neural network’s algorithm (both for the micro-average value and for most entities). Finally, we implemented a baseline for relation extraction based on the co-occurrence of named entities, allowing us to establish links between them. To evaluate its performance, we implemented an F1-score exact match. Fil: Dellanzo, Claudia Antonella. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
Existen diversas enfermedades que se encuentran presentes tanto en el mundo como en Latinoamérica, siendo algunas de ellas: Chagas, dengue, Guillain-Barré, Zika, microcefalia, sarampión y hantavirus. La disponibilidad de información sobre las mismas, como ser la cantidad de casos y la ubicación geográfica en que se manifiestan, es crucial para estudiar cómo se propagan y para contar con más herramientas que permitan tomar medidas para disminuir su incidencia. Para poder extraer información sobre epidemias en desarrollo en Latinoamérica necesitamos contar con los recursos apropiados. Debido a la falta de corpora en español sobre el dominio de brotes de enfermedades, creamos un corpus anotado para la detección de entidades nombradas y relaciones, basado en artículos periodísticos de ProMED-mail. Por un lado, trabajamos con los artículos enteros y, por otro, solo con los títulos de los mismos. Se implementó el coeficiente kappa de Cohen para evaluar la consistencia entre las anotaciones, obteniendo un resultado de 0.53. Implementamos dos algoritmos para la detección de entidades nombradas: uno basado en reglas y otro de redes neuronales profundas basado en la propuesta Flair, que utiliza una red bidirectional long-short term memory (Bi-LSTM) con Conditional Random Fields (CRF). El corpus anotado se utilizó para testear ambos algoritmos y para entrenar el de redes neuronales. Para la evaluación, se implementó un F1-score (match exacto y parcial), obteniendo los mejores resultados con el algoritmo de redes (tanto micro-averaged como para la mayor parte de las entidades). Por último, se implementó un baseline para la extracción de relaciones basado en la co-ocurrencia de entidades nombradas, permitiéndonos establecer vínculos entre las mismas. Para evaluar su desempeño, se implementó un F1-score match exacto. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-09-21 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000837_Dellanzo |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000837_Dellanzo |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618756675862528 |
score |
13.070432 |