Predicting Depression: a comparative study of machine learning approaches based on language usage

Autores: Mariñelarena-Dondena, Luciana; Ferretti, Edgardo; Maragoudakis, Manolis; Sapino, Maximiliano Emanuel; Errecalde, Marcelo Luis
Año de publicación: 2017
Idioma: inglés
Tipo de recurso: artículo
Estado: versión publicada
Descripción: Depression is a major public health concern and a leading cause of disability. Globally, more than 332 million people of all ages suffer from depression. Several studies in the literature show that people language usage is indicative of their psychological states. That is why, there is growing interest in the application of natural language processing techniques for predicting depression. In this current work, we present a comparative study of different machine learning methods and alternative ways of representing documents in order to automatically detect users who have reported to have been diagnosed with depression. The obtained results have demonstrated that a Deep Learning approach had the superior classification performance, when combined with a Synthetic Minority Oversampling Technique to deal with the problem of class imbalances in the dataset used in our experiments. The F1 score achieved was 82.93% with an accuracy of more than 94%.
La depresión es uno de los mayores problemas de salud pública que constituye a su vez una de las principales causas de incapacidad. A nivel mundial, más de 332 millones de personas de todas las edades padecen este trastorno. Investigaciones previas demuestran que el lenguaje que utilizan las personas refleja su salud mental. Por tal motivo, existe un creciente interés en la aplicación de técnicas de procesamiento del lenguaje natural para predecir la depresión. En este trabajo se presenta un estudio comparativo de diferentes métodos de aprendizaje automático como así también distintas maneras de representación de los documentos con el fin de detectar automáticamente a aquellos usuarios de medios sociales que manifestaron haber sido diagnosticados previamente con depresión. Los resultados obtenidos mostraron que la performance del clasificador mejoró considerablemente cuando se aplicó un enfoque de Aprendizaje Profundo combinándolo con el algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite hacer frente al problema de las clases desbalanceadas alcanzando así una medida F1 del 82.93%. En síntesis, este enfoque combinado, SMOTE + Aprendizaje Profundo, predice la depresión con una exactitud de más del 94%.
A depressão é um dos maiores problemas de saúde pública que constitui por sua vez uma das principais causas de incapacidade. A nível mundial, mais de 332 milhões de pessoas de todas as idades padecem deste transtorno. Investigações prévias demonstram que a linguagem que utilizam as pessoas refletem a sua saúde mental. Por tal motivo, existe um crescente interesse na aplicação de técnicas de processamento da linguagem natural para prognosticar a depressão. Neste trabalho se apresenta um estudo comparativo de diferentes métodos de aprendizagem automático como assim também distintas maneiras de representação dos documentos com a finalidade de detectar automaticamente àqueles usuários de meios sociais que manifestaram haver sido diagnosticados previamente com depressão. Os resultados obtidos mostraram que a performance do classificador melhorou consideravelmente quando se aplicou um enfoque de Aprendizagem Profunda combinando com o algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite fazer frente ao problema das classes desbalanceadas alcançando assim uma medida F1 del 82.93%. Em síntese, este enfoque combinado SMOTE + Aprendizagem Profundo prognostica a depressão com uma exatidão de mais de 94%.
Fil: Mariñelarena-Dondena, Luciana. Universidad Nacional de San Luis. Facultad de Ciencias Físico Matemáticas y Naturales. Departamento de Informática. Laboratorio Investigación y Desarrollo en Inteligencia Computacional; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - San Luis; Argentina
Fil: Ferretti, Edgardo. Universidad Nacional de San Luis; Argentina
Fil: Maragoudakis, Manolis. University of the Aegean; Grecia
Fil: Sapino, Maximiliano Emanuel. Universidad Nacional de San Luis. Facultad de Ciencias Físico Matemáticas y Naturales. Departamento de Informática. Laboratorio Investigación y Desarrollo en Inteligencia Computacional; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - San Luis; Argentina
Fil: Errecalde, Marcelo Luis. Universidad Nacional de San Luis; Argentina
Materia: DEPRESSION
MACHINE LEARNING
DEEP LEARNING
SMOTE (SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE)
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
Institución: Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador: oai:ri.conicet.gov.ar:11336/147208

Acceder

id	CONICETDig_3ddc7144af30fb3294e9ac728dc60361
oai_identifier_str	oai:ri.conicet.gov.ar:11336/147208
network_acronym_str	CONICETDig
repository_id_str	3498
network_name_str	CONICET Digital (CONICET)
spelling	Predicting Depression: a comparative study of machine learning approaches based on language usagePrediciendo la depresión: un estudio comparativo de distintos enfoques de aprendizaje automático basado en el análisis del lenguajePrognosticando a depressão: um estudo comparativo de diferentes enfoques da aprendizagem automática baseada na análise da linguagemMariñelarena-Dondena, LucianaFerretti, EdgardoMaragoudakis, ManolisSapino, Maximiliano EmanuelErrecalde, Marcelo LuisDEPRESSIONMACHINE LEARNINGDEEP LEARNINGSMOTE (SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE)https://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1Depression is a major public health concern and a leading cause of disability. Globally, more than 332 million people of all ages suffer from depression. Several studies in the literature show that people language usage is indicative of their psychological states. That is why, there is growing interest in the application of natural language processing techniques for predicting depression. In this current work, we present a comparative study of different machine learning methods and alternative ways of representing documents in order to automatically detect users who have reported to have been diagnosed with depression. The obtained results have demonstrated that a Deep Learning approach had the superior classification performance, when combined with a Synthetic Minority Oversampling Technique to deal with the problem of class imbalances in the dataset used in our experiments. The F1 score achieved was 82.93% with an accuracy of more than 94%.La depresión es uno de los mayores problemas de salud pública que constituye a su vez una de las principales causas de incapacidad. A nivel mundial, más de 332 millones de personas de todas las edades padecen este trastorno. Investigaciones previas demuestran que el lenguaje que utilizan las personas refleja su salud mental. Por tal motivo, existe un creciente interés en la aplicación de técnicas de procesamiento del lenguaje natural para predecir la depresión. En este trabajo se presenta un estudio comparativo de diferentes métodos de aprendizaje automático como así también distintas maneras de representación de los documentos con el fin de detectar automáticamente a aquellos usuarios de medios sociales que manifestaron haber sido diagnosticados previamente con depresión. Los resultados obtenidos mostraron que la performance del clasificador mejoró considerablemente cuando se aplicó un enfoque de Aprendizaje Profundo combinándolo con el algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite hacer frente al problema de las clases desbalanceadas alcanzando así una medida F1 del 82.93%. En síntesis, este enfoque combinado, SMOTE + Aprendizaje Profundo, predice la depresión con una exactitud de más del 94%.A depressão é um dos maiores problemas de saúde pública que constitui por sua vez uma das principais causas de incapacidade. A nível mundial, mais de 332 milhões de pessoas de todas as idades padecem deste transtorno. Investigações prévias demonstram que a linguagem que utilizam as pessoas refletem a sua saúde mental. Por tal motivo, existe um crescente interesse na aplicação de técnicas de processamento da linguagem natural para prognosticar a depressão. Neste trabalho se apresenta um estudo comparativo de diferentes métodos de aprendizagem automático como assim também distintas maneiras de representação dos documentos com a finalidade de detectar automaticamente àqueles usuários de meios sociais que manifestaram haver sido diagnosticados previamente com depressão. Os resultados obtidos mostraram que a performance do classificador melhorou consideravelmente quando se aplicou um enfoque de Aprendizagem Profunda combinando com o algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite fazer frente ao problema das classes desbalanceadas alcançando assim uma medida F1 del 82.93%. Em síntese, este enfoque combinado SMOTE + Aprendizagem Profundo prognostica a depressão com uma exatidão de mais de 94%.Fil: Mariñelarena-Dondena, Luciana. Universidad Nacional de San Luis. Facultad de Ciencias Físico Matemáticas y Naturales. Departamento de Informática. Laboratorio Investigación y Desarrollo en Inteligencia Computacional; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - San Luis; ArgentinaFil: Ferretti, Edgardo. Universidad Nacional de San Luis; ArgentinaFil: Maragoudakis, Manolis. University of the Aegean; GreciaFil: Sapino, Maximiliano Emanuel. Universidad Nacional de San Luis. Facultad de Ciencias Físico Matemáticas y Naturales. Departamento de Informática. Laboratorio Investigación y Desarrollo en Inteligencia Computacional; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - San Luis; ArgentinaFil: Errecalde, Marcelo Luis. Universidad Nacional de San Luis; ArgentinaCentro de Estudios Académicos en Neuropsicología2017-12info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/147208Mariñelarena-Dondena, Luciana; Ferretti, Edgardo; Maragoudakis, Manolis; Sapino, Maximiliano Emanuel; Errecalde, Marcelo Luis; Predicting Depression: a comparative study of machine learning approaches based on language usage; Centro de Estudios Académicos en Neuropsicología; Cuadernos de Neuropsicología; 11; 3; 12-2017; 42-540718-4123CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://www.cnps.cl/index.php/cnps/article/view/297info:eu-repo/semantics/altIdentifier/doi/10.7714/CNPS/11.3.201info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2026-06-04T11:13:33Zoai:ri.conicet.gov.ar:11336/147208instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982026-06-04 11:13:33.67CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv	Predicting Depression: a comparative study of machine learning approaches based on language usage Prediciendo la depresión: un estudio comparativo de distintos enfoques de aprendizaje automático basado en el análisis del lenguaje Prognosticando a depressão: um estudo comparativo de diferentes enfoques da aprendizagem automática baseada na análise da linguagem
title	Predicting Depression: a comparative study of machine learning approaches based on language usage
spellingShingle	Predicting Depression: a comparative study of machine learning approaches based on language usage Mariñelarena-Dondena, Luciana DEPRESSION MACHINE LEARNING DEEP LEARNING SMOTE (SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE)
title_short	Predicting Depression: a comparative study of machine learning approaches based on language usage
title_full	Predicting Depression: a comparative study of machine learning approaches based on language usage
title_fullStr	Predicting Depression: a comparative study of machine learning approaches based on language usage
title_full_unstemmed	Predicting Depression: a comparative study of machine learning approaches based on language usage
title_sort	Predicting Depression: a comparative study of machine learning approaches based on language usage
dc.creator.none.fl_str_mv	Mariñelarena-Dondena, Luciana Ferretti, Edgardo Maragoudakis, Manolis Sapino, Maximiliano Emanuel Errecalde, Marcelo Luis
author	Mariñelarena-Dondena, Luciana
author_facet	Mariñelarena-Dondena, Luciana Ferretti, Edgardo Maragoudakis, Manolis Sapino, Maximiliano Emanuel Errecalde, Marcelo Luis
author_role	author
author2	Ferretti, Edgardo Maragoudakis, Manolis Sapino, Maximiliano Emanuel Errecalde, Marcelo Luis
author2_role	author author author author
dc.subject.none.fl_str_mv	DEPRESSION MACHINE LEARNING DEEP LEARNING SMOTE (SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE)
topic	DEPRESSION MACHINE LEARNING DEEP LEARNING SMOTE (SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE)
purl_subject.fl_str_mv	https://purl.org/becyt/ford/1.2 https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv	Depression is a major public health concern and a leading cause of disability. Globally, more than 332 million people of all ages suffer from depression. Several studies in the literature show that people language usage is indicative of their psychological states. That is why, there is growing interest in the application of natural language processing techniques for predicting depression. In this current work, we present a comparative study of different machine learning methods and alternative ways of representing documents in order to automatically detect users who have reported to have been diagnosed with depression. The obtained results have demonstrated that a Deep Learning approach had the superior classification performance, when combined with a Synthetic Minority Oversampling Technique to deal with the problem of class imbalances in the dataset used in our experiments. The F1 score achieved was 82.93% with an accuracy of more than 94%. La depresión es uno de los mayores problemas de salud pública que constituye a su vez una de las principales causas de incapacidad. A nivel mundial, más de 332 millones de personas de todas las edades padecen este trastorno. Investigaciones previas demuestran que el lenguaje que utilizan las personas refleja su salud mental. Por tal motivo, existe un creciente interés en la aplicación de técnicas de procesamiento del lenguaje natural para predecir la depresión. En este trabajo se presenta un estudio comparativo de diferentes métodos de aprendizaje automático como así también distintas maneras de representación de los documentos con el fin de detectar automáticamente a aquellos usuarios de medios sociales que manifestaron haber sido diagnosticados previamente con depresión. Los resultados obtenidos mostraron que la performance del clasificador mejoró considerablemente cuando se aplicó un enfoque de Aprendizaje Profundo combinándolo con el algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite hacer frente al problema de las clases desbalanceadas alcanzando así una medida F1 del 82.93%. En síntesis, este enfoque combinado, SMOTE + Aprendizaje Profundo, predice la depresión con una exactitud de más del 94%. A depressão é um dos maiores problemas de saúde pública que constitui por sua vez uma das principais causas de incapacidade. A nível mundial, mais de 332 milhões de pessoas de todas as idades padecem deste transtorno. Investigações prévias demonstram que a linguagem que utilizam as pessoas refletem a sua saúde mental. Por tal motivo, existe um crescente interesse na aplicação de técnicas de processamento da linguagem natural para prognosticar a depressão. Neste trabalho se apresenta um estudo comparativo de diferentes métodos de aprendizagem automático como assim também distintas maneiras de representação dos documentos com a finalidade de detectar automaticamente àqueles usuários de meios sociais que manifestaram haver sido diagnosticados previamente com depressão. Os resultados obtidos mostraram que a performance do classificador melhorou consideravelmente quando se aplicou um enfoque de Aprendizagem Profunda combinando com o algoritmo SMOTE (Synthetic Minority Oversampling TEchnique) que permite fazer frente ao problema das classes desbalanceadas alcançando assim uma medida F1 del 82.93%. Em síntese, este enfoque combinado SMOTE + Aprendizagem Profundo prognostica a depressão com uma exatidão de mais de 94%. Fil: Mariñelarena-Dondena, Luciana. Universidad Nacional de San Luis. Facultad de Ciencias Físico Matemáticas y Naturales. Departamento de Informática. Laboratorio Investigación y Desarrollo en Inteligencia Computacional; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - San Luis; Argentina Fil: Ferretti, Edgardo. Universidad Nacional de San Luis; Argentina Fil: Maragoudakis, Manolis. University of the Aegean; Grecia Fil: Sapino, Maximiliano Emanuel. Universidad Nacional de San Luis. Facultad de Ciencias Físico Matemáticas y Naturales. Departamento de Informática. Laboratorio Investigación y Desarrollo en Inteligencia Computacional; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - San Luis; Argentina Fil: Errecalde, Marcelo Luis. Universidad Nacional de San Luis; Argentina
description	Depression is a major public health concern and a leading cause of disability. Globally, more than 332 million people of all ages suffer from depression. Several studies in the literature show that people language usage is indicative of their psychological states. That is why, there is growing interest in the application of natural language processing techniques for predicting depression. In this current work, we present a comparative study of different machine learning methods and alternative ways of representing documents in order to automatically detect users who have reported to have been diagnosed with depression. The obtained results have demonstrated that a Deep Learning approach had the superior classification performance, when combined with a Synthetic Minority Oversampling Technique to deal with the problem of class imbalances in the dataset used in our experiments. The F1 score achieved was 82.93% with an accuracy of more than 94%.
publishDate	2017
dc.date.none.fl_str_mv	2017-12
dc.type.none.fl_str_mv	info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo
format	article
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://hdl.handle.net/11336/147208 Mariñelarena-Dondena, Luciana; Ferretti, Edgardo; Maragoudakis, Manolis; Sapino, Maximiliano Emanuel; Errecalde, Marcelo Luis; Predicting Depression: a comparative study of machine learning approaches based on language usage; Centro de Estudios Académicos en Neuropsicología; Cuadernos de Neuropsicología; 11; 3; 12-2017; 42-54 0718-4123 CONICET Digital CONICET
url	http://hdl.handle.net/11336/147208
identifier_str_mv	Mariñelarena-Dondena, Luciana; Ferretti, Edgardo; Maragoudakis, Manolis; Sapino, Maximiliano Emanuel; Errecalde, Marcelo Luis; Predicting Depression: a comparative study of machine learning approaches based on language usage; Centro de Estudios Académicos en Neuropsicología; Cuadernos de Neuropsicología; 11; 3; 12-2017; 42-54 0718-4123 CONICET Digital CONICET
dc.language.none.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://www.cnps.cl/index.php/cnps/article/view/297 info:eu-repo/semantics/altIdentifier/doi/10.7714/CNPS/11.3.201
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv	application/pdf application/pdf application/pdf
dc.publisher.none.fl_str_mv	Centro de Estudios Académicos en Neuropsicología
publisher.none.fl_str_mv	Centro de Estudios Académicos en Neuropsicología
dc.source.none.fl_str_mv	reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str	CONICET Digital (CONICET)
collection	CONICET Digital (CONICET)
instname_str	Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv	CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv	dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_	1867099340351209472
score	12.832306

Predicting Depression: a comparative study of machine learning approaches based on language usage

Publicaciones similares