Detección automática de trastornos de la voz desde una perspectiva práctica

Autores: Vidal, Jazmín; Ribas, Dayana; Bonomi, Cyntia; Lleida, Eduardo; Ferrer, Luciana; Ortega, Alfonso
Año de publicación: 2025
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.
Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making.
Sociedad Argentina de Informática e Investigación Operativa
Materia: Ciencias Informáticas
Detección automática de trastornos de la voz
Calibración
Modelos auto-supervisados
Proper scoring rules
Aplicaciones en salud
Automatic voice disorder detection
Calibration
Selfsupervised models
Proper scoring rules
Health applications
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/190530

Acceder

id	SEDICI_9a91a73b2b6bf429b8b0fe88a900568f
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/190530
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Detección automática de trastornos de la voz desde una perspectiva prácticaAutomatic Voice Disorder Detection from a Practical PerspectiveVidal, JazmínRibas, DayanaBonomi, CyntiaLleida, EduardoFerrer, LucianaOrtega, AlfonsoCiencias InformáticasDetección automática de trastornos de la vozCalibraciónModelos auto-supervisadosProper scoring rulesAplicaciones en saludAutomatic voice disorder detectionCalibrationSelfsupervised modelsProper scoring rulesHealth applicationsLos trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf67-68http://sedici.unlp.edu.ar/handle/10915/190530spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19744info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:46:30Zoai:sedici.unlp.edu.ar:10915/190530Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:46:31.081SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Detección automática de trastornos de la voz desde una perspectiva práctica Automatic Voice Disorder Detection from a Practical Perspective
title	Detección automática de trastornos de la voz desde una perspectiva práctica
spellingShingle	Detección automática de trastornos de la voz desde una perspectiva práctica Vidal, Jazmín Ciencias Informáticas Detección automática de trastornos de la voz Calibración Modelos auto-supervisados Proper scoring rules Aplicaciones en salud Automatic voice disorder detection Calibration Selfsupervised models Proper scoring rules Health applications
title_short	Detección automática de trastornos de la voz desde una perspectiva práctica
title_full	Detección automática de trastornos de la voz desde una perspectiva práctica
title_fullStr	Detección automática de trastornos de la voz desde una perspectiva práctica
title_full_unstemmed	Detección automática de trastornos de la voz desde una perspectiva práctica
title_sort	Detección automática de trastornos de la voz desde una perspectiva práctica
dc.creator.none.fl_str_mv	Vidal, Jazmín Ribas, Dayana Bonomi, Cyntia Lleida, Eduardo Ferrer, Luciana Ortega, Alfonso
author	Vidal, Jazmín
author_facet	Vidal, Jazmín Ribas, Dayana Bonomi, Cyntia Lleida, Eduardo Ferrer, Luciana Ortega, Alfonso
author_role	author
author2	Ribas, Dayana Bonomi, Cyntia Lleida, Eduardo Ferrer, Luciana Ortega, Alfonso
author2_role	author author author author author
dc.subject.none.fl_str_mv	Ciencias Informáticas Detección automática de trastornos de la voz Calibración Modelos auto-supervisados Proper scoring rules Aplicaciones en salud Automatic voice disorder detection Calibration Selfsupervised models Proper scoring rules Health applications
topic	Ciencias Informáticas Detección automática de trastornos de la voz Calibración Modelos auto-supervisados Proper scoring rules Aplicaciones en salud Automatic voice disorder detection Calibration Selfsupervised models Proper scoring rules Health applications
dc.description.none.fl_txt_mv	Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones. Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making. Sociedad Argentina de Informática e Investigación Operativa
description	Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.
publishDate	2025
dc.date.none.fl_str_mv	2025-08
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/190530
url	http://sedici.unlp.edu.ar/handle/10915/190530
dc.language.none.fl_str_mv	spa
language	spa
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19744 info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf 67-68
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1866372189099393024
score	13.143419

Detección automática de trastornos de la voz desde una perspectiva práctica

Publicaciones similares