Detección automática de trastornos de la voz desde una perspectiva práctica

Autores
Vidal, Jazmín; Ribas, Dayana; Bonomi, Cyntia; Lleida, Eduardo; Ferrer, Luciana; Ortega, Alfonso
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.
Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
Detección automática de trastornos de la voz
Calibración
Modelos auto-supervisados
Proper scoring rules
Aplicaciones en salud
Automatic voice disorder detection
Calibration
Selfsupervised models
Proper scoring rules
Health applications
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/190530

id SEDICI_9a91a73b2b6bf429b8b0fe88a900568f
oai_identifier_str oai:sedici.unlp.edu.ar:10915/190530
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Detección automática de trastornos de la voz desde una perspectiva prácticaAutomatic Voice Disorder Detection from a Practical PerspectiveVidal, JazmínRibas, DayanaBonomi, CyntiaLleida, EduardoFerrer, LucianaOrtega, AlfonsoCiencias InformáticasDetección automática de trastornos de la vozCalibraciónModelos auto-supervisadosProper scoring rulesAplicaciones en saludAutomatic voice disorder detectionCalibrationSelfsupervised modelsProper scoring rulesHealth applicationsLos trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf67-68http://sedici.unlp.edu.ar/handle/10915/190530spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19744info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-03-31T12:41:19Zoai:sedici.unlp.edu.ar:10915/190530Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-03-31 12:41:20.142SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Detección automática de trastornos de la voz desde una perspectiva práctica
Automatic Voice Disorder Detection from a Practical Perspective
title Detección automática de trastornos de la voz desde una perspectiva práctica
spellingShingle Detección automática de trastornos de la voz desde una perspectiva práctica
Vidal, Jazmín
Ciencias Informáticas
Detección automática de trastornos de la voz
Calibración
Modelos auto-supervisados
Proper scoring rules
Aplicaciones en salud
Automatic voice disorder detection
Calibration
Selfsupervised models
Proper scoring rules
Health applications
title_short Detección automática de trastornos de la voz desde una perspectiva práctica
title_full Detección automática de trastornos de la voz desde una perspectiva práctica
title_fullStr Detección automática de trastornos de la voz desde una perspectiva práctica
title_full_unstemmed Detección automática de trastornos de la voz desde una perspectiva práctica
title_sort Detección automática de trastornos de la voz desde una perspectiva práctica
dc.creator.none.fl_str_mv Vidal, Jazmín
Ribas, Dayana
Bonomi, Cyntia
Lleida, Eduardo
Ferrer, Luciana
Ortega, Alfonso
author Vidal, Jazmín
author_facet Vidal, Jazmín
Ribas, Dayana
Bonomi, Cyntia
Lleida, Eduardo
Ferrer, Luciana
Ortega, Alfonso
author_role author
author2 Ribas, Dayana
Bonomi, Cyntia
Lleida, Eduardo
Ferrer, Luciana
Ortega, Alfonso
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Detección automática de trastornos de la voz
Calibración
Modelos auto-supervisados
Proper scoring rules
Aplicaciones en salud
Automatic voice disorder detection
Calibration
Selfsupervised models
Proper scoring rules
Health applications
topic Ciencias Informáticas
Detección automática de trastornos de la voz
Calibración
Modelos auto-supervisados
Proper scoring rules
Aplicaciones en salud
Automatic voice disorder detection
Calibration
Selfsupervised models
Proper scoring rules
Health applications
dc.description.none.fl_txt_mv Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.
Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making.
Sociedad Argentina de Informática e Investigación Operativa
description Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.
publishDate 2025
dc.date.none.fl_str_mv 2025-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/190530
url http://sedici.unlp.edu.ar/handle/10915/190530
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19744
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
67-68
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1861199749374279680
score 13.332987