Detección automática de trastornos de la voz desde una perspectiva práctica
- Autores
- Vidal, Jazmín; Ribas, Dayana; Bonomi, Cyntia; Lleida, Eduardo; Ferrer, Luciana; Ortega, Alfonso
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.
Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making.
Sociedad Argentina de Informática e Investigación Operativa - Materia
-
Ciencias Informáticas
Detección automática de trastornos de la voz
Calibración
Modelos auto-supervisados
Proper scoring rules
Aplicaciones en salud
Automatic voice disorder detection
Calibration
Selfsupervised models
Proper scoring rules
Health applications - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/190530
Ver los metadatos del registro completo
| id |
SEDICI_9a91a73b2b6bf429b8b0fe88a900568f |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/190530 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Detección automática de trastornos de la voz desde una perspectiva prácticaAutomatic Voice Disorder Detection from a Practical PerspectiveVidal, JazmínRibas, DayanaBonomi, CyntiaLleida, EduardoFerrer, LucianaOrtega, AlfonsoCiencias InformáticasDetección automática de trastornos de la vozCalibraciónModelos auto-supervisadosProper scoring rulesAplicaciones en saludAutomatic voice disorder detectionCalibrationSelfsupervised modelsProper scoring rulesHealth applicationsLos trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones.Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf67-68http://sedici.unlp.edu.ar/handle/10915/190530spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19744info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-03-31T12:41:19Zoai:sedici.unlp.edu.ar:10915/190530Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-03-31 12:41:20.142SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Detección automática de trastornos de la voz desde una perspectiva práctica Automatic Voice Disorder Detection from a Practical Perspective |
| title |
Detección automática de trastornos de la voz desde una perspectiva práctica |
| spellingShingle |
Detección automática de trastornos de la voz desde una perspectiva práctica Vidal, Jazmín Ciencias Informáticas Detección automática de trastornos de la voz Calibración Modelos auto-supervisados Proper scoring rules Aplicaciones en salud Automatic voice disorder detection Calibration Selfsupervised models Proper scoring rules Health applications |
| title_short |
Detección automática de trastornos de la voz desde una perspectiva práctica |
| title_full |
Detección automática de trastornos de la voz desde una perspectiva práctica |
| title_fullStr |
Detección automática de trastornos de la voz desde una perspectiva práctica |
| title_full_unstemmed |
Detección automática de trastornos de la voz desde una perspectiva práctica |
| title_sort |
Detección automática de trastornos de la voz desde una perspectiva práctica |
| dc.creator.none.fl_str_mv |
Vidal, Jazmín Ribas, Dayana Bonomi, Cyntia Lleida, Eduardo Ferrer, Luciana Ortega, Alfonso |
| author |
Vidal, Jazmín |
| author_facet |
Vidal, Jazmín Ribas, Dayana Bonomi, Cyntia Lleida, Eduardo Ferrer, Luciana Ortega, Alfonso |
| author_role |
author |
| author2 |
Ribas, Dayana Bonomi, Cyntia Lleida, Eduardo Ferrer, Luciana Ortega, Alfonso |
| author2_role |
author author author author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas Detección automática de trastornos de la voz Calibración Modelos auto-supervisados Proper scoring rules Aplicaciones en salud Automatic voice disorder detection Calibration Selfsupervised models Proper scoring rules Health applications |
| topic |
Ciencias Informáticas Detección automática de trastornos de la voz Calibración Modelos auto-supervisados Proper scoring rules Aplicaciones en salud Automatic voice disorder detection Calibration Selfsupervised models Proper scoring rules Health applications |
| dc.description.none.fl_txt_mv |
Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones. Voice disorders, such as dysphonia, are common and often go untreated until they become severe. Assisting the detection of voice disorders could facilitate early diagnosis and subsequent treatment. In this study, we address the practical aspects of automatic voice disorders detection (AVDD). Data annotated for voice disorders is usually scarce due to challenges involved in data collection and annotation of such data. However, some relatively large datasets are available for a reduced number of domains. In this context, we propose using a combination of out- of-domain and in-domain data for training a deep neural network-based AVDD system and offer guidance on the minimum amount of in-domain data required to achieve acceptable performance. Further, we propose the use of a cost-based metric, the normalized expected cost (EC), to evaluate performance of AVDD systems in a way that closely reflects the needs of the application. As an added benefit, optimal decisions for the EC can be made in a principled way given by Bayes decision theory. Finally, we argue that for medical applications like AVDD, the categorical decisions need to be accompanied by interpretable scores that reflect the confidence of the system. Here, we show that adding a calibration stage-trained with a small amount of in-domain data can improve these models and support professionals in their decision-making. Sociedad Argentina de Informática e Investigación Operativa |
| description |
Los trastornos de la voz, como la disfonía, son frecuentes y en muchos casos, no reciben tratamiento hasta que se vuelven graves. Facilitar su detección podría contribuir a un diagnóstico temprano y a un tratamiento oportuno. En este estudio, abordamos los aspectos prácticos de la detección automática de trastornos de la voz (AVDD). Los datos anotados para trastornos de la voz suelen ser escasos debido a los desafíos involucrados en la recolección y anotación de dichos datos. Sin embargo, existen algunos conjuntos de datos relativamente grandes disponibles para un número reducido de dominios. En este con- texto, proponemos el uso de una combinación de datos fuera del dominio y dentro del dominio para entrenar un sistema AVDD basado en redes neuronales profundas, y ofrecemos orientación sobre la cantidad mínima de datos dentro del dominio necesarios para lograr un rendimiento aceptable. Además, proponemos el uso de una métrica basada en cos- tos, el costo esperado normalizado (EC), para evaluar el rendimiento de los sistemas AVDD de manera que refleje de cerca las necesidades de la aplicación. Como beneficio adicional, las decisiones óptimas para el EC pueden tomarse de forma fundamentada mediante la teoría de decisión de Bayes. Finalmente, argumentamos que, para aplicaciones médicas como AVDD, las decisiones categóricas deben ir acompañadas de puntuaciones interpretables que reflejen la confianza del sistema. Aquí mostramos que añadir una etapa de calibración entrenada con una pequeña cantidad de datos dentro del dominio puede mejorar estos modelos y apoyar a los profesionales en su toma de decisiones. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-08 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/190530 |
| url |
http://sedici.unlp.edu.ar/handle/10915/190530 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19744 info:eu-repo/semantics/altIdentifier/issn/2451-7496 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf 67-68 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1861199749374279680 |
| score |
13.332987 |