Evaluación automática de la calidad del habla artificial

Autores: Cossio Mercado, Christian Gustavo
Año de publicación: 2023
Idioma: español castellano
Tipo de recurso: tesis doctoral
Estado: versión publicada
Colaborador/a o director/a de tesis: Gurlekian, Jorge Alberto
Descripción: El español es la principal lengua del continente americano y la cuarta más hablada en el mundo, además de la segunda con más hablantes nativos. Aún así, existen pocos sistemas con voces artificiales que soportan variantes locales, con sus diferencias fonéticas y de entonación, entre otras, como el español de Argentina. El desarrollo de un sistema de conversión de texto a habla (TTS) necesita de buenas bases de datos, y que estén procesadas y etiquetadas adecuadamente, lo que requiere trabajo intensivo de recursos humanos, en muchos casos, con tareas manuales. Así, luego de que se completó el desarrollo de una voz artificial se tiene que probar que su calidad es adecuada para las necesidades de sus futuros usuarios. Normalmente, se siguen varias iteraciones de evaluación y mejora de un sistema, de acuerdo al tiempo y los recursos disponibles. Este proceso suele ser largo, entre otras cosas, por el tiempo que toma la realización de las evaluaciones perceptuales con humanos. En una evaluación subjetiva del habla una persona emite juicios sobre distintas elocuciones, tanto artificiales como naturales, y expresa directa o indirectamente, cuán aceptables y agradables le son, además de realizar otras evaluaciones sobre las mismas, como, por ejemplo, qué bien articuladas están o si tienen algún tipo de defecto sonoro. Uno de los objetivos de estas evaluaciones es determinar qué características del habla se asocian con buenos puntajes de los evaluadores, de forma de identificar atributos del habla que permitirían la evaluación automática de los sistemas, 'copiando' los criterios humanos. Las pruebas clásicas para la evaluación perceptual de voces artificiales no evalúan completamente la experiencia del usuario, ya que no consideran totalmente el contexto en el cual se realizan las pruebas, y sólo se analizan en un contexto de laboratorio. Esto se plantea como el dilema principal de la evaluación de la calidad del habla. Este trabajo buscó diseñar métodos de evaluación automática de la calidad del habla artificial generada a través de Sistemas TTS para el español de Buenos Aires. Los métodos incluyen nuevas métricas y otras ya existentes, y tienen como base las características de la percepción humana de la voz, así como el procesamiento automático de los parámetros acústicos de la señal de habla.
Spanish is the main language in the Americas, and the fourth most spoken and the second with native speakers in the world. However, there are few systems that have artificial voices for local variants of this language, with their phonetical and intonational differences, among others, as Argentine Spanish. The development of a text-to-speech (TTS) system requires high-quality databases, what is a human resource intensive goal, mainly due to it includes manual tasks as tagging and audio editing. Once a first version of a voice is available, it is necessary to evaluate if it fulfils the needs of its future users. It is common practice to complete several iterations of evaluation and error correction cycles, as it is possible according to time and other available resources. This full process takes a long time to be completed, as human perceptual evaluations are highly time consuming. In speech subjective evaluation, a person has to make judgements about several natural and artificial utterances, and they have to answer explicitly or implicitly how acceptable and likeable they are, additionally to other assessments related to speech articulation and signal artifacts, among others. One of the main objetives of this type of evaluations is to determine which speech characteristics are associated to better perceptual evaluations from the listeners. Thus, it will be possible to 'copy' the human criteria, in order to automatically identify relevant features in order to evaluate the qualiy of a system. Standard test designs for the evaluation of artificial voices do not cover all the aspects related to user quality of experience, given they not present an ecological context for the tests, as they are only evaluated within laboratory setups. This might be the main issue in the evaluation of the quality of speech. This thesis was aimed at the design of methods for the automatic evalua- tion of the quality of artificial speech generated through TTS systems with Argentine or similar variants of Spanish. In this work, new metrics as well as other known indicators are explored, mainly based on features related to human perception of voice, based on automatic acoustic processing of speech signals.
Fil: Cossio Mercado, Christian Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia: VOCES ARTIFICIALES
PROCESAMIENTO AUTOMATICO DEL HABLA
SISTEMAS DE CONVERSION DE TEXTO A HABLA
EVALUACION DE CALIDAD DE LA VOZ
PERCEPCION DEL HABLA
ARTIFICIAL VOICES
AUTOMATIC SPEECH PROCESSING
TEXT-TO-SPEECH SYSTEMS
VOICE QUALITY EVALUATION
SPEECH PERCEPTION
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Institución: Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador: tesis:tesis_n7361_CossioMercado

Acceder

id	BDUBAFCEN_64dbc789d06766363a9fc50321af6a32
oai_identifier_str	tesis:tesis_n7361_CossioMercado
network_acronym_str	BDUBAFCEN
repository_id_str	1896
network_name_str	Biblioteca Digital (UBA-FCEN)
spelling	Evaluación automática de la calidad del habla artificialAutomatic assessment of quality of artificial speechCossio Mercado, Christian GustavoVOCES ARTIFICIALESPROCESAMIENTO AUTOMATICO DEL HABLASISTEMAS DE CONVERSION DE TEXTO A HABLAEVALUACION DE CALIDAD DE LA VOZPERCEPCION DEL HABLAARTIFICIAL VOICESAUTOMATIC SPEECH PROCESSINGTEXT-TO-SPEECH SYSTEMSVOICE QUALITY EVALUATIONSPEECH PERCEPTIONEl español es la principal lengua del continente americano y la cuarta más hablada en el mundo, además de la segunda con más hablantes nativos. Aún así, existen pocos sistemas con voces artificiales que soportan variantes locales, con sus diferencias fonéticas y de entonación, entre otras, como el español de Argentina. El desarrollo de un sistema de conversión de texto a habla (TTS) necesita de buenas bases de datos, y que estén procesadas y etiquetadas adecuadamente, lo que requiere trabajo intensivo de recursos humanos, en muchos casos, con tareas manuales. Así, luego de que se completó el desarrollo de una voz artificial se tiene que probar que su calidad es adecuada para las necesidades de sus futuros usuarios. Normalmente, se siguen varias iteraciones de evaluación y mejora de un sistema, de acuerdo al tiempo y los recursos disponibles. Este proceso suele ser largo, entre otras cosas, por el tiempo que toma la realización de las evaluaciones perceptuales con humanos. En una evaluación subjetiva del habla una persona emite juicios sobre distintas elocuciones, tanto artificiales como naturales, y expresa directa o indirectamente, cuán aceptables y agradables le son, además de realizar otras evaluaciones sobre las mismas, como, por ejemplo, qué bien articuladas están o si tienen algún tipo de defecto sonoro. Uno de los objetivos de estas evaluaciones es determinar qué características del habla se asocian con buenos puntajes de los evaluadores, de forma de identificar atributos del habla que permitirían la evaluación automática de los sistemas, 'copiando' los criterios humanos. Las pruebas clásicas para la evaluación perceptual de voces artificiales no evalúan completamente la experiencia del usuario, ya que no consideran totalmente el contexto en el cual se realizan las pruebas, y sólo se analizan en un contexto de laboratorio. Esto se plantea como el dilema principal de la evaluación de la calidad del habla. Este trabajo buscó diseñar métodos de evaluación automática de la calidad del habla artificial generada a través de Sistemas TTS para el español de Buenos Aires. Los métodos incluyen nuevas métricas y otras ya existentes, y tienen como base las características de la percepción humana de la voz, así como el procesamiento automático de los parámetros acústicos de la señal de habla.Spanish is the main language in the Americas, and the fourth most spoken and the second with native speakers in the world. However, there are few systems that have artificial voices for local variants of this language, with their phonetical and intonational differences, among others, as Argentine Spanish. The development of a text-to-speech (TTS) system requires high-quality databases, what is a human resource intensive goal, mainly due to it includes manual tasks as tagging and audio editing. Once a first version of a voice is available, it is necessary to evaluate if it fulfils the needs of its future users. It is common practice to complete several iterations of evaluation and error correction cycles, as it is possible according to time and other available resources. This full process takes a long time to be completed, as human perceptual evaluations are highly time consuming. In speech subjective evaluation, a person has to make judgements about several natural and artificial utterances, and they have to answer explicitly or implicitly how acceptable and likeable they are, additionally to other assessments related to speech articulation and signal artifacts, among others. One of the main objetives of this type of evaluations is to determine which speech characteristics are associated to better perceptual evaluations from the listeners. Thus, it will be possible to 'copy' the human criteria, in order to automatically identify relevant features in order to evaluate the qualiy of a system. Standard test designs for the evaluation of artificial voices do not cover all the aspects related to user quality of experience, given they not present an ecological context for the tests, as they are only evaluated within laboratory setups. This might be the main issue in the evaluation of the quality of speech. This thesis was aimed at the design of methods for the automatic evalua- tion of the quality of artificial speech generated through TTS systems with Argentine or similar variants of Spanish. In this work, new metrics as well as other known indicators are explored, mainly based on features related to human perception of voice, based on automatic acoustic processing of speech signals.Fil: Cossio Mercado, Christian Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesGurlekian, Jorge Alberto2023-06-08info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://hdl.handle.net/20.500.12110/tesis_n7361_CossioMercadospainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-05-14T10:38:06Ztesis:tesis_n7361_CossioMercadoInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-05-14 10:38:07.679Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv	Evaluación automática de la calidad del habla artificial Automatic assessment of quality of artificial speech
title	Evaluación automática de la calidad del habla artificial
spellingShingle	Evaluación automática de la calidad del habla artificial Cossio Mercado, Christian Gustavo VOCES ARTIFICIALES PROCESAMIENTO AUTOMATICO DEL HABLA SISTEMAS DE CONVERSION DE TEXTO A HABLA EVALUACION DE CALIDAD DE LA VOZ PERCEPCION DEL HABLA ARTIFICIAL VOICES AUTOMATIC SPEECH PROCESSING TEXT-TO-SPEECH SYSTEMS VOICE QUALITY EVALUATION SPEECH PERCEPTION
title_short	Evaluación automática de la calidad del habla artificial
title_full	Evaluación automática de la calidad del habla artificial
title_fullStr	Evaluación automática de la calidad del habla artificial
title_full_unstemmed	Evaluación automática de la calidad del habla artificial
title_sort	Evaluación automática de la calidad del habla artificial
dc.creator.none.fl_str_mv	Cossio Mercado, Christian Gustavo
author	Cossio Mercado, Christian Gustavo
author_facet	Cossio Mercado, Christian Gustavo
author_role	author
dc.contributor.none.fl_str_mv	Gurlekian, Jorge Alberto
dc.subject.none.fl_str_mv	VOCES ARTIFICIALES PROCESAMIENTO AUTOMATICO DEL HABLA SISTEMAS DE CONVERSION DE TEXTO A HABLA EVALUACION DE CALIDAD DE LA VOZ PERCEPCION DEL HABLA ARTIFICIAL VOICES AUTOMATIC SPEECH PROCESSING TEXT-TO-SPEECH SYSTEMS VOICE QUALITY EVALUATION SPEECH PERCEPTION
topic	VOCES ARTIFICIALES PROCESAMIENTO AUTOMATICO DEL HABLA SISTEMAS DE CONVERSION DE TEXTO A HABLA EVALUACION DE CALIDAD DE LA VOZ PERCEPCION DEL HABLA ARTIFICIAL VOICES AUTOMATIC SPEECH PROCESSING TEXT-TO-SPEECH SYSTEMS VOICE QUALITY EVALUATION SPEECH PERCEPTION
dc.description.none.fl_txt_mv	El español es la principal lengua del continente americano y la cuarta más hablada en el mundo, además de la segunda con más hablantes nativos. Aún así, existen pocos sistemas con voces artificiales que soportan variantes locales, con sus diferencias fonéticas y de entonación, entre otras, como el español de Argentina. El desarrollo de un sistema de conversión de texto a habla (TTS) necesita de buenas bases de datos, y que estén procesadas y etiquetadas adecuadamente, lo que requiere trabajo intensivo de recursos humanos, en muchos casos, con tareas manuales. Así, luego de que se completó el desarrollo de una voz artificial se tiene que probar que su calidad es adecuada para las necesidades de sus futuros usuarios. Normalmente, se siguen varias iteraciones de evaluación y mejora de un sistema, de acuerdo al tiempo y los recursos disponibles. Este proceso suele ser largo, entre otras cosas, por el tiempo que toma la realización de las evaluaciones perceptuales con humanos. En una evaluación subjetiva del habla una persona emite juicios sobre distintas elocuciones, tanto artificiales como naturales, y expresa directa o indirectamente, cuán aceptables y agradables le son, además de realizar otras evaluaciones sobre las mismas, como, por ejemplo, qué bien articuladas están o si tienen algún tipo de defecto sonoro. Uno de los objetivos de estas evaluaciones es determinar qué características del habla se asocian con buenos puntajes de los evaluadores, de forma de identificar atributos del habla que permitirían la evaluación automática de los sistemas, 'copiando' los criterios humanos. Las pruebas clásicas para la evaluación perceptual de voces artificiales no evalúan completamente la experiencia del usuario, ya que no consideran totalmente el contexto en el cual se realizan las pruebas, y sólo se analizan en un contexto de laboratorio. Esto se plantea como el dilema principal de la evaluación de la calidad del habla. Este trabajo buscó diseñar métodos de evaluación automática de la calidad del habla artificial generada a través de Sistemas TTS para el español de Buenos Aires. Los métodos incluyen nuevas métricas y otras ya existentes, y tienen como base las características de la percepción humana de la voz, así como el procesamiento automático de los parámetros acústicos de la señal de habla. Spanish is the main language in the Americas, and the fourth most spoken and the second with native speakers in the world. However, there are few systems that have artificial voices for local variants of this language, with their phonetical and intonational differences, among others, as Argentine Spanish. The development of a text-to-speech (TTS) system requires high-quality databases, what is a human resource intensive goal, mainly due to it includes manual tasks as tagging and audio editing. Once a first version of a voice is available, it is necessary to evaluate if it fulfils the needs of its future users. It is common practice to complete several iterations of evaluation and error correction cycles, as it is possible according to time and other available resources. This full process takes a long time to be completed, as human perceptual evaluations are highly time consuming. In speech subjective evaluation, a person has to make judgements about several natural and artificial utterances, and they have to answer explicitly or implicitly how acceptable and likeable they are, additionally to other assessments related to speech articulation and signal artifacts, among others. One of the main objetives of this type of evaluations is to determine which speech characteristics are associated to better perceptual evaluations from the listeners. Thus, it will be possible to 'copy' the human criteria, in order to automatically identify relevant features in order to evaluate the qualiy of a system. Standard test designs for the evaluation of artificial voices do not cover all the aspects related to user quality of experience, given they not present an ecological context for the tests, as they are only evaluated within laboratory setups. This might be the main issue in the evaluation of the quality of speech. This thesis was aimed at the design of methods for the automatic evalua- tion of the quality of artificial speech generated through TTS systems with Argentine or similar variants of Spanish. In this work, new metrics as well as other known indicators are explored, mainly based on features related to human perception of voice, based on automatic acoustic processing of speech signals. Fil: Cossio Mercado, Christian Gustavo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description	El español es la principal lengua del continente americano y la cuarta más hablada en el mundo, además de la segunda con más hablantes nativos. Aún así, existen pocos sistemas con voces artificiales que soportan variantes locales, con sus diferencias fonéticas y de entonación, entre otras, como el español de Argentina. El desarrollo de un sistema de conversión de texto a habla (TTS) necesita de buenas bases de datos, y que estén procesadas y etiquetadas adecuadamente, lo que requiere trabajo intensivo de recursos humanos, en muchos casos, con tareas manuales. Así, luego de que se completó el desarrollo de una voz artificial se tiene que probar que su calidad es adecuada para las necesidades de sus futuros usuarios. Normalmente, se siguen varias iteraciones de evaluación y mejora de un sistema, de acuerdo al tiempo y los recursos disponibles. Este proceso suele ser largo, entre otras cosas, por el tiempo que toma la realización de las evaluaciones perceptuales con humanos. En una evaluación subjetiva del habla una persona emite juicios sobre distintas elocuciones, tanto artificiales como naturales, y expresa directa o indirectamente, cuán aceptables y agradables le son, además de realizar otras evaluaciones sobre las mismas, como, por ejemplo, qué bien articuladas están o si tienen algún tipo de defecto sonoro. Uno de los objetivos de estas evaluaciones es determinar qué características del habla se asocian con buenos puntajes de los evaluadores, de forma de identificar atributos del habla que permitirían la evaluación automática de los sistemas, 'copiando' los criterios humanos. Las pruebas clásicas para la evaluación perceptual de voces artificiales no evalúan completamente la experiencia del usuario, ya que no consideran totalmente el contexto en el cual se realizan las pruebas, y sólo se analizan en un contexto de laboratorio. Esto se plantea como el dilema principal de la evaluación de la calidad del habla. Este trabajo buscó diseñar métodos de evaluación automática de la calidad del habla artificial generada a través de Sistemas TTS para el español de Buenos Aires. Los métodos incluyen nuevas métricas y otras ya existentes, y tienen como base las características de la percepción humana de la voz, así como el procesamiento automático de los parámetros acústicos de la señal de habla.
publishDate	2023
dc.date.none.fl_str_mv	2023-06-08
dc.type.none.fl_str_mv	info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_db06 info:ar-repo/semantics/tesisDoctoral
format	doctoralThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://hdl.handle.net/20.500.12110/tesis_n7361_CossioMercado
url	https://hdl.handle.net/20.500.12110/tesis_n7361_CossioMercado
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv	reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN
reponame_str	Biblioteca Digital (UBA-FCEN)
collection	Biblioteca Digital (UBA-FCEN)
instname_str	Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str	UBA-FCEN
institution	UBA-FCEN
repository.name.fl_str_mv	Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv	ana@bl.fcen.uba.ar
_version_	1865181099234164736
score	13.105923

Evaluación automática de la calidad del habla artificial

Publicaciones similares