Pronunciation assessment at phone level for second language learning

Autores: Matayoshi, Leandro Ariel
Año de publicación: 2018
Idioma: inglés
Tipo de recurso: tesis de grado
Estado: versión publicada
Colaborador/a o director/a de tesis: Ferrer, Luciana
Descripción: Los avances tecnológicos de las últimas décadas han posibilitado el desarrollo de sistemas automáticos de Asistencia Computarizada para el Aprendizaje de Idiomas (ACAI). Estos sistemas brindan ayuda a estudiantes de segundos idiomas en diversos campos, entre las cuales se destacan la gramática, el vocabulario y la pronunciación. En el presente trabajo nos concentramos en una forma particular de asistencia relacionada con el último campo: la evaluación de la pronunciación, que consiste en decidir si los segmentos de habla presentes en una determinada grabación fueron pronunciados de forma correcta o incorrecta. Dicho análisis puede realizarse a distintos niveles tales como oración, palabra o fono. Actualmente, las estimaciones más confiables de la evaluación de la pronunciación son obtenidas a nivel de párrafo u oraciones largas, disminuyendo la precisión de los sistemas a medida que se reduce la duración (y por lo tanto la cantidad de información) del segmento de habla a considerar. Sin embargo, los sistemas de evaluación de la pronunciación que trabajan con unidades de habla más cortas, como por ejemplo el fono, permiten poner el foco en errores específicos del estudiante y pueden ser utilizados por niños a un incapaces de pronunciar frases demasiado largas. Por esta razón, en este trabajo nos concentramos en métodos de evaluación de la pronunciación a nivel fono. Los métodos tradicionalmente utilizados para evaluar la pronunciación a nivel fono están basados en métodos generativos a partir de modelos de mezclas Gaussianas (GMMs). Generalmente, para cada fono se entrena un GMM por clase (pronunciación correcta e incorrecta), aplicando luego técnicas tales como el Cociente de Verosimilitud (Likelihood-Ratio en inglés), entre ambos modelos realizar la evaluación. En un trabajo anterior en el área de evaluación de la pronunciación a nivel fono, se exploró un método discriminativo basado en Máquinas de Vectores de Soporte (SVM) entrenado con atributos llamados supervectores, que produce resultados ligeramente mejores a los métodos generativos comúnmente utilizados en el campo. Los supervectores para cada fono se obtienen a partir de un proceso de adaptación de un GMM global entrenado con la totalidad de las muestras de dicho fono. En el presente trabajo, tomamos como base y punto de referencia el modelo SVM entrenado con supervectores para explorar nuevos atributos en el área de evaluación de la pronunciación iii a nivel fono. Si bien tanto GMMs como supervectores modelan las características acústicas de bajo nivel del segmento de habla a considerar, no tienen en cuenta el comportamiento temporal de las mismas. Por este motivo, en esta ocasión estudiamos atributos dinámicos que modelan de manera directa el comportamiento temporal de dichas características acústicas. Para ello, cada una es aproximada de manera independiente por una función, a partir de la cual se extraen los atributos dinámicos. Dos técnicas de aproximación son evaluadas como posibles alternativas: Polinomios de Legendre y Transformada Discreta del Coseno (DCT). El objetivo es analizar si los atributos dinámicos propuestos tienen información complementaria a la provista por los supervectores. Entrenamos y evaluamos los métodos base y los propuestos usando una base de datos no nativa de Español Latino, correspondiente a 206 hablantes estadounidenses, estudiantes de Español. La base de datos está conformada por 2550 grabaciones alcanzando un total de 130.000 instancias de fonos etiquetadas por transcriptores profesionales. Los resultados muestran que para un subconjunto de fonos, la combinación de supervectores con los atributos dinámicos efectivamente reduce los errores durante la clasificación, soportando la hipótesis de que ambos tipos de atributos contienen información complementaria.
Technological advances of the last decades have allowed the development and expansion of ComputerAssisted language learning (CALL) systems. These systems assist second language learners in different tasks regarding grammar, vocabulary and pronunciation. In the current work, we focus on Pronunciation Assessment, a particular subfield of pronunciation. Pronunciation Assessment consists in determining whether a recorded speech was correctly or incorrectly pronounced. The analysis is performed at a predefined level, such as sentence, word or phone level. Currently, whenever performing pronunciation assessment, the most reliable estimates are obtained from paragraphs or long sentences. On the other hand, the smaller the unit (and therefore the smaller the amount of information in the speech segment), the less precise is the estimate of the assessment. However, pronunciation assessment systems that operate at shorter levels, such as phone level, not only can point out specific errors produced by the students but also can be used by children that still have difficulties in pronouncing long sentences. For these reasons, in the current work we will focus on phone-level pronunciation assessment methods. The more standard methods in the literature for pronunciation assessment at phone level usually involve using generative approaches based on Gaussian Mixture Models. Usually, for each phone two individual GMMs are trained: one using the correctly pronounced instances of that phone and the other one using the incorrect instances. A standard way to make the assessment is to compute the Likelihood-Ratio between the two models. In a previous work in the pronunciation assessment field at phone level, a discriminative approach based on Support Vector Machines (SVM) trained on special features called supervectors was explored, leading to slightly better results than generative models such as Gaussian Mixture Models (GMMs). Supervectors are derived from adapted GMMs that are trained using all the available instances for a given phone. In the current work, we use as reference and baseline system the SVM model trained on supervectors in order to explore new features in the phone-level pronunciation assessment field. Even though both GMMs and supervectors summarize the low level acoustic information of the speech segment, they don’t provide information about the temporal dependencies of the features. Because of that reason, in the current work we study features that model explicitly the i dynamics of the acoustic features over time. In order to do so, each feature is modeled independently by a parametric function, from which the dynamic features are extracted. Two different parameterization techniques are studied: Legendre Polynomials and Discrete Cosine Transform (DCT). The objective is to analyse if the proposed dynamic features carry complementary information to supervectors features. We train and test the baseline and the proposed methods on a Latin-American Spanish speech database. The dataset consists in 2550 utterances adding up to a total of 130,000 phone instances, labeled by expert phoneticians. Recordings are uttered by 206 native American English speakers. Results showed that for a subset of the phones, the combination of supervectors and dynamic features reduce the error compared with using supervectors only, thus supporting the hypothesis that both set of features carry complementary information.
Fil: Matayoshi, Leandro Ariel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia: ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS
EVALUACION DE LA PRONUNCIACION, FONO
MAQUINAS DE VECTORES DE SOPORTE
MODELO DE MEZCLAS GAUSSIANAS
SUPERVECTORES
POLINOMIOS DE LEGENDRE
TRANSFORMADA DISCRETA DEL COSENO
COMPUTER-ASSISTED LANGUAGE LEARNING
PRONUNCIATION ASSESSMENT
PHONE
SUPPORT VECTOR MACHINES
GAUSSIAN MIXTURE MODELS
SUPERVECTORS
LEGENDRE POLYNOMIALS
DISCRETE COSINE TRANSFORM
Nivel de accesibilidad: acceso abierto
Condiciones de uso: https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Institución: Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador: seminario:seminario_nCOM000602_Matayoshi

Acceder

id	BDUBAFCEN_a68c0e45abe7211537115f1560c2e77e
oai_identifier_str	seminario:seminario_nCOM000602_Matayoshi
network_acronym_str	BDUBAFCEN
repository_id_str	1896
network_name_str	Biblioteca Digital (UBA-FCEN)
spelling	Pronunciation assessment at phone level for second language learningMatayoshi, Leandro ArielASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMASEVALUACION DE LA PRONUNCIACION, FONOMAQUINAS DE VECTORES DE SOPORTEMODELO DE MEZCLAS GAUSSIANASSUPERVECTORESPOLINOMIOS DE LEGENDRETRANSFORMADA DISCRETA DEL COSENOCOMPUTER-ASSISTED LANGUAGE LEARNINGPRONUNCIATION ASSESSMENTPHONESUPPORT VECTOR MACHINESGAUSSIAN MIXTURE MODELSSUPERVECTORSLEGENDRE POLYNOMIALSDISCRETE COSINE TRANSFORMLos avances tecnológicos de las últimas décadas han posibilitado el desarrollo de sistemas automáticos de Asistencia Computarizada para el Aprendizaje de Idiomas (ACAI). Estos sistemas brindan ayuda a estudiantes de segundos idiomas en diversos campos, entre las cuales se destacan la gramática, el vocabulario y la pronunciación. En el presente trabajo nos concentramos en una forma particular de asistencia relacionada con el último campo: la evaluación de la pronunciación, que consiste en decidir si los segmentos de habla presentes en una determinada grabación fueron pronunciados de forma correcta o incorrecta. Dicho análisis puede realizarse a distintos niveles tales como oración, palabra o fono. Actualmente, las estimaciones más confiables de la evaluación de la pronunciación son obtenidas a nivel de párrafo u oraciones largas, disminuyendo la precisión de los sistemas a medida que se reduce la duración (y por lo tanto la cantidad de información) del segmento de habla a considerar. Sin embargo, los sistemas de evaluación de la pronunciación que trabajan con unidades de habla más cortas, como por ejemplo el fono, permiten poner el foco en errores específicos del estudiante y pueden ser utilizados por niños a un incapaces de pronunciar frases demasiado largas. Por esta razón, en este trabajo nos concentramos en métodos de evaluación de la pronunciación a nivel fono. Los métodos tradicionalmente utilizados para evaluar la pronunciación a nivel fono están basados en métodos generativos a partir de modelos de mezclas Gaussianas (GMMs). Generalmente, para cada fono se entrena un GMM por clase (pronunciación correcta e incorrecta), aplicando luego técnicas tales como el Cociente de Verosimilitud (Likelihood-Ratio en inglés), entre ambos modelos realizar la evaluación. En un trabajo anterior en el área de evaluación de la pronunciación a nivel fono, se exploró un método discriminativo basado en Máquinas de Vectores de Soporte (SVM) entrenado con atributos llamados supervectores, que produce resultados ligeramente mejores a los métodos generativos comúnmente utilizados en el campo. Los supervectores para cada fono se obtienen a partir de un proceso de adaptación de un GMM global entrenado con la totalidad de las muestras de dicho fono. En el presente trabajo, tomamos como base y punto de referencia el modelo SVM entrenado con supervectores para explorar nuevos atributos en el área de evaluación de la pronunciación iii a nivel fono. Si bien tanto GMMs como supervectores modelan las características acústicas de bajo nivel del segmento de habla a considerar, no tienen en cuenta el comportamiento temporal de las mismas. Por este motivo, en esta ocasión estudiamos atributos dinámicos que modelan de manera directa el comportamiento temporal de dichas características acústicas. Para ello, cada una es aproximada de manera independiente por una función, a partir de la cual se extraen los atributos dinámicos. Dos técnicas de aproximación son evaluadas como posibles alternativas: Polinomios de Legendre y Transformada Discreta del Coseno (DCT). El objetivo es analizar si los atributos dinámicos propuestos tienen información complementaria a la provista por los supervectores. Entrenamos y evaluamos los métodos base y los propuestos usando una base de datos no nativa de Español Latino, correspondiente a 206 hablantes estadounidenses, estudiantes de Español. La base de datos está conformada por 2550 grabaciones alcanzando un total de 130.000 instancias de fonos etiquetadas por transcriptores profesionales. Los resultados muestran que para un subconjunto de fonos, la combinación de supervectores con los atributos dinámicos efectivamente reduce los errores durante la clasificación, soportando la hipótesis de que ambos tipos de atributos contienen información complementaria.Technological advances of the last decades have allowed the development and expansion of ComputerAssisted language learning (CALL) systems. These systems assist second language learners in different tasks regarding grammar, vocabulary and pronunciation. In the current work, we focus on Pronunciation Assessment, a particular subfield of pronunciation. Pronunciation Assessment consists in determining whether a recorded speech was correctly or incorrectly pronounced. The analysis is performed at a predefined level, such as sentence, word or phone level. Currently, whenever performing pronunciation assessment, the most reliable estimates are obtained from paragraphs or long sentences. On the other hand, the smaller the unit (and therefore the smaller the amount of information in the speech segment), the less precise is the estimate of the assessment. However, pronunciation assessment systems that operate at shorter levels, such as phone level, not only can point out specific errors produced by the students but also can be used by children that still have difficulties in pronouncing long sentences. For these reasons, in the current work we will focus on phone-level pronunciation assessment methods. The more standard methods in the literature for pronunciation assessment at phone level usually involve using generative approaches based on Gaussian Mixture Models. Usually, for each phone two individual GMMs are trained: one using the correctly pronounced instances of that phone and the other one using the incorrect instances. A standard way to make the assessment is to compute the Likelihood-Ratio between the two models. In a previous work in the pronunciation assessment field at phone level, a discriminative approach based on Support Vector Machines (SVM) trained on special features called supervectors was explored, leading to slightly better results than generative models such as Gaussian Mixture Models (GMMs). Supervectors are derived from adapted GMMs that are trained using all the available instances for a given phone. In the current work, we use as reference and baseline system the SVM model trained on supervectors in order to explore new features in the phone-level pronunciation assessment field. Even though both GMMs and supervectors summarize the low level acoustic information of the speech segment, they don’t provide information about the temporal dependencies of the features. Because of that reason, in the current work we study features that model explicitly the i dynamics of the acoustic features over time. In order to do so, each feature is modeled independently by a parametric function, from which the dynamic features are extracted. Two different parameterization techniques are studied: Legendre Polynomials and Discrete Cosine Transform (DCT). The objective is to analyse if the proposed dynamic features carry complementary information to supervectors features. We train and test the baseline and the proposed methods on a Latin-American Spanish speech database. The dataset consists in 2550 utterances adding up to a total of 130,000 phone instances, labeled by expert phoneticians. Recordings are uttered by 206 native American English speakers. Results showed that for a subset of the phones, the combination of supervectors and dynamic features reduce the error compared with using supervectors only, thus supporting the hypothesis that both set of features carry complementary information.Fil: Matayoshi, Leandro Ariel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerrer, Luciana2018info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000602_Matayoshienginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2026-06-04T09:43:44Zseminario:seminario_nCOM000602_MatayoshiInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962026-06-04 09:43:45.829Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv	Pronunciation assessment at phone level for second language learning
title	Pronunciation assessment at phone level for second language learning
spellingShingle	Pronunciation assessment at phone level for second language learning Matayoshi, Leandro Ariel ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS EVALUACION DE LA PRONUNCIACION, FONO MAQUINAS DE VECTORES DE SOPORTE MODELO DE MEZCLAS GAUSSIANAS SUPERVECTORES POLINOMIOS DE LEGENDRE TRANSFORMADA DISCRETA DEL COSENO COMPUTER-ASSISTED LANGUAGE LEARNING PRONUNCIATION ASSESSMENT PHONE SUPPORT VECTOR MACHINES GAUSSIAN MIXTURE MODELS SUPERVECTORS LEGENDRE POLYNOMIALS DISCRETE COSINE TRANSFORM
title_short	Pronunciation assessment at phone level for second language learning
title_full	Pronunciation assessment at phone level for second language learning
title_fullStr	Pronunciation assessment at phone level for second language learning
title_full_unstemmed	Pronunciation assessment at phone level for second language learning
title_sort	Pronunciation assessment at phone level for second language learning
dc.creator.none.fl_str_mv	Matayoshi, Leandro Ariel
author	Matayoshi, Leandro Ariel
author_facet	Matayoshi, Leandro Ariel
author_role	author
dc.contributor.none.fl_str_mv	Ferrer, Luciana
dc.subject.none.fl_str_mv	ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS EVALUACION DE LA PRONUNCIACION, FONO MAQUINAS DE VECTORES DE SOPORTE MODELO DE MEZCLAS GAUSSIANAS SUPERVECTORES POLINOMIOS DE LEGENDRE TRANSFORMADA DISCRETA DEL COSENO COMPUTER-ASSISTED LANGUAGE LEARNING PRONUNCIATION ASSESSMENT PHONE SUPPORT VECTOR MACHINES GAUSSIAN MIXTURE MODELS SUPERVECTORS LEGENDRE POLYNOMIALS DISCRETE COSINE TRANSFORM
topic	ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS EVALUACION DE LA PRONUNCIACION, FONO MAQUINAS DE VECTORES DE SOPORTE MODELO DE MEZCLAS GAUSSIANAS SUPERVECTORES POLINOMIOS DE LEGENDRE TRANSFORMADA DISCRETA DEL COSENO COMPUTER-ASSISTED LANGUAGE LEARNING PRONUNCIATION ASSESSMENT PHONE SUPPORT VECTOR MACHINES GAUSSIAN MIXTURE MODELS SUPERVECTORS LEGENDRE POLYNOMIALS DISCRETE COSINE TRANSFORM
dc.description.none.fl_txt_mv	Los avances tecnológicos de las últimas décadas han posibilitado el desarrollo de sistemas automáticos de Asistencia Computarizada para el Aprendizaje de Idiomas (ACAI). Estos sistemas brindan ayuda a estudiantes de segundos idiomas en diversos campos, entre las cuales se destacan la gramática, el vocabulario y la pronunciación. En el presente trabajo nos concentramos en una forma particular de asistencia relacionada con el último campo: la evaluación de la pronunciación, que consiste en decidir si los segmentos de habla presentes en una determinada grabación fueron pronunciados de forma correcta o incorrecta. Dicho análisis puede realizarse a distintos niveles tales como oración, palabra o fono. Actualmente, las estimaciones más confiables de la evaluación de la pronunciación son obtenidas a nivel de párrafo u oraciones largas, disminuyendo la precisión de los sistemas a medida que se reduce la duración (y por lo tanto la cantidad de información) del segmento de habla a considerar. Sin embargo, los sistemas de evaluación de la pronunciación que trabajan con unidades de habla más cortas, como por ejemplo el fono, permiten poner el foco en errores específicos del estudiante y pueden ser utilizados por niños a un incapaces de pronunciar frases demasiado largas. Por esta razón, en este trabajo nos concentramos en métodos de evaluación de la pronunciación a nivel fono. Los métodos tradicionalmente utilizados para evaluar la pronunciación a nivel fono están basados en métodos generativos a partir de modelos de mezclas Gaussianas (GMMs). Generalmente, para cada fono se entrena un GMM por clase (pronunciación correcta e incorrecta), aplicando luego técnicas tales como el Cociente de Verosimilitud (Likelihood-Ratio en inglés), entre ambos modelos realizar la evaluación. En un trabajo anterior en el área de evaluación de la pronunciación a nivel fono, se exploró un método discriminativo basado en Máquinas de Vectores de Soporte (SVM) entrenado con atributos llamados supervectores, que produce resultados ligeramente mejores a los métodos generativos comúnmente utilizados en el campo. Los supervectores para cada fono se obtienen a partir de un proceso de adaptación de un GMM global entrenado con la totalidad de las muestras de dicho fono. En el presente trabajo, tomamos como base y punto de referencia el modelo SVM entrenado con supervectores para explorar nuevos atributos en el área de evaluación de la pronunciación iii a nivel fono. Si bien tanto GMMs como supervectores modelan las características acústicas de bajo nivel del segmento de habla a considerar, no tienen en cuenta el comportamiento temporal de las mismas. Por este motivo, en esta ocasión estudiamos atributos dinámicos que modelan de manera directa el comportamiento temporal de dichas características acústicas. Para ello, cada una es aproximada de manera independiente por una función, a partir de la cual se extraen los atributos dinámicos. Dos técnicas de aproximación son evaluadas como posibles alternativas: Polinomios de Legendre y Transformada Discreta del Coseno (DCT). El objetivo es analizar si los atributos dinámicos propuestos tienen información complementaria a la provista por los supervectores. Entrenamos y evaluamos los métodos base y los propuestos usando una base de datos no nativa de Español Latino, correspondiente a 206 hablantes estadounidenses, estudiantes de Español. La base de datos está conformada por 2550 grabaciones alcanzando un total de 130.000 instancias de fonos etiquetadas por transcriptores profesionales. Los resultados muestran que para un subconjunto de fonos, la combinación de supervectores con los atributos dinámicos efectivamente reduce los errores durante la clasificación, soportando la hipótesis de que ambos tipos de atributos contienen información complementaria. Technological advances of the last decades have allowed the development and expansion of ComputerAssisted language learning (CALL) systems. These systems assist second language learners in different tasks regarding grammar, vocabulary and pronunciation. In the current work, we focus on Pronunciation Assessment, a particular subfield of pronunciation. Pronunciation Assessment consists in determining whether a recorded speech was correctly or incorrectly pronounced. The analysis is performed at a predefined level, such as sentence, word or phone level. Currently, whenever performing pronunciation assessment, the most reliable estimates are obtained from paragraphs or long sentences. On the other hand, the smaller the unit (and therefore the smaller the amount of information in the speech segment), the less precise is the estimate of the assessment. However, pronunciation assessment systems that operate at shorter levels, such as phone level, not only can point out specific errors produced by the students but also can be used by children that still have difficulties in pronouncing long sentences. For these reasons, in the current work we will focus on phone-level pronunciation assessment methods. The more standard methods in the literature for pronunciation assessment at phone level usually involve using generative approaches based on Gaussian Mixture Models. Usually, for each phone two individual GMMs are trained: one using the correctly pronounced instances of that phone and the other one using the incorrect instances. A standard way to make the assessment is to compute the Likelihood-Ratio between the two models. In a previous work in the pronunciation assessment field at phone level, a discriminative approach based on Support Vector Machines (SVM) trained on special features called supervectors was explored, leading to slightly better results than generative models such as Gaussian Mixture Models (GMMs). Supervectors are derived from adapted GMMs that are trained using all the available instances for a given phone. In the current work, we use as reference and baseline system the SVM model trained on supervectors in order to explore new features in the phone-level pronunciation assessment field. Even though both GMMs and supervectors summarize the low level acoustic information of the speech segment, they don’t provide information about the temporal dependencies of the features. Because of that reason, in the current work we study features that model explicitly the i dynamics of the acoustic features over time. In order to do so, each feature is modeled independently by a parametric function, from which the dynamic features are extracted. Two different parameterization techniques are studied: Legendre Polynomials and Discrete Cosine Transform (DCT). The objective is to analyse if the proposed dynamic features carry complementary information to supervectors features. We train and test the baseline and the proposed methods on a Latin-American Spanish speech database. The dataset consists in 2550 utterances adding up to a total of 130,000 phone instances, labeled by expert phoneticians. Recordings are uttered by 206 native American English speakers. Results showed that for a subset of the phones, the combination of supervectors and dynamic features reduce the error compared with using supervectors only, thus supporting the hypothesis that both set of features carry complementary information. Fil: Matayoshi, Leandro Ariel. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description	Los avances tecnológicos de las últimas décadas han posibilitado el desarrollo de sistemas automáticos de Asistencia Computarizada para el Aprendizaje de Idiomas (ACAI). Estos sistemas brindan ayuda a estudiantes de segundos idiomas en diversos campos, entre las cuales se destacan la gramática, el vocabulario y la pronunciación. En el presente trabajo nos concentramos en una forma particular de asistencia relacionada con el último campo: la evaluación de la pronunciación, que consiste en decidir si los segmentos de habla presentes en una determinada grabación fueron pronunciados de forma correcta o incorrecta. Dicho análisis puede realizarse a distintos niveles tales como oración, palabra o fono. Actualmente, las estimaciones más confiables de la evaluación de la pronunciación son obtenidas a nivel de párrafo u oraciones largas, disminuyendo la precisión de los sistemas a medida que se reduce la duración (y por lo tanto la cantidad de información) del segmento de habla a considerar. Sin embargo, los sistemas de evaluación de la pronunciación que trabajan con unidades de habla más cortas, como por ejemplo el fono, permiten poner el foco en errores específicos del estudiante y pueden ser utilizados por niños a un incapaces de pronunciar frases demasiado largas. Por esta razón, en este trabajo nos concentramos en métodos de evaluación de la pronunciación a nivel fono. Los métodos tradicionalmente utilizados para evaluar la pronunciación a nivel fono están basados en métodos generativos a partir de modelos de mezclas Gaussianas (GMMs). Generalmente, para cada fono se entrena un GMM por clase (pronunciación correcta e incorrecta), aplicando luego técnicas tales como el Cociente de Verosimilitud (Likelihood-Ratio en inglés), entre ambos modelos realizar la evaluación. En un trabajo anterior en el área de evaluación de la pronunciación a nivel fono, se exploró un método discriminativo basado en Máquinas de Vectores de Soporte (SVM) entrenado con atributos llamados supervectores, que produce resultados ligeramente mejores a los métodos generativos comúnmente utilizados en el campo. Los supervectores para cada fono se obtienen a partir de un proceso de adaptación de un GMM global entrenado con la totalidad de las muestras de dicho fono. En el presente trabajo, tomamos como base y punto de referencia el modelo SVM entrenado con supervectores para explorar nuevos atributos en el área de evaluación de la pronunciación iii a nivel fono. Si bien tanto GMMs como supervectores modelan las características acústicas de bajo nivel del segmento de habla a considerar, no tienen en cuenta el comportamiento temporal de las mismas. Por este motivo, en esta ocasión estudiamos atributos dinámicos que modelan de manera directa el comportamiento temporal de dichas características acústicas. Para ello, cada una es aproximada de manera independiente por una función, a partir de la cual se extraen los atributos dinámicos. Dos técnicas de aproximación son evaluadas como posibles alternativas: Polinomios de Legendre y Transformada Discreta del Coseno (DCT). El objetivo es analizar si los atributos dinámicos propuestos tienen información complementaria a la provista por los supervectores. Entrenamos y evaluamos los métodos base y los propuestos usando una base de datos no nativa de Español Latino, correspondiente a 206 hablantes estadounidenses, estudiantes de Español. La base de datos está conformada por 2550 grabaciones alcanzando un total de 130.000 instancias de fonos etiquetadas por transcriptores profesionales. Los resultados muestran que para un subconjunto de fonos, la combinación de supervectores con los atributos dinámicos efectivamente reduce los errores durante la clasificación, soportando la hipótesis de que ambos tipos de atributos contienen información complementaria.
publishDate	2018
dc.date.none.fl_str_mv	2018
dc.type.none.fl_str_mv	info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado
format	bachelorThesis
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://hdl.handle.net/20.500.12110/seminario_nCOM000602_Matayoshi
url	https://hdl.handle.net/20.500.12110/seminario_nCOM000602_Matayoshi
dc.language.none.fl_str_mv	eng
language	eng
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv	openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv	reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN
reponame_str	Biblioteca Digital (UBA-FCEN)
collection	Biblioteca Digital (UBA-FCEN)
instname_str	Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str	UBA-FCEN
institution	UBA-FCEN
repository.name.fl_str_mv	Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv	ana@bl.fcen.uba.ar
_version_	1867091005502652416
score	12.957546

Pronunciation assessment at phone level for second language learning

Publicaciones similares