A pronunciation scoring system for second language learners
- Autores
- Landini, Federico Nicolás
- Año de publicación
- 2017
- Idioma
- inglés
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Ferrer, Luciana
- Descripción
- En los sistemas de asistencia computarizada para aprendizaje de idiomas (ACAI), una de las tareas es puntuar la pronunciación con el fin de detectar problemas de pronunciación de manera automática y dar feedback valioso a los estudiantes de idiomas. Los sistemas de puntuación de la pronunciación dan, dado un segmento de habla, un puntaje indicando cuán correcta o nativa fue la pronunciación. En este trabajo presentamos un sistema automático de puntuación de la pronunciación basado en dos métodos diferentes que llamamos LLK y LLR, dado que están basados en log-likelihoods y en un log-likelihood ratio. Dichos log-likelihoods son obtenidos con sistemas de reconocimiento de habla automáticos (RHA) entrenados con diferentes poblaciones de hablantes. El puntaje LLK se computa como el log-likelihood de un segmento de habla respecto de un modelo entrenado solamente con hablantes nativos. De esta manera, se espera que un segmento de habla mal pronunciado produzca puntajes bajos mientras que se espera que habla nativa se ajuste al modelo y, por ende, produzca puntajes altos. El puntaje LLR se computa como la resta entre los log-likelihoods de un segmento de habla respecto de un modelo entrenado con hablantes nativos y de un modelo entrenado con hablantes no nativos. Este puntaje indica qué modelo es “más cercano” a la pronunciación en el segmento de habla. Un valor bajo se corresponde con una pronunciación “más nativa” mientras que un valor alto se corresponde con una pronunciación “más no nativa”. El método LLR propuesto está basado en un enfoque previamente introducido para la tarea relacionada de detección de errores en la pronunciación a nivel fono. En este trabajo, adaptamos este exitoso enfoque a la tarea de puntuación de la pronunciación que requirió cambios significativos en el método. En este trabajo asumimos que no hay suficientes datos de hablantes nativos y no nativos para evaluar el sistema y entrenar los modelos de reconocimiento de habla desde cero. Por lo tanto, un modelo de reconocimiento de habla es entrenado inicialmente sobre un gran conjunto de datos de hablantes nativos con condiciones acústicas diferentes a las del conjunto de evaluación. Este modelo es luego adaptado a dos poblaciones de hablantes, nativos y no nativos, recolectados bajo las mismas condiciones que el conjunto de datos de evaluación. El método LLK dio peores resultados que los esperados en comparación con los resultados publicados. Creemos que esto se debe a que los corpora estaban compuestos por conversaciones telefónicas con altos niveles de ruido y distorsión, una condición rara vez considerada en la literatura de puntuación de la pronunciación. Por otro lado, nuestra implementación del método LLR dio resultados competitivos en comparación con aquellos vistos en la literatura. Creemos que este método no sufre con el ruido o la distorsión de la misma manera que LLK porque los log-likelihoods obtenidos con ambos modelos son influenciados de la misma manera por ruido y distorsión. Al restar los dos log-likelihoods, el efecto de las condiciones acústicas se compensan en parte, reduciendo la influencia de distorsiones en la señal. La evaluación de LLR en un conjunto de datos de validación final obtuvo una correlación de 0.77 con puntajes manualmente asignados a nivel hablante (varias oraciones). Estos resultados son comparables con aquellos publicados donde se evaluó en datos de similares características.
In computer-assisted language learning (CALL) systems, one of the tasks involved is pronunciation scoring which aims to automatically detect pronunciation problems, allowing the system to provide valuable feedback to the student. Pronunciation scoring systems give, for an utterance or set of utterances, a score saying how correct or native was the pronunciation. In this work we present an automatic pronunciation scoring system based on two different methods that we will call LLK and LLR, since they are based on log-likelihoods and log-likelihood ratios of automatic speech recognition (ASR) models trained with different populations of speakers. The LLK score is computed as the log-likelihood of an utterance with respect to a model trained only with native speakers. A badly pronounced utterance is then expected to generate low scores, while a native-like utterance should fit the model well and, hence, generate higher scores. The LLR score is computed as the subtraction of the log-likelihoods of an utterance with respect to a model trained with non-native speakers and a model trained with native speakers. This score gives information about what model is “closer” to the utterance pronunciation. A small value for the score corresponds to a “more native” pronunciation, while a large value corresponds to a “more non-native” pronunciation. The proposed LLR method is based on an approach previously introduced for the related task of mispronunciation detection at phone level. In this work, we adapt this successful approach to the task of pronunciation scoring, which required some significant changes in the method. In this work we assume that not enough data matched to the test conditions is available to train the native and non-native ASR models from scratch. Hence, an initial model is trained on a large dataset of native speakers consisting of conditions mismatched to those in the test set. This model is then adapted to two population of speakers, natives and non-natives, collected under the same conditions as the test data. The LLK method gave worse results than expected in comparison with published results. We believe this is because the corpora were composed of telephone conversations with high levels of noise and distortion, a condition rarely considered in the pronunciation scoring literature. On the other hand, our implementation of the LLR method gave competitive results compared to those in the literature. We believe this method does not suffer from noise or distortion in the same degree as LLK because the log-likelihoods obtained with both models are influenced in the same manner by noise and distortion. When subtracting the two log-likelihoods, the effect of the acoustic conditions partly compensate each other, therefore reducing the influence of signal distortions. The evaluation of LLR in a held-out set of data obtained a correlation of 0.77 with human ratings at speaker level (several sentences). These results are comparable with published results when testing on similar data.
Fil: Landini, Federico Nicolás. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS
PUNTUACION DE LA PRONUNCIACION
RECONOCIMIENTO DE HABLA AUTOMATICO
MODELOS DE MEZCLAS DE GAUSSIANAS
HABLA NATIVA Y NO NATIVA
LOG-LIKELIHOOD RATIO
ADAPTACION MAP
COMPUTER-ASSISTED LANGUAGE LEARNING
PRONUNCIATION SCORING
AUTOMATIC SPEECH RECOGNITION
GAUSSIAN MIXTURE MODELS
NATIVE AND NON-NATIVE SPEECH
LOG-LIKELIHOOD RATIO
MAP ADAPTATION - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nCOM000655_Landini
Ver los metadatos del registro completo
id |
BDUBAFCEN_a003c09687a6f294e8a4eecd34458b83 |
---|---|
oai_identifier_str |
seminario:seminario_nCOM000655_Landini |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
A pronunciation scoring system for second language learnersLandini, Federico NicolásASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMASPUNTUACION DE LA PRONUNCIACIONRECONOCIMIENTO DE HABLA AUTOMATICOMODELOS DE MEZCLAS DE GAUSSIANASHABLA NATIVA Y NO NATIVALOG-LIKELIHOOD RATIOADAPTACION MAPCOMPUTER-ASSISTED LANGUAGE LEARNINGPRONUNCIATION SCORINGAUTOMATIC SPEECH RECOGNITIONGAUSSIAN MIXTURE MODELSNATIVE AND NON-NATIVE SPEECHLOG-LIKELIHOOD RATIOMAP ADAPTATIONEn los sistemas de asistencia computarizada para aprendizaje de idiomas (ACAI), una de las tareas es puntuar la pronunciación con el fin de detectar problemas de pronunciación de manera automática y dar feedback valioso a los estudiantes de idiomas. Los sistemas de puntuación de la pronunciación dan, dado un segmento de habla, un puntaje indicando cuán correcta o nativa fue la pronunciación. En este trabajo presentamos un sistema automático de puntuación de la pronunciación basado en dos métodos diferentes que llamamos LLK y LLR, dado que están basados en log-likelihoods y en un log-likelihood ratio. Dichos log-likelihoods son obtenidos con sistemas de reconocimiento de habla automáticos (RHA) entrenados con diferentes poblaciones de hablantes. El puntaje LLK se computa como el log-likelihood de un segmento de habla respecto de un modelo entrenado solamente con hablantes nativos. De esta manera, se espera que un segmento de habla mal pronunciado produzca puntajes bajos mientras que se espera que habla nativa se ajuste al modelo y, por ende, produzca puntajes altos. El puntaje LLR se computa como la resta entre los log-likelihoods de un segmento de habla respecto de un modelo entrenado con hablantes nativos y de un modelo entrenado con hablantes no nativos. Este puntaje indica qué modelo es “más cercano” a la pronunciación en el segmento de habla. Un valor bajo se corresponde con una pronunciación “más nativa” mientras que un valor alto se corresponde con una pronunciación “más no nativa”. El método LLR propuesto está basado en un enfoque previamente introducido para la tarea relacionada de detección de errores en la pronunciación a nivel fono. En este trabajo, adaptamos este exitoso enfoque a la tarea de puntuación de la pronunciación que requirió cambios significativos en el método. En este trabajo asumimos que no hay suficientes datos de hablantes nativos y no nativos para evaluar el sistema y entrenar los modelos de reconocimiento de habla desde cero. Por lo tanto, un modelo de reconocimiento de habla es entrenado inicialmente sobre un gran conjunto de datos de hablantes nativos con condiciones acústicas diferentes a las del conjunto de evaluación. Este modelo es luego adaptado a dos poblaciones de hablantes, nativos y no nativos, recolectados bajo las mismas condiciones que el conjunto de datos de evaluación. El método LLK dio peores resultados que los esperados en comparación con los resultados publicados. Creemos que esto se debe a que los corpora estaban compuestos por conversaciones telefónicas con altos niveles de ruido y distorsión, una condición rara vez considerada en la literatura de puntuación de la pronunciación. Por otro lado, nuestra implementación del método LLR dio resultados competitivos en comparación con aquellos vistos en la literatura. Creemos que este método no sufre con el ruido o la distorsión de la misma manera que LLK porque los log-likelihoods obtenidos con ambos modelos son influenciados de la misma manera por ruido y distorsión. Al restar los dos log-likelihoods, el efecto de las condiciones acústicas se compensan en parte, reduciendo la influencia de distorsiones en la señal. La evaluación de LLR en un conjunto de datos de validación final obtuvo una correlación de 0.77 con puntajes manualmente asignados a nivel hablante (varias oraciones). Estos resultados son comparables con aquellos publicados donde se evaluó en datos de similares características.In computer-assisted language learning (CALL) systems, one of the tasks involved is pronunciation scoring which aims to automatically detect pronunciation problems, allowing the system to provide valuable feedback to the student. Pronunciation scoring systems give, for an utterance or set of utterances, a score saying how correct or native was the pronunciation. In this work we present an automatic pronunciation scoring system based on two different methods that we will call LLK and LLR, since they are based on log-likelihoods and log-likelihood ratios of automatic speech recognition (ASR) models trained with different populations of speakers. The LLK score is computed as the log-likelihood of an utterance with respect to a model trained only with native speakers. A badly pronounced utterance is then expected to generate low scores, while a native-like utterance should fit the model well and, hence, generate higher scores. The LLR score is computed as the subtraction of the log-likelihoods of an utterance with respect to a model trained with non-native speakers and a model trained with native speakers. This score gives information about what model is “closer” to the utterance pronunciation. A small value for the score corresponds to a “more native” pronunciation, while a large value corresponds to a “more non-native” pronunciation. The proposed LLR method is based on an approach previously introduced for the related task of mispronunciation detection at phone level. In this work, we adapt this successful approach to the task of pronunciation scoring, which required some significant changes in the method. In this work we assume that not enough data matched to the test conditions is available to train the native and non-native ASR models from scratch. Hence, an initial model is trained on a large dataset of native speakers consisting of conditions mismatched to those in the test set. This model is then adapted to two population of speakers, natives and non-natives, collected under the same conditions as the test data. The LLK method gave worse results than expected in comparison with published results. We believe this is because the corpora were composed of telephone conversations with high levels of noise and distortion, a condition rarely considered in the pronunciation scoring literature. On the other hand, our implementation of the LLR method gave competitive results compared to those in the literature. We believe this method does not suffer from noise or distortion in the same degree as LLK because the log-likelihoods obtained with both models are influenced in the same manner by noise and distortion. When subtracting the two log-likelihoods, the effect of the acoustic conditions partly compensate each other, therefore reducing the influence of signal distortions. The evaluation of LLR in a held-out set of data obtained a correlation of 0.77 with human ratings at speaker level (several sentences). These results are comparable with published results when testing on similar data.Fil: Landini, Federico Nicolás. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesFerrer, Luciana2017info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nCOM000655_Landinienginfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-04T09:49:25Zseminario:seminario_nCOM000655_LandiniInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-04 09:49:26.79Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
A pronunciation scoring system for second language learners |
title |
A pronunciation scoring system for second language learners |
spellingShingle |
A pronunciation scoring system for second language learners Landini, Federico Nicolás ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS PUNTUACION DE LA PRONUNCIACION RECONOCIMIENTO DE HABLA AUTOMATICO MODELOS DE MEZCLAS DE GAUSSIANAS HABLA NATIVA Y NO NATIVA LOG-LIKELIHOOD RATIO ADAPTACION MAP COMPUTER-ASSISTED LANGUAGE LEARNING PRONUNCIATION SCORING AUTOMATIC SPEECH RECOGNITION GAUSSIAN MIXTURE MODELS NATIVE AND NON-NATIVE SPEECH LOG-LIKELIHOOD RATIO MAP ADAPTATION |
title_short |
A pronunciation scoring system for second language learners |
title_full |
A pronunciation scoring system for second language learners |
title_fullStr |
A pronunciation scoring system for second language learners |
title_full_unstemmed |
A pronunciation scoring system for second language learners |
title_sort |
A pronunciation scoring system for second language learners |
dc.creator.none.fl_str_mv |
Landini, Federico Nicolás |
author |
Landini, Federico Nicolás |
author_facet |
Landini, Federico Nicolás |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ferrer, Luciana |
dc.subject.none.fl_str_mv |
ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS PUNTUACION DE LA PRONUNCIACION RECONOCIMIENTO DE HABLA AUTOMATICO MODELOS DE MEZCLAS DE GAUSSIANAS HABLA NATIVA Y NO NATIVA LOG-LIKELIHOOD RATIO ADAPTACION MAP COMPUTER-ASSISTED LANGUAGE LEARNING PRONUNCIATION SCORING AUTOMATIC SPEECH RECOGNITION GAUSSIAN MIXTURE MODELS NATIVE AND NON-NATIVE SPEECH LOG-LIKELIHOOD RATIO MAP ADAPTATION |
topic |
ASISTENCIA COMPUTARIZADA PARA APRENDIZAJE DE IDIOMAS PUNTUACION DE LA PRONUNCIACION RECONOCIMIENTO DE HABLA AUTOMATICO MODELOS DE MEZCLAS DE GAUSSIANAS HABLA NATIVA Y NO NATIVA LOG-LIKELIHOOD RATIO ADAPTACION MAP COMPUTER-ASSISTED LANGUAGE LEARNING PRONUNCIATION SCORING AUTOMATIC SPEECH RECOGNITION GAUSSIAN MIXTURE MODELS NATIVE AND NON-NATIVE SPEECH LOG-LIKELIHOOD RATIO MAP ADAPTATION |
dc.description.none.fl_txt_mv |
En los sistemas de asistencia computarizada para aprendizaje de idiomas (ACAI), una de las tareas es puntuar la pronunciación con el fin de detectar problemas de pronunciación de manera automática y dar feedback valioso a los estudiantes de idiomas. Los sistemas de puntuación de la pronunciación dan, dado un segmento de habla, un puntaje indicando cuán correcta o nativa fue la pronunciación. En este trabajo presentamos un sistema automático de puntuación de la pronunciación basado en dos métodos diferentes que llamamos LLK y LLR, dado que están basados en log-likelihoods y en un log-likelihood ratio. Dichos log-likelihoods son obtenidos con sistemas de reconocimiento de habla automáticos (RHA) entrenados con diferentes poblaciones de hablantes. El puntaje LLK se computa como el log-likelihood de un segmento de habla respecto de un modelo entrenado solamente con hablantes nativos. De esta manera, se espera que un segmento de habla mal pronunciado produzca puntajes bajos mientras que se espera que habla nativa se ajuste al modelo y, por ende, produzca puntajes altos. El puntaje LLR se computa como la resta entre los log-likelihoods de un segmento de habla respecto de un modelo entrenado con hablantes nativos y de un modelo entrenado con hablantes no nativos. Este puntaje indica qué modelo es “más cercano” a la pronunciación en el segmento de habla. Un valor bajo se corresponde con una pronunciación “más nativa” mientras que un valor alto se corresponde con una pronunciación “más no nativa”. El método LLR propuesto está basado en un enfoque previamente introducido para la tarea relacionada de detección de errores en la pronunciación a nivel fono. En este trabajo, adaptamos este exitoso enfoque a la tarea de puntuación de la pronunciación que requirió cambios significativos en el método. En este trabajo asumimos que no hay suficientes datos de hablantes nativos y no nativos para evaluar el sistema y entrenar los modelos de reconocimiento de habla desde cero. Por lo tanto, un modelo de reconocimiento de habla es entrenado inicialmente sobre un gran conjunto de datos de hablantes nativos con condiciones acústicas diferentes a las del conjunto de evaluación. Este modelo es luego adaptado a dos poblaciones de hablantes, nativos y no nativos, recolectados bajo las mismas condiciones que el conjunto de datos de evaluación. El método LLK dio peores resultados que los esperados en comparación con los resultados publicados. Creemos que esto se debe a que los corpora estaban compuestos por conversaciones telefónicas con altos niveles de ruido y distorsión, una condición rara vez considerada en la literatura de puntuación de la pronunciación. Por otro lado, nuestra implementación del método LLR dio resultados competitivos en comparación con aquellos vistos en la literatura. Creemos que este método no sufre con el ruido o la distorsión de la misma manera que LLK porque los log-likelihoods obtenidos con ambos modelos son influenciados de la misma manera por ruido y distorsión. Al restar los dos log-likelihoods, el efecto de las condiciones acústicas se compensan en parte, reduciendo la influencia de distorsiones en la señal. La evaluación de LLR en un conjunto de datos de validación final obtuvo una correlación de 0.77 con puntajes manualmente asignados a nivel hablante (varias oraciones). Estos resultados son comparables con aquellos publicados donde se evaluó en datos de similares características. In computer-assisted language learning (CALL) systems, one of the tasks involved is pronunciation scoring which aims to automatically detect pronunciation problems, allowing the system to provide valuable feedback to the student. Pronunciation scoring systems give, for an utterance or set of utterances, a score saying how correct or native was the pronunciation. In this work we present an automatic pronunciation scoring system based on two different methods that we will call LLK and LLR, since they are based on log-likelihoods and log-likelihood ratios of automatic speech recognition (ASR) models trained with different populations of speakers. The LLK score is computed as the log-likelihood of an utterance with respect to a model trained only with native speakers. A badly pronounced utterance is then expected to generate low scores, while a native-like utterance should fit the model well and, hence, generate higher scores. The LLR score is computed as the subtraction of the log-likelihoods of an utterance with respect to a model trained with non-native speakers and a model trained with native speakers. This score gives information about what model is “closer” to the utterance pronunciation. A small value for the score corresponds to a “more native” pronunciation, while a large value corresponds to a “more non-native” pronunciation. The proposed LLR method is based on an approach previously introduced for the related task of mispronunciation detection at phone level. In this work, we adapt this successful approach to the task of pronunciation scoring, which required some significant changes in the method. In this work we assume that not enough data matched to the test conditions is available to train the native and non-native ASR models from scratch. Hence, an initial model is trained on a large dataset of native speakers consisting of conditions mismatched to those in the test set. This model is then adapted to two population of speakers, natives and non-natives, collected under the same conditions as the test data. The LLK method gave worse results than expected in comparison with published results. We believe this is because the corpora were composed of telephone conversations with high levels of noise and distortion, a condition rarely considered in the pronunciation scoring literature. On the other hand, our implementation of the LLR method gave competitive results compared to those in the literature. We believe this method does not suffer from noise or distortion in the same degree as LLK because the log-likelihoods obtained with both models are influenced in the same manner by noise and distortion. When subtracting the two log-likelihoods, the effect of the acoustic conditions partly compensate each other, therefore reducing the influence of signal distortions. The evaluation of LLR in a held-out set of data obtained a correlation of 0.77 with human ratings at speaker level (several sentences). These results are comparable with published results when testing on similar data. Fil: Landini, Federico Nicolás. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
En los sistemas de asistencia computarizada para aprendizaje de idiomas (ACAI), una de las tareas es puntuar la pronunciación con el fin de detectar problemas de pronunciación de manera automática y dar feedback valioso a los estudiantes de idiomas. Los sistemas de puntuación de la pronunciación dan, dado un segmento de habla, un puntaje indicando cuán correcta o nativa fue la pronunciación. En este trabajo presentamos un sistema automático de puntuación de la pronunciación basado en dos métodos diferentes que llamamos LLK y LLR, dado que están basados en log-likelihoods y en un log-likelihood ratio. Dichos log-likelihoods son obtenidos con sistemas de reconocimiento de habla automáticos (RHA) entrenados con diferentes poblaciones de hablantes. El puntaje LLK se computa como el log-likelihood de un segmento de habla respecto de un modelo entrenado solamente con hablantes nativos. De esta manera, se espera que un segmento de habla mal pronunciado produzca puntajes bajos mientras que se espera que habla nativa se ajuste al modelo y, por ende, produzca puntajes altos. El puntaje LLR se computa como la resta entre los log-likelihoods de un segmento de habla respecto de un modelo entrenado con hablantes nativos y de un modelo entrenado con hablantes no nativos. Este puntaje indica qué modelo es “más cercano” a la pronunciación en el segmento de habla. Un valor bajo se corresponde con una pronunciación “más nativa” mientras que un valor alto se corresponde con una pronunciación “más no nativa”. El método LLR propuesto está basado en un enfoque previamente introducido para la tarea relacionada de detección de errores en la pronunciación a nivel fono. En este trabajo, adaptamos este exitoso enfoque a la tarea de puntuación de la pronunciación que requirió cambios significativos en el método. En este trabajo asumimos que no hay suficientes datos de hablantes nativos y no nativos para evaluar el sistema y entrenar los modelos de reconocimiento de habla desde cero. Por lo tanto, un modelo de reconocimiento de habla es entrenado inicialmente sobre un gran conjunto de datos de hablantes nativos con condiciones acústicas diferentes a las del conjunto de evaluación. Este modelo es luego adaptado a dos poblaciones de hablantes, nativos y no nativos, recolectados bajo las mismas condiciones que el conjunto de datos de evaluación. El método LLK dio peores resultados que los esperados en comparación con los resultados publicados. Creemos que esto se debe a que los corpora estaban compuestos por conversaciones telefónicas con altos niveles de ruido y distorsión, una condición rara vez considerada en la literatura de puntuación de la pronunciación. Por otro lado, nuestra implementación del método LLR dio resultados competitivos en comparación con aquellos vistos en la literatura. Creemos que este método no sufre con el ruido o la distorsión de la misma manera que LLK porque los log-likelihoods obtenidos con ambos modelos son influenciados de la misma manera por ruido y distorsión. Al restar los dos log-likelihoods, el efecto de las condiciones acústicas se compensan en parte, reduciendo la influencia de distorsiones en la señal. La evaluación de LLR en un conjunto de datos de validación final obtuvo una correlación de 0.77 con puntajes manualmente asignados a nivel hablante (varias oraciones). Estos resultados son comparables con aquellos publicados donde se evaluó en datos de similares características. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nCOM000655_Landini |
url |
https://hdl.handle.net/20.500.12110/seminario_nCOM000655_Landini |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1842340720525967360 |
score |
12.623145 |