Study on pose-based deep learning models for gloss-free Sign Language Translation

Autores
Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; Ronchetti, Franco
Año de publicación
2024
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.
La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio.
Fil: Dal Bianco, Pedro. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Ríos, Gastón. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Hasperué, Waldo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Stanchi, Oscar Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Quiroga, Facundo. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Ronchetti, Franco. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Materia
Deep Learning
Gloss-free
Pose Estimation
Sign Language Datasets
Sign Language Translation
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/247155

id CONICETDig_8c83cda1de6dd347c0aec9960125ea30
oai_identifier_str oai:ri.conicet.gov.ar:11336/247155
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling Study on pose-based deep learning models for gloss-free Sign Language TranslationEstudio sobre modelos de aprendizaje profundo basados en poses para Traducción de Lengua de Señas sin glosasDal Bianco, PedroRíos, GastónHasperué, WaldoStanchi, Oscar AgustínQuiroga, FacundoRonchetti, FrancoDeep LearningGloss-freePose EstimationSign Language DatasetsSign Language Translationhttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio.Fil: Dal Bianco, Pedro. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Ríos, Gastón. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Hasperué, Waldo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Stanchi, Oscar Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Quiroga, Facundo. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Ronchetti, Franco. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaUniversidad Nacional de La Plata. Facultad de Informática2024-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/247155Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-1031666-60461666-6038CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/3480info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e09info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-10T13:10:50Zoai:ri.conicet.gov.ar:11336/247155instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-10 13:10:50.441CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv Study on pose-based deep learning models for gloss-free Sign Language Translation
Estudio sobre modelos de aprendizaje profundo basados en poses para Traducción de Lengua de Señas sin glosas
title Study on pose-based deep learning models for gloss-free Sign Language Translation
spellingShingle Study on pose-based deep learning models for gloss-free Sign Language Translation
Dal Bianco, Pedro
Deep Learning
Gloss-free
Pose Estimation
Sign Language Datasets
Sign Language Translation
title_short Study on pose-based deep learning models for gloss-free Sign Language Translation
title_full Study on pose-based deep learning models for gloss-free Sign Language Translation
title_fullStr Study on pose-based deep learning models for gloss-free Sign Language Translation
title_full_unstemmed Study on pose-based deep learning models for gloss-free Sign Language Translation
title_sort Study on pose-based deep learning models for gloss-free Sign Language Translation
dc.creator.none.fl_str_mv Dal Bianco, Pedro
Ríos, Gastón
Hasperué, Waldo
Stanchi, Oscar Agustín
Quiroga, Facundo
Ronchetti, Franco
author Dal Bianco, Pedro
author_facet Dal Bianco, Pedro
Ríos, Gastón
Hasperué, Waldo
Stanchi, Oscar Agustín
Quiroga, Facundo
Ronchetti, Franco
author_role author
author2 Ríos, Gastón
Hasperué, Waldo
Stanchi, Oscar Agustín
Quiroga, Facundo
Ronchetti, Franco
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Deep Learning
Gloss-free
Pose Estimation
Sign Language Datasets
Sign Language Translation
topic Deep Learning
Gloss-free
Pose Estimation
Sign Language Datasets
Sign Language Translation
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.2
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.
La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio.
Fil: Dal Bianco, Pedro. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Ríos, Gastón. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Hasperué, Waldo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Stanchi, Oscar Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Quiroga, Facundo. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Ronchetti, Franco. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
description Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.
publishDate 2024
dc.date.none.fl_str_mv 2024-10
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/247155
Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-103
1666-6046
1666-6038
CONICET Digital
CONICET
url http://hdl.handle.net/11336/247155
identifier_str_mv Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-103
1666-6046
1666-6038
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/3480
info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e09
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.publisher.none.fl_str_mv Universidad Nacional de La Plata. Facultad de Informática
publisher.none.fl_str_mv Universidad Nacional de La Plata. Facultad de Informática
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1842980549026643968
score 12.993085