Study on pose-based deep learning models for gloss-free Sign Language Translation
- Autores
- Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; Ronchetti, Franco
- Año de publicación
- 2024
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.
La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio.
Fil: Dal Bianco, Pedro. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Ríos, Gastón. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Hasperué, Waldo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Stanchi, Oscar Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Quiroga, Facundo. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina
Fil: Ronchetti, Franco. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina - Materia
-
Deep Learning
Gloss-free
Pose Estimation
Sign Language Datasets
Sign Language Translation - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
- Repositorio
- Institución
- Consejo Nacional de Investigaciones Científicas y Técnicas
- OAI Identificador
- oai:ri.conicet.gov.ar:11336/247155
Ver los metadatos del registro completo
id |
CONICETDig_8c83cda1de6dd347c0aec9960125ea30 |
---|---|
oai_identifier_str |
oai:ri.conicet.gov.ar:11336/247155 |
network_acronym_str |
CONICETDig |
repository_id_str |
3498 |
network_name_str |
CONICET Digital (CONICET) |
spelling |
Study on pose-based deep learning models for gloss-free Sign Language TranslationEstudio sobre modelos de aprendizaje profundo basados en poses para Traducción de Lengua de Señas sin glosasDal Bianco, PedroRíos, GastónHasperué, WaldoStanchi, Oscar AgustínQuiroga, FacundoRonchetti, FrancoDeep LearningGloss-freePose EstimationSign Language DatasetsSign Language Translationhttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset.La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio.Fil: Dal Bianco, Pedro. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Ríos, Gastón. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Hasperué, Waldo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Stanchi, Oscar Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Quiroga, Facundo. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaFil: Ronchetti, Franco. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; ArgentinaUniversidad Nacional de La Plata. Facultad de Informática2024-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfapplication/pdfhttp://hdl.handle.net/11336/247155Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-1031666-60461666-6038CONICET DigitalCONICETenginfo:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/3480info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e09info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-10T13:10:50Zoai:ri.conicet.gov.ar:11336/247155instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-10 13:10:50.441CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse |
dc.title.none.fl_str_mv |
Study on pose-based deep learning models for gloss-free Sign Language Translation Estudio sobre modelos de aprendizaje profundo basados en poses para Traducción de Lengua de Señas sin glosas |
title |
Study on pose-based deep learning models for gloss-free Sign Language Translation |
spellingShingle |
Study on pose-based deep learning models for gloss-free Sign Language Translation Dal Bianco, Pedro Deep Learning Gloss-free Pose Estimation Sign Language Datasets Sign Language Translation |
title_short |
Study on pose-based deep learning models for gloss-free Sign Language Translation |
title_full |
Study on pose-based deep learning models for gloss-free Sign Language Translation |
title_fullStr |
Study on pose-based deep learning models for gloss-free Sign Language Translation |
title_full_unstemmed |
Study on pose-based deep learning models for gloss-free Sign Language Translation |
title_sort |
Study on pose-based deep learning models for gloss-free Sign Language Translation |
dc.creator.none.fl_str_mv |
Dal Bianco, Pedro Ríos, Gastón Hasperué, Waldo Stanchi, Oscar Agustín Quiroga, Facundo Ronchetti, Franco |
author |
Dal Bianco, Pedro |
author_facet |
Dal Bianco, Pedro Ríos, Gastón Hasperué, Waldo Stanchi, Oscar Agustín Quiroga, Facundo Ronchetti, Franco |
author_role |
author |
author2 |
Ríos, Gastón Hasperué, Waldo Stanchi, Oscar Agustín Quiroga, Facundo Ronchetti, Franco |
author2_role |
author author author author author |
dc.subject.none.fl_str_mv |
Deep Learning Gloss-free Pose Estimation Sign Language Datasets Sign Language Translation |
topic |
Deep Learning Gloss-free Pose Estimation Sign Language Datasets Sign Language Translation |
purl_subject.fl_str_mv |
https://purl.org/becyt/ford/1.2 https://purl.org/becyt/ford/1 |
dc.description.none.fl_txt_mv |
Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset. La traducción de lenguaje de señas es una tarea desafiante, ya que atraviesa múltiples dominios, diferentes gramáticas y falta de datos. Actualmente, muchos modelos de SLT dependen de glosas como anotaciones intermedias o salidas. Estas pueden ayudar a los modelos a segmentar y alinear correctamente las señas para comprender mejor el video. Sin embargo, su uso conlleva limitaciones significativas, ya que obtenerlas es bastante difícil. Por lo tanto, escalar modelos basados en glosas a millones de muestras sigue siendo impráctico, especialmente considerando la escasez de bases de datos de lengua de señas. De igual forma, muchos modelos utilizan videos como entrada, lo que requiere de modelos más grandes que típicamente solo funcionan en GPUs de alta gama y son menos invariantes a la apariencia y el contexto de los señantes. En este trabajo proponemos un modelo de SLT basado en poses y sin glosas. Usar la pose extraída como entrada permite una reducción significativa en la dimensionalidad de los datos y en el tamaño del modelo. Evaluamos el estado del arte, comparamos modelos disponibles y desarrollamos un modelo Transformer basado en keypoints para SLT sin glosas, entrenado sobre RWTH-Phoenix, un conjunto de datos estándar para la evaluación de modelos SLT, y sobre GSL, un conjunto de datos de lengua de señas griega hecho en un laboratorio. Fil: Dal Bianco, Pedro. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina Fil: Ríos, Gastón. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina Fil: Hasperué, Waldo. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina Fil: Stanchi, Oscar Agustín. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina Fil: Quiroga, Facundo. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina Fil: Ronchetti, Franco. Provincia de Buenos Aires. Gobernación. Comisión de Investigaciones Científicas; Argentina. Universidad Nacional de La Plata. Facultad de Informática. Instituto de Investigación en Informática Lidi; Argentina |
description |
Sign Language Translation (SLT) is a challenging taskdue to its cross-domain nature, different grammarsand lack of data. Currently, many SLT models relyon intermediate gloss annotations as outputs or latentpriors. Glosses can help models to correctly segmentand align signs to better understand the video. How-ever, the use of glosses comes with significant limi-tations, since obtaining annotations is quite difficult.Therefore, scaling gloss-based models to millions ofsamples remains impractical, specially considering thescarcity of sign language datasets. In a similar fashion,many models use video data that requires larger mod-els which typically only work on high end GPUs, andare less invariant to signers appearance and context.In this work we propose a gloss-free pose-based SLTmodel. Using the extracted pose as feature allow fora sign significant reduction in the dimensionality ofthe data and the size of the model. We evaluate thestate of the art, compare available models and developa keypoint-based Transformer model for gloss-freeSLT, trained on RWTH-Phoenix, a standard dataset forbenchmarking SLT models alongside GSL, a simplerlaboratory-made Greek Sign Language dataset. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-10 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11336/247155 Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-103 1666-6046 1666-6038 CONICET Digital CONICET |
url |
http://hdl.handle.net/11336/247155 |
identifier_str_mv |
Dal Bianco, Pedro; Ríos, Gastón; Hasperué, Waldo; Stanchi, Oscar Agustín; Quiroga, Facundo; et al.; Study on pose-based deep learning models for gloss-free Sign Language Translation; Universidad Nacional de La Plata. Facultad de Informática; Journal of Computer Science and Technology; 24; 2; 10-2024; 99-103 1666-6046 1666-6038 CONICET Digital CONICET |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/3480 info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e09 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
dc.format.none.fl_str_mv |
application/pdf application/pdf |
dc.publisher.none.fl_str_mv |
Universidad Nacional de La Plata. Facultad de Informática |
publisher.none.fl_str_mv |
Universidad Nacional de La Plata. Facultad de Informática |
dc.source.none.fl_str_mv |
reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas |
reponame_str |
CONICET Digital (CONICET) |
collection |
CONICET Digital (CONICET) |
instname_str |
Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.name.fl_str_mv |
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.mail.fl_str_mv |
dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar |
_version_ |
1842980549026643968 |
score |
12.993085 |