ConvAtt Network: a low parameter approach for sign language recognition
- Autores
- Ríos, Gastón Gustavo; Dal Bianco, Pedro Alejandro; Ronchetti, Franco; Ponte Ahón, Santiago Andrés; Stanchi, Oscar Agustín; Hasperué, Waldo
- Año de publicación
- 2024
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.
A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros.
Facultad de Informática - Materia
-
Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/173739
Ver los metadatos del registro completo
id |
SEDICI_689b8c3c7e201405bbc15b70a6b8b5df |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/173739 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
ConvAtt Network: a low parameter approach for sign language recognitionRíos, Gastón GustavoDal Bianco, Pedro AlejandroRonchetti, FrancoPonte Ahón, Santiago AndrésStanchi, Oscar AgustínHasperué, WaldoCiencias Informáticasdeep learningsequence classificationsign language recognitionunbalanced dataaprendizaje profundoclasificación de sequenciasreconocimiento de lenguas de señasdatos desbalanceadosDespite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros.Facultad de Informática2024-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf104-110http://sedici.unlp.edu.ar/handle/10915/173739enginfo:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e10info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:46:39Zoai:sedici.unlp.edu.ar:10915/173739Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:46:39.426SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
ConvAtt Network: a low parameter approach for sign language recognition |
title |
ConvAtt Network: a low parameter approach for sign language recognition |
spellingShingle |
ConvAtt Network: a low parameter approach for sign language recognition Ríos, Gastón Gustavo Ciencias Informáticas deep learning sequence classification sign language recognition unbalanced data aprendizaje profundo clasificación de sequencias reconocimiento de lenguas de señas datos desbalanceados |
title_short |
ConvAtt Network: a low parameter approach for sign language recognition |
title_full |
ConvAtt Network: a low parameter approach for sign language recognition |
title_fullStr |
ConvAtt Network: a low parameter approach for sign language recognition |
title_full_unstemmed |
ConvAtt Network: a low parameter approach for sign language recognition |
title_sort |
ConvAtt Network: a low parameter approach for sign language recognition |
dc.creator.none.fl_str_mv |
Ríos, Gastón Gustavo Dal Bianco, Pedro Alejandro Ronchetti, Franco Ponte Ahón, Santiago Andrés Stanchi, Oscar Agustín Hasperué, Waldo |
author |
Ríos, Gastón Gustavo |
author_facet |
Ríos, Gastón Gustavo Dal Bianco, Pedro Alejandro Ronchetti, Franco Ponte Ahón, Santiago Andrés Stanchi, Oscar Agustín Hasperué, Waldo |
author_role |
author |
author2 |
Dal Bianco, Pedro Alejandro Ronchetti, Franco Ponte Ahón, Santiago Andrés Stanchi, Oscar Agustín Hasperué, Waldo |
author2_role |
author author author author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas deep learning sequence classification sign language recognition unbalanced data aprendizaje profundo clasificación de sequencias reconocimiento de lenguas de señas datos desbalanceados |
topic |
Ciencias Informáticas deep learning sequence classification sign language recognition unbalanced data aprendizaje profundo clasificación de sequencias reconocimiento de lenguas de señas datos desbalanceados |
dc.description.none.fl_txt_mv |
Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters. A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros. Facultad de Informática |
description |
Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-10 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Articulo http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/173739 |
url |
http://sedici.unlp.edu.ar/handle/10915/173739 |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/issn/1666-6038 info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e10 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf 104-110 |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1844616331600592896 |
score |
13.070432 |