ConvAtt Network: a low parameter approach for sign language recognition

Autores
Ríos, Gastón Gustavo; Dal Bianco, Pedro Alejandro; Ronchetti, Franco; Ponte Ahón, Santiago Andrés; Stanchi, Oscar Agustín; Hasperué, Waldo
Año de publicación
2024
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.
A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros.
Facultad de Informática
Materia
Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/173739

id SEDICI_689b8c3c7e201405bbc15b70a6b8b5df
oai_identifier_str oai:sedici.unlp.edu.ar:10915/173739
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling ConvAtt Network: a low parameter approach for sign language recognitionRíos, Gastón GustavoDal Bianco, Pedro AlejandroRonchetti, FrancoPonte Ahón, Santiago AndrésStanchi, Oscar AgustínHasperué, WaldoCiencias Informáticasdeep learningsequence classificationsign language recognitionunbalanced dataaprendizaje profundoclasificación de sequenciasreconocimiento de lenguas de señasdatos desbalanceadosDespite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros.Facultad de Informática2024-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf104-110http://sedici.unlp.edu.ar/handle/10915/173739enginfo:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e10info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:46:39Zoai:sedici.unlp.edu.ar:10915/173739Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:46:39.426SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv ConvAtt Network: a low parameter approach for sign language recognition
title ConvAtt Network: a low parameter approach for sign language recognition
spellingShingle ConvAtt Network: a low parameter approach for sign language recognition
Ríos, Gastón Gustavo
Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados
title_short ConvAtt Network: a low parameter approach for sign language recognition
title_full ConvAtt Network: a low parameter approach for sign language recognition
title_fullStr ConvAtt Network: a low parameter approach for sign language recognition
title_full_unstemmed ConvAtt Network: a low parameter approach for sign language recognition
title_sort ConvAtt Network: a low parameter approach for sign language recognition
dc.creator.none.fl_str_mv Ríos, Gastón Gustavo
Dal Bianco, Pedro Alejandro
Ronchetti, Franco
Ponte Ahón, Santiago Andrés
Stanchi, Oscar Agustín
Hasperué, Waldo
author Ríos, Gastón Gustavo
author_facet Ríos, Gastón Gustavo
Dal Bianco, Pedro Alejandro
Ronchetti, Franco
Ponte Ahón, Santiago Andrés
Stanchi, Oscar Agustín
Hasperué, Waldo
author_role author
author2 Dal Bianco, Pedro Alejandro
Ronchetti, Franco
Ponte Ahón, Santiago Andrés
Stanchi, Oscar Agustín
Hasperué, Waldo
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados
topic Ciencias Informáticas
deep learning
sequence classification
sign language recognition
unbalanced data
aprendizaje profundo
clasificación de sequencias
reconocimiento de lenguas de señas
datos desbalanceados
dc.description.none.fl_txt_mv Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.
A pesar de los avances recientes en grandes modelos de lenguaje para el procesamiento de texto, el Reconocimiento de Lenguas de Señas (SLR por sus siglas en inglés) aún es una tarea sin resolver. Esto es, en parte, debido a las limitaciones en los datos disponibles. En este artículo, investigamos cómo combinar convoluciones Id con capas transformer para capturar las características locales y las interacciones globales utilizando un modelo de SLR de pocos parámetros. Experimentamos usando múltiples técnicas de aumento de datos y regularización para categorizar señas de la lengua de señas belga-francesa. Como resultado, obtuvimos una exactitud top-1 de 42.7% y top-10 de 81.9% en 600 señas diferentes. Este modelo es competitivo con el estado del arte actual, utilizando una cantidad significativamente menor de parámetros.
Facultad de Informática
description Despite recent advances in Large Language Models in text processing. Sign Language Recognition (SLR) remains an unresolved task. This is, in part, due to limitations in the available data. In this paper, we investigate combining ID convolutions with transformer layers to capture local features and global interactions in a low-parameter SLR model. We experimented using multiple data augmentation and regularization techniques to categorize signs of the French Belgian Sign Language. We achieved a top-1 accuracy of 42.7% and a top-10 accuracy of 81.9% in 600 different signs. This model is competitive with the current state of the art while using a significantly lower number of parameters.
publishDate 2024
dc.date.none.fl_str_mv 2024-10
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Articulo
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/173739
url http://sedici.unlp.edu.ar/handle/10915/173739
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/issn/1666-6038
info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24.e10
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
104-110
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616331600592896
score 13.070432