On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
- Autores
- Jimenez, Victor A.; Roodschild, Matías; Gotay Sardiñas, Jorge; Will, Adrián
- Año de publicación
- 2026
- Idioma
- español castellano
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.
Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real.
Facultad de Informática - Materia
-
Ciencias Informáticas
Long short-term memory
Recurrent neural networks
Zorro activation functions
Activation function
Gating function
Redes neuronales recurrentes
Función de activación
Función de compuerta - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/193827
Ver los metadatos del registro completo
| id |
SEDICI_52de3a68c84f0d5838dc7b67047e8fcf |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/193827 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural NetworksUso de la función de activación Zorro en redes neuronales LSTMJimenez, Victor A.Roodschild, MatíasGotay Sardiñas, JorgeWill, AdriánCiencias InformáticasLong short-term memoryRecurrent neural networksZorro activation functionsActivation functionGating functionRedes neuronales recurrentesFunción de activaciónFunción de compuertaActivation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real.Facultad de Informática2026-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/193827spainfo:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4309info:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:47:53Zoai:sedici.unlp.edu.ar:10915/193827Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:47:53.637SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks Uso de la función de activación Zorro en redes neuronales LSTM |
| title |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks |
| spellingShingle |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks Jimenez, Victor A. Ciencias Informáticas Long short-term memory Recurrent neural networks Zorro activation functions Activation function Gating function Redes neuronales recurrentes Función de activación Función de compuerta |
| title_short |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks |
| title_full |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks |
| title_fullStr |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks |
| title_full_unstemmed |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks |
| title_sort |
On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks |
| dc.creator.none.fl_str_mv |
Jimenez, Victor A. Roodschild, Matías Gotay Sardiñas, Jorge Will, Adrián |
| author |
Jimenez, Victor A. |
| author_facet |
Jimenez, Victor A. Roodschild, Matías Gotay Sardiñas, Jorge Will, Adrián |
| author_role |
author |
| author2 |
Roodschild, Matías Gotay Sardiñas, Jorge Will, Adrián |
| author2_role |
author author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas Long short-term memory Recurrent neural networks Zorro activation functions Activation function Gating function Redes neuronales recurrentes Función de activación Función de compuerta |
| topic |
Ciencias Informáticas Long short-term memory Recurrent neural networks Zorro activation functions Activation function Gating function Redes neuronales recurrentes Función de activación Función de compuerta |
| dc.description.none.fl_txt_mv |
Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications. Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real. Facultad de Informática |
| description |
Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications. |
| publishDate |
2026 |
| dc.date.none.fl_str_mv |
2026-04 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Articulo http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/193827 |
| url |
http://sedici.unlp.edu.ar/handle/10915/193827 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4309 info:eu-repo/semantics/altIdentifier/issn/1666-6038 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1866372210842664960 |
| score |
13.468372 |