On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks

Autores
Jimenez, Victor A.; Roodschild, Matías; Gotay Sardiñas, Jorge; Will, Adrián
Año de publicación
2026
Idioma
español castellano
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.
Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real.
Facultad de Informática
Materia
Ciencias Informáticas
Long short-term memory
Recurrent neural networks
Zorro activation functions
Activation function
Gating function
Redes neuronales recurrentes
Función de activación
Función de compuerta
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/193827

id SEDICI_52de3a68c84f0d5838dc7b67047e8fcf
oai_identifier_str oai:sedici.unlp.edu.ar:10915/193827
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural NetworksUso de la función de activación Zorro en redes neuronales LSTMJimenez, Victor A.Roodschild, MatíasGotay Sardiñas, JorgeWill, AdriánCiencias InformáticasLong short-term memoryRecurrent neural networksZorro activation functionsActivation functionGating functionRedes neuronales recurrentesFunción de activaciónFunción de compuertaActivation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real.Facultad de Informática2026-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/193827spainfo:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4309info:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:47:53Zoai:sedici.unlp.edu.ar:10915/193827Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:47:53.637SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
Uso de la función de activación Zorro en redes neuronales LSTM
title On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
spellingShingle On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
Jimenez, Victor A.
Ciencias Informáticas
Long short-term memory
Recurrent neural networks
Zorro activation functions
Activation function
Gating function
Redes neuronales recurrentes
Función de activación
Función de compuerta
title_short On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_full On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_fullStr On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_full_unstemmed On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_sort On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
dc.creator.none.fl_str_mv Jimenez, Victor A.
Roodschild, Matías
Gotay Sardiñas, Jorge
Will, Adrián
author Jimenez, Victor A.
author_facet Jimenez, Victor A.
Roodschild, Matías
Gotay Sardiñas, Jorge
Will, Adrián
author_role author
author2 Roodschild, Matías
Gotay Sardiñas, Jorge
Will, Adrián
author2_role author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Long short-term memory
Recurrent neural networks
Zorro activation functions
Activation function
Gating function
Redes neuronales recurrentes
Función de activación
Función de compuerta
topic Ciencias Informáticas
Long short-term memory
Recurrent neural networks
Zorro activation functions
Activation function
Gating function
Redes neuronales recurrentes
Función de activación
Función de compuerta
dc.description.none.fl_txt_mv Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.
Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real.
Facultad de Informática
description Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.
publishDate 2026
dc.date.none.fl_str_mv 2026-04
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Articulo
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/193827
url http://sedici.unlp.edu.ar/handle/10915/193827
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4309
info:eu-repo/semantics/altIdentifier/issn/1666-6038
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1866372210842664960
score 13.468372