On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks

Autores: Jimenez, Victor A.; Roodschild, Matías; Gotay Sardiñas, Jorge; Will, Adrián
Año de publicación: 2026
Idioma: español castellano
Tipo de recurso: artículo
Estado: versión publicada
Descripción: Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.
Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real.
Facultad de Informática
Materia: Ciencias Informáticas
Long short-term memory
Recurrent neural networks
Zorro activation functions
Activation function
Gating function
Redes neuronales recurrentes
Función de activación
Función de compuerta
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/193827

Acceder

id	SEDICI_52de3a68c84f0d5838dc7b67047e8fcf
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/193827
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural NetworksUso de la función de activación Zorro en redes neuronales LSTMJimenez, Victor A.Roodschild, MatíasGotay Sardiñas, JorgeWill, AdriánCiencias InformáticasLong short-term memoryRecurrent neural networksZorro activation functionsActivation functionGating functionRedes neuronales recurrentesFunción de activaciónFunción de compuertaActivation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real.Facultad de Informática2026-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/193827spainfo:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4309info:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T11:47:53Zoai:sedici.unlp.edu.ar:10915/193827Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 11:47:53.637SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks Uso de la función de activación Zorro en redes neuronales LSTM
title	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
spellingShingle	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks Jimenez, Victor A. Ciencias Informáticas Long short-term memory Recurrent neural networks Zorro activation functions Activation function Gating function Redes neuronales recurrentes Función de activación Función de compuerta
title_short	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_full	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_fullStr	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_full_unstemmed	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
title_sort	On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks
dc.creator.none.fl_str_mv	Jimenez, Victor A. Roodschild, Matías Gotay Sardiñas, Jorge Will, Adrián
author	Jimenez, Victor A.
author_facet	Jimenez, Victor A. Roodschild, Matías Gotay Sardiñas, Jorge Will, Adrián
author_role	author
author2	Roodschild, Matías Gotay Sardiñas, Jorge Will, Adrián
author2_role	author author author
dc.subject.none.fl_str_mv	Ciencias Informáticas Long short-term memory Recurrent neural networks Zorro activation functions Activation function Gating function Redes neuronales recurrentes Función de activación Función de compuerta
topic	Ciencias Informáticas Long short-term memory Recurrent neural networks Zorro activation functions Activation function Gating function Redes neuronales recurrentes Función de activación Función de compuerta
dc.description.none.fl_txt_mv	Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications. Las funciones de activación son componentes fundamentales de las redes neuronales modernas, incluidos los modelos de lenguaje a gran escala (LLMs). Las activaciones no lineales regulan el flujo de información en la mayoría de los modelos y determinan cómo se procesan los datos. Sin embargo, entrenar o incluso ajustar modelos muy grandes y complejos con estas activaciones, como los utilizados en Chat- GPT y DeepSeek, sigue estando fuera del alcance de muchos investigadores debido a las limitaciones computacionales. Por esta razón, arquitecturas tradicionales como las LSTM siguen siendo muy relevantes para aplicaciones del mundo real a pequeña y mediana escala. En este contexto, la elección de funciones adecuadas puede influir significativamente en la capacidad de aprendizaje, estabilidad y eficiencia de entrenamiento de un modelo con recursos computacionales limitados. En este trabajo, analizamos el comportamiento de una nueva familia de funciones de activación, llamada Zorro, cuando se utilizan como funciones de compuerta en arquitecturas LSTM. Proponemos reemplazar las funciones de activación y compuerta tradicionales en las LSTM por las variantes Zorro para mejorar el rendimiento del modelo y la velocidad de convergencia. A diferencia de los enfoques convencionales, nuestro método asigna una función diferente a cada compuerta o activación, permitiendo una adaptación flexible a diferentes arquitecturas con compuertas. Evaluamos los modelos propuestos en conjuntos de datos ampliamente utilizados, incluyendo Japanese Vowels y Human Activity Recognition para clasificación, así como Chickenpox y Turbofan Degradation para regresión. Los resultados muestran mejoras de precisión de hasta 10% y reducciones del tiempo de entrenamiento de hasta el 15%, lo que demuestra que el enfoque propuesto ofrece una alternativa práctica y eficiente desde el punto de vista computacional para desplegar modelos basados en LSTM en entornos con recursos limitados y aplicaciones de series de tiempo del mundo real. Facultad de Informática
description	Activation functions are fundamental components of modern neural networks, including Large Language Models (LLMs). Nonlinear activations regulate the flow of information in most models and determine how data is processed. However, training or even fine-tuning very large and complex models with such activations, like those used in ChatGPT and DeepSeek, remains out of reach for many researchers due to computational constraints. Therefore, traditional architectures such as LSTM remain highly relevant for smallto medium-scale, real-world applications. In this context, the choice of appropriate functions can significantly influence a model’s learning capability, stability, and training efficiency under limited computational resources. In this work, we analyze the behavior of a novel family of activation functions, called Zorro, when used as gating functions in LSTM architectures. We propose replacing traditional activation and gating functions with Zorro variants to improve both model performance and convergence speed. Unlike conventional approaches, our method assigns a different function to each gate or activation, enabling flexible adaptation to different gated architectures. We evaluate the proposed models on widely used benchmark datasets, including Japanese Vowels and Human Activity Recognition for classification, and Chickenpox and Turbofan Degradation for regression. The results show accuracy improvements of up to 10% and reduction in training time of up to 15%, demonstrating that the proposed approach provides a practical and computationally efficient alternative for deploying LSTM-based models in resource-constrained environments and real-world time-series applications.
publishDate	2026
dc.date.none.fl_str_mv	2026-04
dc.type.none.fl_str_mv	info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Articulo http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo
format	article
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/193827
url	http://sedici.unlp.edu.ar/handle/10915/193827
dc.language.none.fl_str_mv	spa
language	spa
dc.relation.none.fl_str_mv	info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4309 info:eu-repo/semantics/altIdentifier/issn/1666-6038
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1866372210842664960
score	13.468372

On the use of the Novel Zorro Activation Functions in Long Short-Term Memory Neural Networks

Publicaciones similares