Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas

Autores
Chiarvetto Peralta, Lucila Lourdes
Año de publicación
2023
Idioma
español castellano
Tipo de recurso
tesis doctoral
Estado
versión aceptada
Colaborador/a o director/a de tesis
Brignole, Nélida Beatriz
Descripción
Las redes neuronales artificiales (ANN: Artificial Neural Networks) recientemente han tenido un gran impacto en la resolución de algunos problemas debido a que ha sido posible la implementación de algoritmos que requieren una gran capacidad de cómputo. Simultáneamente, enormes volúmenes de datos han sido dispuestos para el entrenamiento de estos modelos. Aunque la capacidad de cómputo ya no supone una restricción, la disponibilidad de volúmenes de datos puede ser un problema en algunos contextos en los cuales no siempre es factible obtener nuevos. En esta tesis se analizan modelos de ANN profundas con bases de datos tabulares pequeñas circunscritos a problemas de regresión. Una tarea de regresión se define como el mapeo de un valor numérico en referencia a una entrada también numérica. Se espera que cumpla con las siguientes características: carencia de sesgo, consistencia y eficiencia. Además, se ha propuesto una definición de base de datos pequeña para ANN a fines prácticos: la cantidad de parámetros de una ANN es una medida de su complejidad. El balance entre los parámetros y la cardinalidad del conjunto de observaciones indica que nos encontramos ante un problema de base de datos pequeña. Asimismo, se ha considerado que esta es una definición necesaria aunque perfectible. El estudio del la división del conjunto de datos en la evaluación del modelo se ha enfocado en las situaciones en las que se emplea un modelo de regresión (MR) construido con una ANN. Como contribución, se ha estudiado si el control del la división del conjunto de datos produce una estimación más precisa del error de generalización teniendo en consideración el mismo punto inicial. Con este propósito, se presenta un algoritmo evolutivo original que pueda controlar la división de los datos en función de una distancia. Otro de los aportes originales es la introducción de un algoritmo híbrido de optimización de hiperparámetros basado en recocido simulado. Con el algoritmo propuesto, se estudian algunos de los mecanismos de compensación entre los hiperparámetros que gobiernan la construcción del modelo, teniendo en consideración que esta dinámica en muchos casos es desconocida. Puede decirse finalmente que el control de la división del conjunto de datos a menudo reporta beneficios al reproducir fielmente la distribución estadística de datos. Asimismo, se observa la importancia de contar con algoritmos más refinados para la optimización de los hiperparámetros.
Artificial neural networks (ANN) have recently had a great impact on the resolution of some problems because it has been possible to implement algorithms that require a large computational capacity. Moreover, huge volumes of data have simultaneously been made available to train these models. Although computational capacity is no longer a constraint, the availability of data volumes may be a problem in some contexts where it is sometimes unfeasible to obtain new data. In this thesis, deep neural network models with small databases circumscribed to regression problems are analyzed. A regression task is defined as the mapping of a numerical value with reference to a numerical input. The following characteristics are expected to be fulfilled: unbias, consistency and efficiency. In addition, a definition of a small database for ANNs has been proposed for practical purposes: the number of parameters of an ANN is a measure of its complexity. The trade-off between the parameters and the cardinality of the set of observations indicates a small database problem. It has also been considered that this is a necessary definition, but always definition. The study of the dataset division on model evaluation is focused on situations where a regressor built with an ANN is employed. As a contribution, it has been studied whether variance control produces a more accurate estimation of the generalization error when the same starting point is considered. Consequently, an original evolutionary algorithm that makes it possible to control the division of the data according to a distance is presented. Another original contribution is the introduction of a hybrid hyperparameter optimization algorithm based on simulated annealing. The trade-off mechanisms between the hyperparameters governing the model construction are studied with the proposed algorithm, taking into consideration that these dynamics are in often cases unknown. In summary, it is benefitial to control data-set splitting in the order to reproduce faithfully the statistic data distribution. The importance of more refined algorithms for hyperparameter optimization is also noticeable.
Fil: Chiarvetto Peralta, Lucila Lourdes. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina
Materia
Redes neuronales artificiales
Ciencias de la computación
Bases de datos pequeñas
Problemas de regresión
Optimización de hiperparámetros
Algoritmo evolutivo
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
Institución
Universidad Nacional del Sur
OAI Identificador
oai:repositorio.bc.uns.edu.ar:123456789/7401

id RID-UNS_a7c0c2d671cc4b3cad395f220e2ea046
oai_identifier_str oai:repositorio.bc.uns.edu.ar:123456789/7401
network_acronym_str RID-UNS
repository_id_str
network_name_str Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
spelling Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñasChiarvetto Peralta, Lucila LourdesRedes neuronales artificialesCiencias de la computaciónBases de datos pequeñasProblemas de regresiónOptimización de hiperparámetrosAlgoritmo evolutivoLas redes neuronales artificiales (ANN: Artificial Neural Networks) recientemente han tenido un gran impacto en la resolución de algunos problemas debido a que ha sido posible la implementación de algoritmos que requieren una gran capacidad de cómputo. Simultáneamente, enormes volúmenes de datos han sido dispuestos para el entrenamiento de estos modelos. Aunque la capacidad de cómputo ya no supone una restricción, la disponibilidad de volúmenes de datos puede ser un problema en algunos contextos en los cuales no siempre es factible obtener nuevos. En esta tesis se analizan modelos de ANN profundas con bases de datos tabulares pequeñas circunscritos a problemas de regresión. Una tarea de regresión se define como el mapeo de un valor numérico en referencia a una entrada también numérica. Se espera que cumpla con las siguientes características: carencia de sesgo, consistencia y eficiencia. Además, se ha propuesto una definición de base de datos pequeña para ANN a fines prácticos: la cantidad de parámetros de una ANN es una medida de su complejidad. El balance entre los parámetros y la cardinalidad del conjunto de observaciones indica que nos encontramos ante un problema de base de datos pequeña. Asimismo, se ha considerado que esta es una definición necesaria aunque perfectible. El estudio del la división del conjunto de datos en la evaluación del modelo se ha enfocado en las situaciones en las que se emplea un modelo de regresión (MR) construido con una ANN. Como contribución, se ha estudiado si el control del la división del conjunto de datos produce una estimación más precisa del error de generalización teniendo en consideración el mismo punto inicial. Con este propósito, se presenta un algoritmo evolutivo original que pueda controlar la división de los datos en función de una distancia. Otro de los aportes originales es la introducción de un algoritmo híbrido de optimización de hiperparámetros basado en recocido simulado. Con el algoritmo propuesto, se estudian algunos de los mecanismos de compensación entre los hiperparámetros que gobiernan la construcción del modelo, teniendo en consideración que esta dinámica en muchos casos es desconocida. Puede decirse finalmente que el control de la división del conjunto de datos a menudo reporta beneficios al reproducir fielmente la distribución estadística de datos. Asimismo, se observa la importancia de contar con algoritmos más refinados para la optimización de los hiperparámetros.Artificial neural networks (ANN) have recently had a great impact on the resolution of some problems because it has been possible to implement algorithms that require a large computational capacity. Moreover, huge volumes of data have simultaneously been made available to train these models. Although computational capacity is no longer a constraint, the availability of data volumes may be a problem in some contexts where it is sometimes unfeasible to obtain new data. In this thesis, deep neural network models with small databases circumscribed to regression problems are analyzed. A regression task is defined as the mapping of a numerical value with reference to a numerical input. The following characteristics are expected to be fulfilled: unbias, consistency and efficiency. In addition, a definition of a small database for ANNs has been proposed for practical purposes: the number of parameters of an ANN is a measure of its complexity. The trade-off between the parameters and the cardinality of the set of observations indicates a small database problem. It has also been considered that this is a necessary definition, but always definition. The study of the dataset division on model evaluation is focused on situations where a regressor built with an ANN is employed. As a contribution, it has been studied whether variance control produces a more accurate estimation of the generalization error when the same starting point is considered. Consequently, an original evolutionary algorithm that makes it possible to control the division of the data according to a distance is presented. Another original contribution is the introduction of a hybrid hyperparameter optimization algorithm based on simulated annealing. The trade-off mechanisms between the hyperparameters governing the model construction are studied with the proposed algorithm, taking into consideration that these dynamics are in often cases unknown. In summary, it is benefitial to control data-set splitting in the order to reproduce faithfully the statistic data distribution. The importance of more refined algorithms for hyperparameter optimization is also noticeable.Fil: Chiarvetto Peralta, Lucila Lourdes. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; ArgentinaBrignole, Nélida Beatriz2023-12-05info:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/acceptedVersionhttp://purl.org/coar/resource_type/c_db06info:ar-repo/semantics/tesisDoctoralapplication/pdfhttps://repositoriodigital.uns.edu.ar/handle/123456789/7401spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/reponame:Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)instname:Universidad Nacional del Sur2026-01-08T10:37:13Zoai:repositorio.bc.uns.edu.ar:123456789/7401instacron:UNSInstitucionalhttp://repositoriodigital.uns.edu.ar/Universidad públicaNo correspondehttp://repositoriodigital.uns.edu.ar/oaimesnaola@uns.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:2026-01-08 10:37:13.903Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS) - Universidad Nacional del Surfalse
dc.title.none.fl_str_mv Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
title Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
spellingShingle Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
Chiarvetto Peralta, Lucila Lourdes
Redes neuronales artificiales
Ciencias de la computación
Bases de datos pequeñas
Problemas de regresión
Optimización de hiperparámetros
Algoritmo evolutivo
title_short Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
title_full Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
title_fullStr Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
title_full_unstemmed Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
title_sort Redes neuronales profundas para la resolución de problemas de regresión con bases de datos tabulares pequeñas
dc.creator.none.fl_str_mv Chiarvetto Peralta, Lucila Lourdes
author Chiarvetto Peralta, Lucila Lourdes
author_facet Chiarvetto Peralta, Lucila Lourdes
author_role author
dc.contributor.none.fl_str_mv Brignole, Nélida Beatriz
dc.subject.none.fl_str_mv Redes neuronales artificiales
Ciencias de la computación
Bases de datos pequeñas
Problemas de regresión
Optimización de hiperparámetros
Algoritmo evolutivo
topic Redes neuronales artificiales
Ciencias de la computación
Bases de datos pequeñas
Problemas de regresión
Optimización de hiperparámetros
Algoritmo evolutivo
dc.description.none.fl_txt_mv Las redes neuronales artificiales (ANN: Artificial Neural Networks) recientemente han tenido un gran impacto en la resolución de algunos problemas debido a que ha sido posible la implementación de algoritmos que requieren una gran capacidad de cómputo. Simultáneamente, enormes volúmenes de datos han sido dispuestos para el entrenamiento de estos modelos. Aunque la capacidad de cómputo ya no supone una restricción, la disponibilidad de volúmenes de datos puede ser un problema en algunos contextos en los cuales no siempre es factible obtener nuevos. En esta tesis se analizan modelos de ANN profundas con bases de datos tabulares pequeñas circunscritos a problemas de regresión. Una tarea de regresión se define como el mapeo de un valor numérico en referencia a una entrada también numérica. Se espera que cumpla con las siguientes características: carencia de sesgo, consistencia y eficiencia. Además, se ha propuesto una definición de base de datos pequeña para ANN a fines prácticos: la cantidad de parámetros de una ANN es una medida de su complejidad. El balance entre los parámetros y la cardinalidad del conjunto de observaciones indica que nos encontramos ante un problema de base de datos pequeña. Asimismo, se ha considerado que esta es una definición necesaria aunque perfectible. El estudio del la división del conjunto de datos en la evaluación del modelo se ha enfocado en las situaciones en las que se emplea un modelo de regresión (MR) construido con una ANN. Como contribución, se ha estudiado si el control del la división del conjunto de datos produce una estimación más precisa del error de generalización teniendo en consideración el mismo punto inicial. Con este propósito, se presenta un algoritmo evolutivo original que pueda controlar la división de los datos en función de una distancia. Otro de los aportes originales es la introducción de un algoritmo híbrido de optimización de hiperparámetros basado en recocido simulado. Con el algoritmo propuesto, se estudian algunos de los mecanismos de compensación entre los hiperparámetros que gobiernan la construcción del modelo, teniendo en consideración que esta dinámica en muchos casos es desconocida. Puede decirse finalmente que el control de la división del conjunto de datos a menudo reporta beneficios al reproducir fielmente la distribución estadística de datos. Asimismo, se observa la importancia de contar con algoritmos más refinados para la optimización de los hiperparámetros.
Artificial neural networks (ANN) have recently had a great impact on the resolution of some problems because it has been possible to implement algorithms that require a large computational capacity. Moreover, huge volumes of data have simultaneously been made available to train these models. Although computational capacity is no longer a constraint, the availability of data volumes may be a problem in some contexts where it is sometimes unfeasible to obtain new data. In this thesis, deep neural network models with small databases circumscribed to regression problems are analyzed. A regression task is defined as the mapping of a numerical value with reference to a numerical input. The following characteristics are expected to be fulfilled: unbias, consistency and efficiency. In addition, a definition of a small database for ANNs has been proposed for practical purposes: the number of parameters of an ANN is a measure of its complexity. The trade-off between the parameters and the cardinality of the set of observations indicates a small database problem. It has also been considered that this is a necessary definition, but always definition. The study of the dataset division on model evaluation is focused on situations where a regressor built with an ANN is employed. As a contribution, it has been studied whether variance control produces a more accurate estimation of the generalization error when the same starting point is considered. Consequently, an original evolutionary algorithm that makes it possible to control the division of the data according to a distance is presented. Another original contribution is the introduction of a hybrid hyperparameter optimization algorithm based on simulated annealing. The trade-off mechanisms between the hyperparameters governing the model construction are studied with the proposed algorithm, taking into consideration that these dynamics are in often cases unknown. In summary, it is benefitial to control data-set splitting in the order to reproduce faithfully the statistic data distribution. The importance of more refined algorithms for hyperparameter optimization is also noticeable.
Fil: Chiarvetto Peralta, Lucila Lourdes. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina
description Las redes neuronales artificiales (ANN: Artificial Neural Networks) recientemente han tenido un gran impacto en la resolución de algunos problemas debido a que ha sido posible la implementación de algoritmos que requieren una gran capacidad de cómputo. Simultáneamente, enormes volúmenes de datos han sido dispuestos para el entrenamiento de estos modelos. Aunque la capacidad de cómputo ya no supone una restricción, la disponibilidad de volúmenes de datos puede ser un problema en algunos contextos en los cuales no siempre es factible obtener nuevos. En esta tesis se analizan modelos de ANN profundas con bases de datos tabulares pequeñas circunscritos a problemas de regresión. Una tarea de regresión se define como el mapeo de un valor numérico en referencia a una entrada también numérica. Se espera que cumpla con las siguientes características: carencia de sesgo, consistencia y eficiencia. Además, se ha propuesto una definición de base de datos pequeña para ANN a fines prácticos: la cantidad de parámetros de una ANN es una medida de su complejidad. El balance entre los parámetros y la cardinalidad del conjunto de observaciones indica que nos encontramos ante un problema de base de datos pequeña. Asimismo, se ha considerado que esta es una definición necesaria aunque perfectible. El estudio del la división del conjunto de datos en la evaluación del modelo se ha enfocado en las situaciones en las que se emplea un modelo de regresión (MR) construido con una ANN. Como contribución, se ha estudiado si el control del la división del conjunto de datos produce una estimación más precisa del error de generalización teniendo en consideración el mismo punto inicial. Con este propósito, se presenta un algoritmo evolutivo original que pueda controlar la división de los datos en función de una distancia. Otro de los aportes originales es la introducción de un algoritmo híbrido de optimización de hiperparámetros basado en recocido simulado. Con el algoritmo propuesto, se estudian algunos de los mecanismos de compensación entre los hiperparámetros que gobiernan la construcción del modelo, teniendo en consideración que esta dinámica en muchos casos es desconocida. Puede decirse finalmente que el control de la división del conjunto de datos a menudo reporta beneficios al reproducir fielmente la distribución estadística de datos. Asimismo, se observa la importancia de contar con algoritmos más refinados para la optimización de los hiperparámetros.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-05
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
info:eu-repo/semantics/acceptedVersion
http://purl.org/coar/resource_type/c_db06
info:ar-repo/semantics/tesisDoctoral
format doctoralThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv https://repositoriodigital.uns.edu.ar/handle/123456789/7401
url https://repositoriodigital.uns.edu.ar/handle/123456789/7401
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
instname:Universidad Nacional del Sur
reponame_str Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
collection Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS)
instname_str Universidad Nacional del Sur
repository.name.fl_str_mv Repositorio Institucional Digital de la Universidad Nacional del Sur (RID-UNS) - Universidad Nacional del Sur
repository.mail.fl_str_mv mesnaola@uns.edu.ar
_version_ 1853758386780241920
score 13.113929