Reinforcement Learning para la optimización de sistemas basados en energía marina

Autores
Balaguer, Juan Facundo
Año de publicación
2026
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión aceptada
Colaborador/a o director/a de tesis
Puleston, Pablo Federico
Evangelista, Carolina Alejandra
Descripción
La enorme disponibilidad de energía procedente del movimiento de las olas del mar la ha convertido en una fuente relevante en el contexto ambiental y político actual. Aunque hay más de medio siglo de antecedentes de investigación y desarrollo en la conversión de la energía de las olas en otras formas de energía, aún queda un largo camino por recorrer para que esta pueda competir con otras alternativas. A medida que los modelos hidrodinámicos se vuelven cada vez más precisos, los objetivos se tornan cada vez más ambiciosos, dado que permiten extraer más energía, pero también se consideran la durabilidad, el costo, la ubicación, el impacto ambiental y el impacto social. Sin embargo, esto plantea desafíos crecientes para el diseño de controladores a medida que los modelos se vuelven más complejos y no lineales. Ante este problema, en contextos similares, los controladores basados en datos han proporcionado resultados notables, demostrando ser una valiosa alternativa al enfoque basado exclusivamente en primeros principios. En esta tesis se propone un agente entrenado con Reinforcement Learning (RL) con una red neuronal artificial (ANN) que aprende a partir de interactuar con el sistema, con el objetivo de maximizar la extracción de energía. Más concretamente, se presenta una implementación del algoritmo \textit{Deep Q-Learning} para el entrenamiento en un entorno simulado que imita la dinámica de una versión a escala 1:20 del modelo Wave Star. Además, se describen herramientas específicas para la aplicación, cuyo objetivo es garantizar la convergencia tanto de la ANN como del algoritmo de RL. Por último, se entrenó a un grupo reducido de agentes con diferentes valores de hiperparámetros, lo que resultó en valores promedio de extracción de energía ligeramente variados. En general, los resultados mostraron que los agentes entrenados extraían energía con éxito, además de alcanzar la convergencia en todas las instancias de entrenamiento. No obstante, se observa un margen de mejora al comparar el mejor agente entrenado con un controlador subóptimo dado. Por lo tanto, se discuten futuras líneas de investigación en relación con los resultados obtenidos.
The vast availability of energy from ocean wave motion has made it a relevant source in the current environmental and political context. Even though there is more than half a century of research and development history of converting wave energy into some other form, there is still a long way to go for it to compete with other alternative sources of energy. As hydrodynamic models get progressively more accurate, the goals and objectives have become increasingly more ambitious as more energy is able to be extracted, but also as durability, cost, location and environmental impact, as well as social impact, are taken into consideration. However, this poses growing challenges for controller design as the models get more complex and nonlinear. Given the issue at hand, in similar contexts, data-driven controllers have provided remarkable results, proving to be a valuable alternative to the pure first-principles approach. In this thesis, a reinforcement learning (RL) agent with an artificial neural network (ANN) is proposed that learns from interacting with the system, seeking to maximize energy extraction. In particular, an implementation of the Deep Q-Learning algorithm is presented for training in a simulated environment that mimics the dynamics of a 1:20 scaled version of the Wave Star prototype. Additionally, application-specific tools are described, which aim at ensuring convergence of both the ANN and the RL algorithm. Lastly, a handful of agents are trained with different hyperparameter values, resulting on slightly varied average energy generation values. On the whole, the results showed the trained agents successfully extracting energy as well as convergence in every training instance. Nonetheless, room for improvement is noticed when the best-trained agent is compared with a given sub-optimal controller. Therefore, future research directions are discussed in relation to the obtained results.
Ingeniero Electrónico
Universidad Nacional de La Plata
Facultad de Ingeniería
Materia
Ingeniería Electrónica
Control automático
Reinforcement Learning
Energía Marina
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/192832

id SEDICI_03f52ef505469cfbcc70cdc388762247
oai_identifier_str oai:sedici.unlp.edu.ar:10915/192832
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Reinforcement Learning para la optimización de sistemas basados en energía marinaBalaguer, Juan FacundoIngeniería ElectrónicaControl automáticoReinforcement LearningEnergía MarinaLa enorme disponibilidad de energía procedente del movimiento de las olas del mar la ha convertido en una fuente relevante en el contexto ambiental y político actual. Aunque hay más de medio siglo de antecedentes de investigación y desarrollo en la conversión de la energía de las olas en otras formas de energía, aún queda un largo camino por recorrer para que esta pueda competir con otras alternativas. A medida que los modelos hidrodinámicos se vuelven cada vez más precisos, los objetivos se tornan cada vez más ambiciosos, dado que permiten extraer más energía, pero también se consideran la durabilidad, el costo, la ubicación, el impacto ambiental y el impacto social. Sin embargo, esto plantea desafíos crecientes para el diseño de controladores a medida que los modelos se vuelven más complejos y no lineales. Ante este problema, en contextos similares, los controladores basados en datos han proporcionado resultados notables, demostrando ser una valiosa alternativa al enfoque basado exclusivamente en primeros principios. En esta tesis se propone un agente entrenado con Reinforcement Learning (RL) con una red neuronal artificial (ANN) que aprende a partir de interactuar con el sistema, con el objetivo de maximizar la extracción de energía. Más concretamente, se presenta una implementación del algoritmo \textit{Deep Q-Learning} para el entrenamiento en un entorno simulado que imita la dinámica de una versión a escala 1:20 del modelo Wave Star. Además, se describen herramientas específicas para la aplicación, cuyo objetivo es garantizar la convergencia tanto de la ANN como del algoritmo de RL. Por último, se entrenó a un grupo reducido de agentes con diferentes valores de hiperparámetros, lo que resultó en valores promedio de extracción de energía ligeramente variados. En general, los resultados mostraron que los agentes entrenados extraían energía con éxito, además de alcanzar la convergencia en todas las instancias de entrenamiento. No obstante, se observa un margen de mejora al comparar el mejor agente entrenado con un controlador subóptimo dado. Por lo tanto, se discuten futuras líneas de investigación en relación con los resultados obtenidos.The vast availability of energy from ocean wave motion has made it a relevant source in the current environmental and political context. Even though there is more than half a century of research and development history of converting wave energy into some other form, there is still a long way to go for it to compete with other alternative sources of energy. As hydrodynamic models get progressively more accurate, the goals and objectives have become increasingly more ambitious as more energy is able to be extracted, but also as durability, cost, location and environmental impact, as well as social impact, are taken into consideration. However, this poses growing challenges for controller design as the models get more complex and nonlinear. Given the issue at hand, in similar contexts, data-driven controllers have provided remarkable results, proving to be a valuable alternative to the pure first-principles approach. In this thesis, a reinforcement learning (RL) agent with an artificial neural network (ANN) is proposed that learns from interacting with the system, seeking to maximize energy extraction. In particular, an implementation of the Deep Q-Learning algorithm is presented for training in a simulated environment that mimics the dynamics of a 1:20 scaled version of the Wave Star prototype. Additionally, application-specific tools are described, which aim at ensuring convergence of both the ANN and the RL algorithm. Lastly, a handful of agents are trained with different hyperparameter values, resulting on slightly varied average energy generation values. On the whole, the results showed the trained agents successfully extracting energy as well as convergence in every training instance. Nonetheless, room for improvement is noticed when the best-trained agent is compared with a given sub-optimal controller. Therefore, future research directions are discussed in relation to the obtained results.Ingeniero ElectrónicoUniversidad Nacional de La PlataFacultad de IngenieríaPuleston, Pablo FedericoEvangelista, Carolina Alejandra2026-03-26info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/acceptedVersionTesis de gradohttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/192832spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Creative Commons Attribution 4.0 International (CC BY 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-04-23T11:56:00Zoai:sedici.unlp.edu.ar:10915/192832Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-04-23 11:56:00.805SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Reinforcement Learning para la optimización de sistemas basados en energía marina
title Reinforcement Learning para la optimización de sistemas basados en energía marina
spellingShingle Reinforcement Learning para la optimización de sistemas basados en energía marina
Balaguer, Juan Facundo
Ingeniería Electrónica
Control automático
Reinforcement Learning
Energía Marina
title_short Reinforcement Learning para la optimización de sistemas basados en energía marina
title_full Reinforcement Learning para la optimización de sistemas basados en energía marina
title_fullStr Reinforcement Learning para la optimización de sistemas basados en energía marina
title_full_unstemmed Reinforcement Learning para la optimización de sistemas basados en energía marina
title_sort Reinforcement Learning para la optimización de sistemas basados en energía marina
dc.creator.none.fl_str_mv Balaguer, Juan Facundo
author Balaguer, Juan Facundo
author_facet Balaguer, Juan Facundo
author_role author
dc.contributor.none.fl_str_mv Puleston, Pablo Federico
Evangelista, Carolina Alejandra
dc.subject.none.fl_str_mv Ingeniería Electrónica
Control automático
Reinforcement Learning
Energía Marina
topic Ingeniería Electrónica
Control automático
Reinforcement Learning
Energía Marina
dc.description.none.fl_txt_mv La enorme disponibilidad de energía procedente del movimiento de las olas del mar la ha convertido en una fuente relevante en el contexto ambiental y político actual. Aunque hay más de medio siglo de antecedentes de investigación y desarrollo en la conversión de la energía de las olas en otras formas de energía, aún queda un largo camino por recorrer para que esta pueda competir con otras alternativas. A medida que los modelos hidrodinámicos se vuelven cada vez más precisos, los objetivos se tornan cada vez más ambiciosos, dado que permiten extraer más energía, pero también se consideran la durabilidad, el costo, la ubicación, el impacto ambiental y el impacto social. Sin embargo, esto plantea desafíos crecientes para el diseño de controladores a medida que los modelos se vuelven más complejos y no lineales. Ante este problema, en contextos similares, los controladores basados en datos han proporcionado resultados notables, demostrando ser una valiosa alternativa al enfoque basado exclusivamente en primeros principios. En esta tesis se propone un agente entrenado con Reinforcement Learning (RL) con una red neuronal artificial (ANN) que aprende a partir de interactuar con el sistema, con el objetivo de maximizar la extracción de energía. Más concretamente, se presenta una implementación del algoritmo \textit{Deep Q-Learning} para el entrenamiento en un entorno simulado que imita la dinámica de una versión a escala 1:20 del modelo Wave Star. Además, se describen herramientas específicas para la aplicación, cuyo objetivo es garantizar la convergencia tanto de la ANN como del algoritmo de RL. Por último, se entrenó a un grupo reducido de agentes con diferentes valores de hiperparámetros, lo que resultó en valores promedio de extracción de energía ligeramente variados. En general, los resultados mostraron que los agentes entrenados extraían energía con éxito, además de alcanzar la convergencia en todas las instancias de entrenamiento. No obstante, se observa un margen de mejora al comparar el mejor agente entrenado con un controlador subóptimo dado. Por lo tanto, se discuten futuras líneas de investigación en relación con los resultados obtenidos.
The vast availability of energy from ocean wave motion has made it a relevant source in the current environmental and political context. Even though there is more than half a century of research and development history of converting wave energy into some other form, there is still a long way to go for it to compete with other alternative sources of energy. As hydrodynamic models get progressively more accurate, the goals and objectives have become increasingly more ambitious as more energy is able to be extracted, but also as durability, cost, location and environmental impact, as well as social impact, are taken into consideration. However, this poses growing challenges for controller design as the models get more complex and nonlinear. Given the issue at hand, in similar contexts, data-driven controllers have provided remarkable results, proving to be a valuable alternative to the pure first-principles approach. In this thesis, a reinforcement learning (RL) agent with an artificial neural network (ANN) is proposed that learns from interacting with the system, seeking to maximize energy extraction. In particular, an implementation of the Deep Q-Learning algorithm is presented for training in a simulated environment that mimics the dynamics of a 1:20 scaled version of the Wave Star prototype. Additionally, application-specific tools are described, which aim at ensuring convergence of both the ANN and the RL algorithm. Lastly, a handful of agents are trained with different hyperparameter values, resulting on slightly varied average energy generation values. On the whole, the results showed the trained agents successfully extracting energy as well as convergence in every training instance. Nonetheless, room for improvement is noticed when the best-trained agent is compared with a given sub-optimal controller. Therefore, future research directions are discussed in relation to the obtained results.
Ingeniero Electrónico
Universidad Nacional de La Plata
Facultad de Ingeniería
description La enorme disponibilidad de energía procedente del movimiento de las olas del mar la ha convertido en una fuente relevante en el contexto ambiental y político actual. Aunque hay más de medio siglo de antecedentes de investigación y desarrollo en la conversión de la energía de las olas en otras formas de energía, aún queda un largo camino por recorrer para que esta pueda competir con otras alternativas. A medida que los modelos hidrodinámicos se vuelven cada vez más precisos, los objetivos se tornan cada vez más ambiciosos, dado que permiten extraer más energía, pero también se consideran la durabilidad, el costo, la ubicación, el impacto ambiental y el impacto social. Sin embargo, esto plantea desafíos crecientes para el diseño de controladores a medida que los modelos se vuelven más complejos y no lineales. Ante este problema, en contextos similares, los controladores basados en datos han proporcionado resultados notables, demostrando ser una valiosa alternativa al enfoque basado exclusivamente en primeros principios. En esta tesis se propone un agente entrenado con Reinforcement Learning (RL) con una red neuronal artificial (ANN) que aprende a partir de interactuar con el sistema, con el objetivo de maximizar la extracción de energía. Más concretamente, se presenta una implementación del algoritmo \textit{Deep Q-Learning} para el entrenamiento en un entorno simulado que imita la dinámica de una versión a escala 1:20 del modelo Wave Star. Además, se describen herramientas específicas para la aplicación, cuyo objetivo es garantizar la convergencia tanto de la ANN como del algoritmo de RL. Por último, se entrenó a un grupo reducido de agentes con diferentes valores de hiperparámetros, lo que resultó en valores promedio de extracción de energía ligeramente variados. En general, los resultados mostraron que los agentes entrenados extraían energía con éxito, además de alcanzar la convergencia en todas las instancias de entrenamiento. No obstante, se observa un margen de mejora al comparar el mejor agente entrenado con un controlador subóptimo dado. Por lo tanto, se discuten futuras líneas de investigación en relación con los resultados obtenidos.
publishDate 2026
dc.date.none.fl_str_mv 2026-03-26
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/acceptedVersion
Tesis de grado
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str acceptedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/192832
url http://sedici.unlp.edu.ar/handle/10915/192832
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1863367889595138048
score 13.05261