Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios

Autores
Errecalde, Marcelo Luis; Muchut, Alfredo
Año de publicación
2001
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.
Eje: Sistemas inteligentes
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
ARBM (Aprendizaje por Refuerzo Basado en Modelo)
Intelligent agents
Learning
aprendizaje por refuerzo
ARTIFICIAL INTELLIGENCE
modelos
arquitectura Dyna
heurística
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/23400

id SEDICI_91de538dfef6265f6d3e18607367289e
oai_identifier_str oai:sedici.unlp.edu.ar:10915/23400
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionariosErrecalde, Marcelo LuisMuchut, AlfredoCiencias InformáticasARBM (Aprendizaje por Refuerzo Basado en Modelo)Intelligent agentsLearningaprendizaje por refuerzoARTIFICIAL INTELLIGENCEmodelosarquitectura DynaheurísticaEl Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.Eje: Sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI)2001-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/23400spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-03T10:28:12Zoai:sedici.unlp.edu.ar:10915/23400Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-03 10:28:13.154SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
spellingShingle Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
Errecalde, Marcelo Luis
Ciencias Informáticas
ARBM (Aprendizaje por Refuerzo Basado en Modelo)
Intelligent agents
Learning
aprendizaje por refuerzo
ARTIFICIAL INTELLIGENCE
modelos
arquitectura Dyna
heurística
title_short Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_full Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_fullStr Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_full_unstemmed Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
title_sort Exploración dirigida por el objetivo en Aprendizaje por Refuerzo Basado en Modelo para ambientes no estacionarios
dc.creator.none.fl_str_mv Errecalde, Marcelo Luis
Muchut, Alfredo
author Errecalde, Marcelo Luis
author_facet Errecalde, Marcelo Luis
Muchut, Alfredo
author_role author
author2 Muchut, Alfredo
author2_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
ARBM (Aprendizaje por Refuerzo Basado en Modelo)
Intelligent agents
Learning
aprendizaje por refuerzo
ARTIFICIAL INTELLIGENCE
modelos
arquitectura Dyna
heurística
topic Ciencias Informáticas
ARBM (Aprendizaje por Refuerzo Basado en Modelo)
Intelligent agents
Learning
aprendizaje por refuerzo
ARTIFICIAL INTELLIGENCE
modelos
arquitectura Dyna
heurística
dc.description.none.fl_txt_mv El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.
Eje: Sistemas inteligentes
Red de Universidades con Carreras en Informática (RedUNCI)
description El Aprendizaje por Refuerzo Basado en Modelo (ARBM) es una extensión al Aprendizaje por Refuerzo tradicional en la que el agente aprende una política (comportamiento), y en forma simultánea aprende un modelo de su ambiente. Distintos estudios han mostrado la superioridad de los métodos de ARBM sobre los métodos libres de Modelo en ambientes estacionarios. Sin embargo, existen serias dificultades para adaptar los métodos de ARBM a ambientes no estacionarios, existiendo actualmente un único método -la arquitectura Dyna con Bono de exploración- que empíricamente ha demostrado su adaptabilidad a los cambios ambientales. En este sentido, este paper presenta una extensión a esta arquitectura, manteniendo información relativa al estado objetivo, y definiendo una nueva heurística de exploración que, en base a esta información, permite concentrar la actividad del agente en las zonas más relevantes del problema. Los resultados experimentales obtenidos con distintas instancias de ambientes estacionarios y no estacionarios sustentan la factibilidad de nuestra propuesta observándose una mejora de performance significativa con respecto a la arquitectura Dyna original.
publishDate 2001
dc.date.none.fl_str_mv 2001-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/23400
url http://sedici.unlp.edu.ar/handle/10915/23400
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1842260121114116096
score 13.13397