Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas

Autores
Errecalde, Marcelo Luis
Año de publicación
2001
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
El Aprendizaje por Refuerzo (en inglés Reinforcement Learning y de ahora en más AR) ataca el problema de aprender a controlar agentes autónomos, mediante interacciones por prueba y error con un ambiente dinámico desconocido, el cual le provee señales de refuerzo por cada acción que realiza. Si los objetivos del agente están definidos por la señal de refuerzo inmediata, la tarea del agente se reduce a aprender una estrategia de control (o política) que permita maximizar la recompensa acumulada a lo largo del tiempo (ver [11] para una formalización de esta tarea). El AR ha demostrado una considerable eficacia en la resolución de problemas prácticos como robótica y manufacturación industrial, permitiendo encontrar políticas de control óptimas en escenarios de aprendizaje en línea con un único agente. Otro aspecto relevante que ha suscitado el creciente interés en este área, es el hecho de que el AR está basado en un modelo matemático formal conocido como Proceso de Decisión Markoviano (MDP) que ha permitido no sólo una formalización del problema a resolver y de su solución, sino también la integración con otras áreas de Inteligencia Artificial que toman a los MDP´s como uno de sus modelos formales subyacente como por ejemplo decisiontheoretic planning. Por otra parte, en el área de Sistemas Multiagentes (SMA), gran parte de los esfuerzos estuvieron dirigidos a resolver problemas de coordinación entre agentes asumiendo que existía un conocimiento adecuado del dominio e información compartida entre los agentes. Dado que existen muchos dominios en SMA en que los agentes conocen poco sobre los otros agentes y el ambiente cambia en forma dinámica, el AR recibió un importante interés como nueva de técnica de coordinación para este tipo de situaciones [10], debido a que no necesita un modelo del ambiente y puede ser utilizado en línea. En este sentido, este trabajo analiza las limitaciones del marco teórico del AR con un único agente (MDP) cuando aplicado en SMA´s. Se describen además algunas extensiones a este formalismo surgidas del área de teoría de juegos y finalmente se presenta nuestra línea actual de investigación, orientada a aplicar estos nuevos formalismos en dominios no explorados aún por el AR en SMA, como por ejemplo el uso del AR para coordinar agentes que defienden sus intereses personales.
Eje: Inteligencia Artificial Distribuida, Aspectos Teóricos de la Inteligencia Artificial y Teoría de la Computación
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
Teóricos del Aprendizaje
Theory of Computation
Refuerzo Multiagente
ARTIFICIAL INTELLIGENCE
Distributed Systems
Limitaciones y perspectivas
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/21638

id SEDICI_8c33c7032b29e2c3f7a3eb1312686a40
oai_identifier_str oai:sedici.unlp.edu.ar:10915/21638
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivasErrecalde, Marcelo LuisCiencias InformáticasTeóricos del AprendizajeTheory of ComputationRefuerzo MultiagenteARTIFICIAL INTELLIGENCEDistributed SystemsLimitaciones y perspectivasEl Aprendizaje por Refuerzo (en inglés Reinforcement Learning y de ahora en más AR) ataca el problema de aprender a controlar agentes autónomos, mediante interacciones por prueba y error con un ambiente dinámico desconocido, el cual le provee señales de refuerzo por cada acción que realiza. Si los objetivos del agente están definidos por la señal de refuerzo inmediata, la tarea del agente se reduce a aprender una estrategia de control (o política) que permita maximizar la recompensa acumulada a lo largo del tiempo (ver [11] para una formalización de esta tarea). El AR ha demostrado una considerable eficacia en la resolución de problemas prácticos como robótica y manufacturación industrial, permitiendo encontrar políticas de control óptimas en escenarios de aprendizaje en línea con un único agente. Otro aspecto relevante que ha suscitado el creciente interés en este área, es el hecho de que el AR está basado en un modelo matemático formal conocido como Proceso de Decisión Markoviano (MDP) que ha permitido no sólo una formalización del problema a resolver y de su solución, sino también la integración con otras áreas de Inteligencia Artificial que toman a los MDP´s como uno de sus modelos formales subyacente como por ejemplo decisiontheoretic planning. Por otra parte, en el área de Sistemas Multiagentes (SMA), gran parte de los esfuerzos estuvieron dirigidos a resolver problemas de coordinación entre agentes asumiendo que existía un conocimiento adecuado del dominio e información compartida entre los agentes. Dado que existen muchos dominios en SMA en que los agentes conocen poco sobre los otros agentes y el ambiente cambia en forma dinámica, el AR recibió un importante interés como nueva de técnica de coordinación para este tipo de situaciones [10], debido a que no necesita un modelo del ambiente y puede ser utilizado en línea. En este sentido, este trabajo analiza las limitaciones del marco teórico del AR con un único agente (MDP) cuando aplicado en SMA´s. Se describen además algunas extensiones a este formalismo surgidas del área de teoría de juegos y finalmente se presenta nuestra línea actual de investigación, orientada a aplicar estos nuevos formalismos en dominios no explorados aún por el AR en SMA, como por ejemplo el uso del AR para coordinar agentes que defienden sus intereses personales.Eje: Inteligencia Artificial Distribuida, Aspectos Teóricos de la Inteligencia Artificial y Teoría de la ComputaciónRed de Universidades con Carreras en Informática (RedUNCI)2001-05info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/21638spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T10:54:43Zoai:sedici.unlp.edu.ar:10915/21638Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 10:54:43.254SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
title Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
spellingShingle Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
Errecalde, Marcelo Luis
Ciencias Informáticas
Teóricos del Aprendizaje
Theory of Computation
Refuerzo Multiagente
ARTIFICIAL INTELLIGENCE
Distributed Systems
Limitaciones y perspectivas
title_short Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
title_full Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
title_fullStr Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
title_full_unstemmed Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
title_sort Marcos teóricos del aprendizaje por refuerzo multiagente : Limitaciones y perspectivas
dc.creator.none.fl_str_mv Errecalde, Marcelo Luis
author Errecalde, Marcelo Luis
author_facet Errecalde, Marcelo Luis
author_role author
dc.subject.none.fl_str_mv Ciencias Informáticas
Teóricos del Aprendizaje
Theory of Computation
Refuerzo Multiagente
ARTIFICIAL INTELLIGENCE
Distributed Systems
Limitaciones y perspectivas
topic Ciencias Informáticas
Teóricos del Aprendizaje
Theory of Computation
Refuerzo Multiagente
ARTIFICIAL INTELLIGENCE
Distributed Systems
Limitaciones y perspectivas
dc.description.none.fl_txt_mv El Aprendizaje por Refuerzo (en inglés Reinforcement Learning y de ahora en más AR) ataca el problema de aprender a controlar agentes autónomos, mediante interacciones por prueba y error con un ambiente dinámico desconocido, el cual le provee señales de refuerzo por cada acción que realiza. Si los objetivos del agente están definidos por la señal de refuerzo inmediata, la tarea del agente se reduce a aprender una estrategia de control (o política) que permita maximizar la recompensa acumulada a lo largo del tiempo (ver [11] para una formalización de esta tarea). El AR ha demostrado una considerable eficacia en la resolución de problemas prácticos como robótica y manufacturación industrial, permitiendo encontrar políticas de control óptimas en escenarios de aprendizaje en línea con un único agente. Otro aspecto relevante que ha suscitado el creciente interés en este área, es el hecho de que el AR está basado en un modelo matemático formal conocido como Proceso de Decisión Markoviano (MDP) que ha permitido no sólo una formalización del problema a resolver y de su solución, sino también la integración con otras áreas de Inteligencia Artificial que toman a los MDP´s como uno de sus modelos formales subyacente como por ejemplo decisiontheoretic planning. Por otra parte, en el área de Sistemas Multiagentes (SMA), gran parte de los esfuerzos estuvieron dirigidos a resolver problemas de coordinación entre agentes asumiendo que existía un conocimiento adecuado del dominio e información compartida entre los agentes. Dado que existen muchos dominios en SMA en que los agentes conocen poco sobre los otros agentes y el ambiente cambia en forma dinámica, el AR recibió un importante interés como nueva de técnica de coordinación para este tipo de situaciones [10], debido a que no necesita un modelo del ambiente y puede ser utilizado en línea. En este sentido, este trabajo analiza las limitaciones del marco teórico del AR con un único agente (MDP) cuando aplicado en SMA´s. Se describen además algunas extensiones a este formalismo surgidas del área de teoría de juegos y finalmente se presenta nuestra línea actual de investigación, orientada a aplicar estos nuevos formalismos en dominios no explorados aún por el AR en SMA, como por ejemplo el uso del AR para coordinar agentes que defienden sus intereses personales.
Eje: Inteligencia Artificial Distribuida, Aspectos Teóricos de la Inteligencia Artificial y Teoría de la Computación
Red de Universidades con Carreras en Informática (RedUNCI)
description El Aprendizaje por Refuerzo (en inglés Reinforcement Learning y de ahora en más AR) ataca el problema de aprender a controlar agentes autónomos, mediante interacciones por prueba y error con un ambiente dinámico desconocido, el cual le provee señales de refuerzo por cada acción que realiza. Si los objetivos del agente están definidos por la señal de refuerzo inmediata, la tarea del agente se reduce a aprender una estrategia de control (o política) que permita maximizar la recompensa acumulada a lo largo del tiempo (ver [11] para una formalización de esta tarea). El AR ha demostrado una considerable eficacia en la resolución de problemas prácticos como robótica y manufacturación industrial, permitiendo encontrar políticas de control óptimas en escenarios de aprendizaje en línea con un único agente. Otro aspecto relevante que ha suscitado el creciente interés en este área, es el hecho de que el AR está basado en un modelo matemático formal conocido como Proceso de Decisión Markoviano (MDP) que ha permitido no sólo una formalización del problema a resolver y de su solución, sino también la integración con otras áreas de Inteligencia Artificial que toman a los MDP´s como uno de sus modelos formales subyacente como por ejemplo decisiontheoretic planning. Por otra parte, en el área de Sistemas Multiagentes (SMA), gran parte de los esfuerzos estuvieron dirigidos a resolver problemas de coordinación entre agentes asumiendo que existía un conocimiento adecuado del dominio e información compartida entre los agentes. Dado que existen muchos dominios en SMA en que los agentes conocen poco sobre los otros agentes y el ambiente cambia en forma dinámica, el AR recibió un importante interés como nueva de técnica de coordinación para este tipo de situaciones [10], debido a que no necesita un modelo del ambiente y puede ser utilizado en línea. En este sentido, este trabajo analiza las limitaciones del marco teórico del AR con un único agente (MDP) cuando aplicado en SMA´s. Se describen además algunas extensiones a este formalismo surgidas del área de teoría de juegos y finalmente se presenta nuestra línea actual de investigación, orientada a aplicar estos nuevos formalismos en dominios no explorados aún por el AR en SMA, como por ejemplo el uso del AR para coordinar agentes que defienden sus intereses personales.
publishDate 2001
dc.date.none.fl_str_mv 2001-05
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/21638
url http://sedici.unlp.edu.ar/handle/10915/21638
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844615805104291840
score 13.070432