Explorando las dinámicas de AI Safety vía debate
- Autores
- Ruzak, Emanuel Pablo
- Año de publicación
- 2024
- Idioma
- español castellano
- Tipo de recurso
- tesis de grado
- Estado
- versión publicada
- Colaborador/a o director/a de tesis
- Abriola, Sergio Alejandro
- Descripción
- El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.
The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset.
Fil: Ruzak, Emanuel Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. - Materia
-
AI SAFETY
ALIGNMENT
MODELOS DE LENGUAJE
MODELOS DE IMAGENES
REINFORCEMENT LEARNING
AI SAFETY
ALIGNMENT
LANGUAGE MODELS
IMAGE MODELS
REINFORCEMENT LEARNING - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar
- Repositorio
- Institución
- Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
- OAI Identificador
- seminario:seminario_nDAT000003_Ruzak
Ver los metadatos del registro completo
id |
BDUBAFCEN_1dd227fdc6213dec3ae71ba130282659 |
---|---|
oai_identifier_str |
seminario:seminario_nDAT000003_Ruzak |
network_acronym_str |
BDUBAFCEN |
repository_id_str |
1896 |
network_name_str |
Biblioteca Digital (UBA-FCEN) |
spelling |
Explorando las dinámicas de AI Safety vía debateExploring the dynamics of AI Safety via debateRuzak, Emanuel PabloAI SAFETYALIGNMENTMODELOS DE LENGUAJEMODELOS DE IMAGENESREINFORCEMENT LEARNINGAI SAFETYALIGNMENTLANGUAGE MODELSIMAGE MODELSREINFORCEMENT LEARNINGEl desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset.Fil: Ruzak, Emanuel Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesAbriola, Sergio Alejandro2024-12-11info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzakspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:32Zseminario:seminario_nDAT000003_RuzakInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:33.572Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse |
dc.title.none.fl_str_mv |
Explorando las dinámicas de AI Safety vía debate Exploring the dynamics of AI Safety via debate |
title |
Explorando las dinámicas de AI Safety vía debate |
spellingShingle |
Explorando las dinámicas de AI Safety vía debate Ruzak, Emanuel Pablo AI SAFETY ALIGNMENT MODELOS DE LENGUAJE MODELOS DE IMAGENES REINFORCEMENT LEARNING AI SAFETY ALIGNMENT LANGUAGE MODELS IMAGE MODELS REINFORCEMENT LEARNING |
title_short |
Explorando las dinámicas de AI Safety vía debate |
title_full |
Explorando las dinámicas de AI Safety vía debate |
title_fullStr |
Explorando las dinámicas de AI Safety vía debate |
title_full_unstemmed |
Explorando las dinámicas de AI Safety vía debate |
title_sort |
Explorando las dinámicas de AI Safety vía debate |
dc.creator.none.fl_str_mv |
Ruzak, Emanuel Pablo |
author |
Ruzak, Emanuel Pablo |
author_facet |
Ruzak, Emanuel Pablo |
author_role |
author |
dc.contributor.none.fl_str_mv |
Abriola, Sergio Alejandro |
dc.subject.none.fl_str_mv |
AI SAFETY ALIGNMENT MODELOS DE LENGUAJE MODELOS DE IMAGENES REINFORCEMENT LEARNING AI SAFETY ALIGNMENT LANGUAGE MODELS IMAGE MODELS REINFORCEMENT LEARNING |
topic |
AI SAFETY ALIGNMENT MODELOS DE LENGUAJE MODELOS DE IMAGENES REINFORCEMENT LEARNING AI SAFETY ALIGNMENT LANGUAGE MODELS IMAGE MODELS REINFORCEMENT LEARNING |
dc.description.none.fl_txt_mv |
El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY. The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset. Fil: Ruzak, Emanuel Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. |
description |
El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-12-11 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion http://purl.org/coar/resource_type/c_7a1f info:ar-repo/semantics/tesisDeGrado |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak |
url |
https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publisher.none.fl_str_mv |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital (UBA-FCEN) instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales instacron:UBA-FCEN |
reponame_str |
Biblioteca Digital (UBA-FCEN) |
collection |
Biblioteca Digital (UBA-FCEN) |
instname_str |
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
instacron_str |
UBA-FCEN |
institution |
UBA-FCEN |
repository.name.fl_str_mv |
Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
repository.mail.fl_str_mv |
ana@bl.fcen.uba.ar |
_version_ |
1844618752887357440 |
score |
13.070432 |