Explorando las dinámicas de AI Safety vía debate

Autores
Ruzak, Emanuel Pablo
Año de publicación
2024
Idioma
español castellano
Tipo de recurso
tesis de grado
Estado
versión publicada
Colaborador/a o director/a de tesis
Abriola, Sergio Alejandro
Descripción
El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.
The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset.
Fil: Ruzak, Emanuel Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
Materia
AI SAFETY
ALIGNMENT
MODELOS DE LENGUAJE
MODELOS DE IMAGENES
REINFORCEMENT LEARNING
AI SAFETY
ALIGNMENT
LANGUAGE MODELS
IMAGE MODELS
REINFORCEMENT LEARNING
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
Repositorio
Biblioteca Digital (UBA-FCEN)
Institución
Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
OAI Identificador
seminario:seminario_nDAT000003_Ruzak

id BDUBAFCEN_1dd227fdc6213dec3ae71ba130282659
oai_identifier_str seminario:seminario_nDAT000003_Ruzak
network_acronym_str BDUBAFCEN
repository_id_str 1896
network_name_str Biblioteca Digital (UBA-FCEN)
spelling Explorando las dinámicas de AI Safety vía debateExploring the dynamics of AI Safety via debateRuzak, Emanuel PabloAI SAFETYALIGNMENTMODELOS DE LENGUAJEMODELOS DE IMAGENESREINFORCEMENT LEARNINGAI SAFETYALIGNMENTLANGUAGE MODELSIMAGE MODELSREINFORCEMENT LEARNINGEl desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset.Fil: Ruzak, Emanuel Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.Universidad de Buenos Aires. Facultad de Ciencias Exactas y NaturalesAbriola, Sergio Alejandro2024-12-11info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_7a1finfo:ar-repo/semantics/tesisDeGradoapplication/pdfhttps://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzakspainfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/arreponame:Biblioteca Digital (UBA-FCEN)instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesinstacron:UBA-FCEN2025-09-29T13:43:32Zseminario:seminario_nDAT000003_RuzakInstitucionalhttps://digital.bl.fcen.uba.ar/Universidad públicaNo correspondehttps://digital.bl.fcen.uba.ar/cgi-bin/oaiserver.cgiana@bl.fcen.uba.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:18962025-09-29 13:43:33.572Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturalesfalse
dc.title.none.fl_str_mv Explorando las dinámicas de AI Safety vía debate
Exploring the dynamics of AI Safety via debate
title Explorando las dinámicas de AI Safety vía debate
spellingShingle Explorando las dinámicas de AI Safety vía debate
Ruzak, Emanuel Pablo
AI SAFETY
ALIGNMENT
MODELOS DE LENGUAJE
MODELOS DE IMAGENES
REINFORCEMENT LEARNING
AI SAFETY
ALIGNMENT
LANGUAGE MODELS
IMAGE MODELS
REINFORCEMENT LEARNING
title_short Explorando las dinámicas de AI Safety vía debate
title_full Explorando las dinámicas de AI Safety vía debate
title_fullStr Explorando las dinámicas de AI Safety vía debate
title_full_unstemmed Explorando las dinámicas de AI Safety vía debate
title_sort Explorando las dinámicas de AI Safety vía debate
dc.creator.none.fl_str_mv Ruzak, Emanuel Pablo
author Ruzak, Emanuel Pablo
author_facet Ruzak, Emanuel Pablo
author_role author
dc.contributor.none.fl_str_mv Abriola, Sergio Alejandro
dc.subject.none.fl_str_mv AI SAFETY
ALIGNMENT
MODELOS DE LENGUAJE
MODELOS DE IMAGENES
REINFORCEMENT LEARNING
AI SAFETY
ALIGNMENT
LANGUAGE MODELS
IMAGE MODELS
REINFORCEMENT LEARNING
topic AI SAFETY
ALIGNMENT
MODELOS DE LENGUAJE
MODELOS DE IMAGENES
REINFORCEMENT LEARNING
AI SAFETY
ALIGNMENT
LANGUAGE MODELS
IMAGE MODELS
REINFORCEMENT LEARNING
dc.description.none.fl_txt_mv El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.
The development of Artificial Intelligence (AI) systems capable of understanding and executing complex tasks requires that these systems learn sophisticated human goals and preferences that we do not know how to specify formally. Additionally, phenomena like reward hacking or misgeneralization are predictable outcomes of current training methods, even in the presence of good specifications. Debate, as proposed in the article AI Safety via Debate, is a promising alignment technique that seeks to train honest AI systems by having them produce arguments through a zero-sum game where two agents argue over a proposed question or action, and a human judge evaluates the truthfulness and usefulness of the information provided. This work focuses on empirically exploring the argumentative dynamics between AI agents and a judge (also implemented as another AI system). To this end, experiments were conducted to analyze the feasibility of weak agents providing supervisory signals for training stronger agents using the debate method. In one experiment, an image classifier was used, where two agents, modeled using Monte-Carlo Tree Search (MCTS), selected pixels each turn with the goal of obtaining a classification as an odd or even number, respectively. In another experiment, large language models (LLMs) were used in a debate where two agents took turns providing arguments using text passages. One agent tried to convince the judge, consisting of another LLM, of a correct answer, while the other argued for an incorrect answer to a multiple-choice question, using a modified version of the QuALITY dataset.
Fil: Ruzak, Emanuel Pablo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.
description El desarrollo de sistemas de inteligencia artificial (IA) capaces de comprender y ejecutar tareas complejas requiere que estos sistemas aprendan objetivos y preferencias humanas sofisticadas que no sabemos especificar formalmente. Además, fenómenos como reward hacking o malgeneralización son el resultado esperable de los métodos de entrenamiento actuales, incluso ante la presencia de buenas especificaciones. El debate, como se propone en el artículo AI safety vía debate, es una técnica prometedora de alineamiento que intenta entrenar sistemas de IA honestos, haciendo que produzcan argumentos a través de un juego de suma cero donde dos agentes argumentan sobre una pregunta o acción propuesta, y un juez humano evalúa la veracidad y utilidad de la información proporcionada. Este trabajo se centra en explorar empíricamente las dinámicas argumentativas entre agentes de IA y un juez (también implementado como otro sistema de IA). Para esto se llevaron a cabo experimentos donde se analiza la factibilidad de que agentes débiles den señales de supervisión para el entrenamiento de agentes más fuertes utilizando el método del debate. En uno de los experimentos se utilizó un clasificador de imágenes, en el que dos agentes, modelados utilizando MCTS (Monte-Carlo Tree Search), seleccionaron píxeles en cada turno con el objetivo de obtener una clasificación como número impar o par respectivamente. En otro experimento se utilizaron modelos de lenguaje grandes (LLMs) donde el debate consistió en que dos agentes proporcionaran argumentos en turnos utilizando pasajes de texto. Un agente intenta convencer al juez, que consiste en otro LLM, de una respuesta correcta y el otro de una respuesta incorrecta a una pregunta de opción múltiple, utilizando una versión modificada del dataset QuALITY.
publishDate 2024
dc.date.none.fl_str_mv 2024-12-11
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_7a1f
info:ar-repo/semantics/tesisDeGrado
format bachelorThesis
status_str publishedVersion
dc.identifier.none.fl_str_mv https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak
url https://hdl.handle.net/20.500.12110/seminario_nDAT000003_Ruzak
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publisher.none.fl_str_mv Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
dc.source.none.fl_str_mv reponame:Biblioteca Digital (UBA-FCEN)
instname:Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron:UBA-FCEN
reponame_str Biblioteca Digital (UBA-FCEN)
collection Biblioteca Digital (UBA-FCEN)
instname_str Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
instacron_str UBA-FCEN
institution UBA-FCEN
repository.name.fl_str_mv Biblioteca Digital (UBA-FCEN) - Universidad Nacional de Buenos Aires. Facultad de Ciencias Exactas y Naturales
repository.mail.fl_str_mv ana@bl.fcen.uba.ar
_version_ 1844618752887357440
score 13.070432