En el aprendizaje automático , el aprendizaje de refuerzo a partir de la retroalimentación humana ( RLHF ) es una técnica para alinear un agente inteligente con las preferencias humanas. Implica entrenar un modelo de recompensa para representar las preferencias, que luego se puede utilizar para entrenar otros modelos a través del aprendizaje de refuerzo .
En el aprendizaje de refuerzo clásico, el objetivo de un agente inteligente es aprender una función que guía su comportamiento, llamada política . Esta función se actualiza iterativamente para maximizar las recompensas en función del desempeño de la tarea del agente. [1] Sin embargo, definir explícitamente una función de recompensa que se aproxime con precisión a las preferencias humanas es un desafío. Por lo tanto, RLHF busca entrenar un "modelo de recompensa" directamente a partir de la retroalimentación humana . [2] El modelo de recompensa se entrena primero de manera supervisada para predecir si una respuesta a un mensaje dado es buena (alta recompensa) o mala (baja recompensa) en función de los datos de clasificación recopilados de los anotadores humanos . Luego, este modelo sirve como una función de recompensa para mejorar la política de un agente a través de un algoritmo de optimización como la optimización de políticas proximales . [3] [4] [5]
La RLHF tiene aplicaciones en varios dominios del aprendizaje automático, incluidas tareas de procesamiento del lenguaje natural como el resumen de texto y los agentes conversacionales , tareas de visión artificial como los modelos de texto a imagen y el desarrollo de bots de videojuegos . Si bien la RLHF es un método eficaz para entrenar modelos para que actúen mejor de acuerdo con las preferencias humanas, también enfrenta desafíos debido a la forma en que se recopilan los datos de preferencia humana. Aunque la RLHF no requiere cantidades masivas de datos para mejorar el rendimiento, obtener datos de preferencia de alta calidad sigue siendo un proceso costoso. Además, si los datos no se recopilan cuidadosamente de una muestra representativa , el modelo resultante puede exhibir sesgos no deseados .
Optimizar un modelo en función de la retroalimentación humana es deseable cuando una tarea es difícil de especificar pero fácil de juzgar. [6] Por ejemplo, se puede querer entrenar un modelo para generar texto seguro que sea útil e inofensivo (por ejemplo, sin sesgos , toxicidad o contenido dañino). Pedirle a los humanos que creen manualmente ejemplos de texto inofensivo y dañino sería difícil y demandaría mucho tiempo. Sin embargo, los humanos son expertos en evaluar y comparar rápidamente la nocividad de diferentes textos generados por IA. Por lo tanto, un objetivo más práctico sería permitir que el modelo use este tipo de retroalimentación humana para mejorar su generación de texto. [7]
A pesar de los claros beneficios de incorporar retroalimentación humana en los modelos de entrenamiento, los esfuerzos previos (incluidos algunos que aprovechan el aprendizaje por refuerzo ) han encontrado desafíos significativos. La mayoría de los intentos fueron limitados y difíciles de generalizar, y fallaron en tareas más complejas [8] [9] [10] [11] o enfrentaron dificultades para aprender de funciones de recompensa dispersas (que carecían de información específica y se relacionaban con grandes cantidades de texto a la vez) o ruidosas (que recompensaban de manera inconsistente resultados similares). [12] [13]
RLHF no fue el primer método exitoso de uso de retroalimentación humana para el aprendizaje de refuerzo, pero es uno de los más utilizados. La base para RLHF se introdujo como un intento de crear un algoritmo general para aprender a partir de una cantidad práctica de retroalimentación humana. [6] [3] El algoritmo tal como se utiliza hoy en día fue introducido por OpenAI en un artículo sobre la mejora de la continuación o el resumen de texto basado en la retroalimentación humana, y comenzó a ganar popularidad cuando el mismo método se reutilizó en su artículo sobre InstructGPT . [2] [14] [15] También se ha demostrado que RLHF mejora la robustez de los agentes de RL y su capacidad de exploración , lo que da como resultado un proceso de optimización más apto para manejar la incertidumbre y explorar eficientemente su entorno en busca de la mayor recompensa. [16]
La retroalimentación humana se recopila comúnmente al solicitarles que clasifiquen instancias del comportamiento del agente. [15] [17] [18] Estas clasificaciones se pueden usar para puntuar los resultados, por ejemplo, utilizando el sistema de clasificación Elo , que es un algoritmo para calcular los niveles de habilidad relativos de los jugadores en un juego basándose únicamente en el resultado de cada juego. [3] Si bien la clasificación de los resultados es la forma de retroalimentación más ampliamente adoptada, investigaciones recientes han explorado otras formas, como la retroalimentación numérica, la retroalimentación en lenguaje natural y la solicitud de ediciones directas a la salida del modelo. [19]
Una motivación inicial de RLHF fue que requiere cantidades relativamente pequeñas de datos de comparación para ser eficaz. [6] Se ha demostrado que una pequeña cantidad de datos puede conducir a resultados comparables a una cantidad mayor. Además, aumentar la cantidad de datos tiende a ser menos eficaz que aumentar proporcionalmente el tamaño del modelo de recompensa. [14] Sin embargo, una cantidad mayor y más diversa de datos puede ser crucial para tareas en las que es importante evitar el sesgo de un grupo parcialmente representativo de anotadores. [15]
Cuando se aprende de la retroalimentación humana mediante una comparación por pares según el modelo Bradley–Terry–Luce (o el modelo Plackett–Luce para comparaciones K-wise en más de dos comparaciones), se ha demostrado que el estimador de máxima verosimilitud (MLE) para funciones de recompensa lineales converge si los datos de comparación se generan según un modelo lineal bien especificado . Esto implica que, en determinadas condiciones, si se entrena un modelo para decidir qué opciones preferirían las personas entre pares (o grupos) de opciones, necesariamente mejorará en la predicción de preferencias futuras. Esta mejora es esperable siempre que las comparaciones de las que aprende se basen en una regla consistente y simple. [20] [21]
Se han estudiado matemáticamente tanto los modelos de recolección de datos fuera de línea, donde el modelo aprende interactuando con un conjunto de datos estáticos y actualizando su política en lotes, como los modelos de recolección de datos en línea, donde el modelo interactúa directamente con el entorno dinámico y actualiza su política inmediatamente, demostrando límites de complejidad de muestra para RLHF bajo diferentes modelos de retroalimentación. [20] [22]
En el modelo de recopilación de datos fuera de línea, cuando el objetivo es el entrenamiento de políticas, un modelo de evaluación multivariable pesimista que incorpore un límite de confianza más bajo como estimación de recompensa es más eficaz. Además, cuando es aplicable, se ha demostrado que considerar comparaciones K-wise directamente es asintóticamente más eficiente que convertirlas en comparaciones por pares para fines de predicción. [22] [23] [15]
En el escenario en línea, cuando se recopila retroalimentación humana a través de comparaciones por pares según el modelo Bradley-Terry-Luce y el objetivo es minimizar el arrepentimiento del algoritmo (la diferencia en el rendimiento en comparación con un agente óptimo), se ha demostrado que un MLE optimista que incorpora un límite de confianza superior como estimación de recompensa se puede utilizar para diseñar algoritmos de muestra eficientes (lo que significa que requieren relativamente pocos datos de entrenamiento). Un desafío clave en RLHF cuando se aprende a partir de comparaciones por pares (o en duelo) está asociado con la naturaleza no markoviana de sus políticas óptimas. A diferencia de los escenarios más simples donde la estrategia óptima no requiere la memoria de acciones pasadas, en RLHF, el mejor curso de acción a menudo depende de eventos y decisiones anteriores, lo que hace que la estrategia dependa inherentemente de la memoria. [21]
RLHF se ha aplicado a varios dominios del procesamiento del lenguaje natural (PLN), como agentes conversacionales, resumen de texto y comprensión del lenguaje natural. [24] [14] El aprendizaje de refuerzo ordinario, en el que los agentes aprenden de sus acciones basándose en una "función de recompensa" predefinida, es difícil de aplicar a tareas de PNL porque las recompensas tienden a ser difíciles de definir o medir, especialmente cuando se trata de tareas complejas que involucran valores o preferencias humanas. [6] RLHF puede dirigir los modelos de PNL, en particular los modelos de lenguaje , para proporcionar respuestas que se alineen con las preferencias humanas con respecto a tales tareas al capturar sus preferencias de antemano en el modelo de recompensa. Esto da como resultado un modelo capaz de generar respuestas más relevantes y rechazar consultas inapropiadas o irrelevantes. [15] [25] Algunos ejemplos notables de modelos de lenguaje entrenados con RLHF son ChatGPT de OpenAI (y su predecesor InstructGPT ), [17] [26] [27] Sparrow de DeepMind , [28] [29] [30] Gemini de Google , [31] y Claude de Anthropic . [32]
En la visión artificial, la RLHF también se ha utilizado para alinear modelos de texto a imagen . Los estudios que utilizaron con éxito la RLHF para este objetivo han señalado que el uso de la regularización KL en la RLHF, que tiene como objetivo evitar que la política aprendida se aleje demasiado del modelo no alineado, ayudó a estabilizar el proceso de entrenamiento al reducir el sobreajuste al modelo de recompensa. Se observó que las salidas de imagen finales de los modelos entrenados con la regularización KL eran de una calidad significativamente mayor que las entrenadas sin ella. [33] [34] Otros métodos intentaron incorporar la retroalimentación a través de un entrenamiento más directo (basado en maximizar la recompensa sin el uso del aprendizaje de refuerzo), pero admitieron que un enfoque basado en la RLHF probablemente funcionaría mejor debido a la generación de muestras en línea utilizada en la RLHF durante las actualizaciones, así como a la regularización KL antes mencionada sobre el modelo anterior, que mitiga el sobreajuste a la función de recompensa. [35]
El RLHF se aplicó inicialmente a otras áreas, como el desarrollo de bots de videojuegos y tareas en robótica simulada . Por ejemplo, OpenAI y DeepMind entrenaron a agentes para jugar juegos de Atari según las preferencias humanas. En el entrenamiento clásico basado en RL de dichos bots, la función de recompensa simplemente se correlaciona con el rendimiento del agente en el juego, generalmente utilizando métricas como la puntuación en el juego . En comparación, en RLHF, a un humano se le presentan periódicamente dos clips del comportamiento del agente en el juego y debe decidir cuál se ve mejor. Este enfoque puede enseñar a los agentes a desempeñarse a un nivel competitivo sin tener acceso nunca a su puntuación. De hecho, se demostró que el RLHF a veces puede conducir a un rendimiento superior al RL con métricas de puntuación porque las preferencias del humano pueden contener información más útil que las métricas basadas en el rendimiento. [6] [36] Los agentes lograron un rendimiento sólido en muchos de los entornos probados, a menudo superando el rendimiento humano. [37]
En RLHF, se entrenan dos modelos diferentes: un modelo de recompensa y una política de aprendizaje por refuerzo (RL). El modelo de recompensa aprende a determinar qué comportamiento es deseable en función de la retroalimentación humana, mientras que la política se guía por el modelo de recompensa para determinar las acciones del agente. Ambos modelos se inicializan comúnmente utilizando un modelo de lenguaje autorregresivo entrenado previamente . Luego, este modelo se entrena habitualmente de manera supervisada en un conjunto de datos relativamente pequeño de pares de indicaciones para un asistente y sus respuestas acompañantes, escritas por anotadores humanos. El modelo de recompensa se beneficia de comenzar con un modelo entrenado previamente, ya que esto lo inicializa con una comprensión del lenguaje y enfoca el entrenamiento explícitamente en el aprendizaje de las preferencias humanas, acelerando el proceso. Además de usarse para inicializar el modelo de recompensa y la política de RL, el modelo también se usa para muestrear datos que serán comparados por los anotadores. [15] [14]
Luego, el modelo de recompensa se entrena reemplazando la capa final del modelo anterior con un cabezal de regresión inicializado aleatoriamente . Este cambio hace que el modelo pase de su tarea de clasificación original sobre su vocabulario a simplemente generar un número correspondiente a la puntuación de cualquier indicación y respuesta dadas. Este modelo se entrena con los datos de comparación de preferencias humanas recopilados anteriormente del modelo supervisado. En particular, se lo entrena para minimizar la siguiente función de pérdida de entropía cruzada , que lo incentiva a hacer predicciones que se acerquen más a las calificaciones humanas reales:
donde es el número de respuestas que clasificaron los etiquetadores, es la salida del modelo de recompensa para la indicación y la finalización , es la finalización preferida sobre , denota la función sigmoidea y denota el valor esperado . [15] Esta función de pérdida mide esencialmente la diferencia entre las predicciones del modelo de recompensa y las decisiones tomadas por los humanos. El objetivo es hacer que las conjeturas del modelo sean lo más cercanas posible a las preferencias de los humanos minimizando la diferencia medida por esta ecuación. En el caso de solo comparaciones por pares, se omite el factor de . [14] De lo contrario, todas las comparaciones de cada indicación se utilizan para el entrenamiento como un solo lote . [15] Después del entrenamiento, las salidas del modelo se normalizan de modo que las finalizaciones de referencia tengan una puntuación media de 0. [14]
De manera similar al modelo de recompensa, la política de retroalimentación humana también se ajusta con precisión sobre el modelo entrenado previamente. El objetivo de este paso de ajuste es adaptar el modelo preexistente, no alineado (inicialmente entrenado de manera supervisada) para que se alinee mejor con las preferencias humanas ajustando sus parámetros en función de las recompensas derivadas de la retroalimentación humana. El resultado del modelo de recompensa se puede utilizar como la recompensa que se maximizará utilizando RL para los pares de indicaciones-respuestas. [14] El entorno presenta aleatoriamente la política con indicaciones del conjunto de datos y espera respuestas a ellas, simulando escenarios del mundo real donde el agente debe comprender diversas indicaciones y generar respuestas apropiadas. Denotando la política de RL aprendida con parámetros como , podemos definir la siguiente función objetivo:
donde es la distribución de entrenamiento de la que estamos extrayendo y es el modelo entrenado previamente, no alineado. La constante se utiliza para ajustar la intensidad del término de penalización KL. Esta penalización se aplica sobre una base por token entre la política y las salidas de los modelos no alineados. Su propósito es evitar ajustar excesivamente la política, asegurando que el proceso de entrenamiento no especialice demasiado el modelo en los nuevos datos de entrenamiento. [15] [14] Este término KL funciona penalizando la divergencia KL (una medida de distancia estadística entre distribuciones) entre el modelo que se está ajustando y el modelo supervisado inicial. Al elegir un , el entrenamiento puede equilibrar el aprendizaje de los nuevos datos mientras retiene información útil del modelo inicial, aumentando la generalización al evitar un ajuste demasiado cercano a los nuevos datos. Además de evitar que el nuevo modelo produzca salidas demasiado diferentes a las del modelo inicial, una segunda motivación para incluir el término KL es permitir que la política explore más el entorno al fomentar la entropía adicional , lo que puede evitar que el modelo colapse a un solo modo . [14]
En términos más simples, la función objetivo calcula qué tan bien se espera que las respuestas de la política se alineen con la retroalimentación humana. La política genera respuestas a indicaciones, y cada respuesta se evalúa tanto en qué tan bien coincide con las preferencias humanas (según lo medido por el modelo de recompensa) como en qué tan similar es a las respuestas que el modelo generaría naturalmente. El objetivo es equilibrar la mejora de la alineación con las preferencias humanas y, al mismo tiempo, garantizar que las respuestas del modelo sigan siendo diversas y no demasiado alejadas de lo que ha aprendido durante su entrenamiento inicial. Esto ayuda al modelo no solo a proporcionar respuestas que las personas encuentren útiles o agradables, sino también a mantener una comprensión amplia y evitar respuestas demasiado limitadas o repetitivas.
Generalmente se agrega un segundo término a la función objetivo que permite que la política incorpore los gradientes de preentrenamiento. Este término evita que el modelo pierda su capacidad inicial de comprensión del lenguaje mientras aprende nuevas tareas basadas en la retroalimentación humana al incorporar su tarea original de preentrenamiento de completar texto. La función objetivo final se escribe como:
donde controla la fuerza de este término adicional y es la distribución del texto original previo al entrenamiento. [15] Esta función objetivo se puede utilizar directamente para entrenar la política utilizando el algoritmo de optimización de política proximal . [15] [14]
En total, esta función objetivo define el método para ajustar la política de RL, combinando el objetivo de alinearse con la retroalimentación humana y mantener la comprensión del lenguaje original del modelo.
RLHF enfrenta desafíos a la hora de recopilar retroalimentación humana, aprender un modelo de recompensa y optimizar la política. [38] Su calidad y consistencia pueden variar según la tarea, la interfaz y las preferencias y sesgos de los humanos individuales. [15] [39]
La eficacia de RLHF depende de la calidad de la retroalimentación humana. Por ejemplo, el modelo puede volverse sesgado , favoreciendo a ciertos grupos sobre otros, si la retroalimentación carece de imparcialidad, es inconsistente o incorrecta. [3] [40] Existe el riesgo de sobreajuste , donde el modelo memoriza ejemplos de retroalimentación específicos en lugar de aprender a generalizar . Por ejemplo, la retroalimentación predominantemente de un grupo demográfico específico puede llevar al modelo a aprender peculiaridades o ruido, junto con la alineación deseada. La alineación excesiva con la retroalimentación específica que recibió (es decir, con el sesgo en ella) puede llevar a que el modelo funcione de manera subóptima en nuevos contextos o cuando lo usen diferentes grupos. [41] Una única función de recompensa no siempre puede representar las opiniones de diversos grupos de personas. Incluso con una muestra representativa, las opiniones y preferencias conflictivas pueden dar como resultado que el modelo de recompensa favorezca la opinión de la mayoría, lo que potencialmente perjudica a los grupos subrepresentados. [38]
En algunos casos, como es posible en el aprendizaje de refuerzo regular , puede existir el riesgo de que el modelo aprenda a manipular el proceso de retroalimentación o a jugar con el sistema para lograr mayores recompensas en lugar de mejorar genuinamente su desempeño. [42] En el caso de RLHF, un modelo puede aprender a explotar el hecho de que es recompensado por lo que se evalúa positivamente y no necesariamente por lo que es realmente bueno, lo que puede llevarlo a aprender a persuadir y manipular. Por ejemplo, los modelos pueden aprender que la confianza aparente, incluso si es inexacta, genera mayores recompensas. Tal comportamiento, si no se controla, no solo se incentiva sino que puede causar problemas de implementación significativos debido al potencial del modelo para engañar. Los estudios han encontrado que los humanos no son hábiles para identificar errores en los resultados de LLM en tareas complejas; por lo tanto, los modelos que aprenden a generar texto que suena seguro pero incorrecto pueden conducir a problemas significativos cuando se implementan. [38]
De manera similar a RLHF, el aprendizaje de refuerzo a partir de la retroalimentación de IA (RLAIF) se basa en el entrenamiento de un modelo de preferencia, excepto que la retroalimentación se genera automáticamente. [43] Esto se utiliza en particular en la IA constitucional de Anthropic , donde la retroalimentación de IA se basa en la conformidad con los principios de una constitución. [44]
Se ha propuesto otra alternativa a la RLHF, denominada Optimización de preferencias directas (DPO, por sus siglas en inglés), para aprender las preferencias humanas. Al igual que la RLHF, se ha aplicado para alinear modelos de lenguaje grandes previamente entrenados utilizando datos de preferencias generados por humanos. Sin embargo, a diferencia de la RLHF, que primero entrena un modelo intermedio independiente para comprender cómo se ven los buenos resultados y luego enseña al modelo principal cómo lograr esos resultados, la DPO simplifica el proceso al ajustar directamente el modelo principal de acuerdo con las preferencias de las personas. Utiliza un cambio de variables para definir la " pérdida de preferencia " directamente como una función de la política y utiliza esta pérdida para ajustar el modelo, lo que lo ayuda a comprender y priorizar las preferencias humanas sin necesidad de un paso separado. Básicamente, este enfoque moldea directamente las decisiones del modelo en función de la retroalimentación humana positiva o negativa.
La DPO es más sencilla de implementar y entrenar que la RLHF y se ha demostrado que produce resultados comparables y, a veces, superiores. [45] Sin embargo, también se ha demostrado que la RLHF supera a la DPO en algunos conjuntos de datos, por ejemplo, en los puntos de referencia que intentan medir la veracidad. Por lo tanto, la elección del método puede variar según las características de los datos de preferencia humana y la naturaleza de la tarea. [46]