En el aprendizaje automático , el aprendizaje reforzado a partir de la retroalimentación humana ( RLHF ) es una técnica para alinear un agente inteligente con las preferencias humanas. En el aprendizaje por refuerzo clásico , el objetivo de dicho agente es aprender una función que guía su comportamiento llamada política . Esta función aprende a maximizar la recompensa que recibe de una función de recompensa separada en función del desempeño de su tarea. [1] Sin embargo, en el caso de las preferencias humanas, tiende a ser difícil definir explícitamente una función de recompensa que se aproxime a las preferencias humanas. Por ello, RLHF busca entrenar un "modelo de recompensa" directamente a partir de la retroalimentación humana . [2] El modelo de recompensa se entrena primero de forma supervisada , independientemente de la política que se esté optimizando, para predecir si una respuesta a un mensaje determinado es buena (recompensa alta) o mala (recompensa baja) basándose en los datos de clasificación recopilados de anotadores humanos. . Luego, este modelo se utiliza como función de recompensa para mejorar la política de un agente a través de un algoritmo de optimización como la optimización de políticas próximas . [3]
RLHF tiene aplicaciones en varios dominios del aprendizaje automático, incluidas tareas de procesamiento del lenguaje natural, como resúmenes de texto y agentes conversacionales , tareas de visión por computadora , como modelos de texto a imagen , y el desarrollo de robots de videojuegos . Si bien RLHF es un método eficaz para entrenar modelos para que actúen mejor de acuerdo con las preferencias humanas, también enfrenta desafíos debido a la forma en que se recopilan los datos de preferencias humanas. Aunque RLHF no requiere cantidades masivas de datos para mejorar el rendimiento, obtener datos de preferencias de alta calidad sigue siendo un proceso costoso. Además, si los datos no se recopilan cuidadosamente a partir de una muestra representativa , el modelo resultante puede presentar sesgos no deseados .
Es deseable optimizar un modelo basado en la retroalimentación humana cuando una tarea es difícil de especificar pero fácil de juzgar. [4] Por ejemplo, es posible que desee entrenar un modelo para generar texto seguro que sea útil e inofensivo (por ejemplo, sin sesgos , toxicidad o contenido dañino). Pedir a los humanos que creen manualmente ejemplos de texto inofensivo y dañino sería difícil y llevaría mucho tiempo. Sin embargo, los humanos son expertos en evaluar y comparar rápidamente la nocividad de diferentes textos generados por IA. Por tanto, un objetivo más práctico sería permitir que el modelo utilice este tipo de retroalimentación humana para mejorar su generación de texto. [5]
A pesar de los claros beneficios de incorporar la retroalimentación humana en los modelos de capacitación, los esfuerzos anteriores (incluidos algunos que aprovechan el aprendizaje por refuerzo ) han encontrado desafíos importantes. La mayoría de los intentos fueron limitados y difíciles de generalizar, desglosándose en tareas más complejas, [6] [7] [8] [9] o enfrentaron dificultades para aprender de forma escasa (carecían de información específica y se relacionaban con grandes cantidades de texto a la vez). ) o funciones de recompensa ruidosas (que recompensan de manera inconsistente resultados similares). [10] [11]
RLHF no fue el primer método exitoso de utilizar la retroalimentación humana para el aprendizaje por refuerzo, pero es uno de los más utilizados. La base de RLHF se introdujo como un intento de crear un algoritmo general para aprender a partir de una cantidad práctica de retroalimentación humana. [4] [3] OpenAI presentó el algoritmo tal como se usa hoy en un artículo sobre cómo mejorar la continuación o el resumen de texto basado en comentarios humanos, y comenzó a ganar popularidad cuando se reutilizó el mismo método en su artículo sobre InstructGPT . [2] [12] [13] También se ha demostrado que RLHF mejora la robustez de los agentes RL y su capacidad de exploración , lo que resulta en un proceso de optimización más hábil para manejar la incertidumbre y explorar eficientemente su entorno en busca de la mayor recompensa. [14]
La retroalimentación humana se recopila comúnmente instándolos a clasificar instancias del comportamiento del agente. [13] [15] [16] Estas clasificaciones se pueden usar para calificar resultados, por ejemplo, usando el sistema de calificación Elo , que es un algoritmo para calcular los niveles de habilidad relativos de los jugadores en un juego basándose únicamente en el resultado de cada uno. juego. [3] Si bien clasificar los resultados es la forma de retroalimentación más ampliamente adoptada, investigaciones recientes han explorado otras formas, como la retroalimentación numérica, la retroalimentación en lenguaje natural y la solicitud de ediciones directas a la salida del modelo. [17]
Una motivación inicial del RLHF fue que requiere cantidades relativamente pequeñas de datos de comparación para ser efectivo. [4] Se ha demostrado que una pequeña cantidad de datos puede conducir a resultados comparables a una cantidad mayor. Además, aumentar la cantidad de datos tiende a ser menos eficaz que aumentar proporcionalmente el tamaño del modelo de recompensa. [12] Sin embargo, una cantidad mayor y más diversa de datos puede ser crucial para tareas en las que es importante evitar el sesgo de un grupo parcialmente representativo de anotadores. [13]
Al aprender de la retroalimentación humana mediante comparaciones por pares según el modelo Bradley-Terry-Luce (o el modelo Plackett-Luce para comparaciones K en más de dos comparaciones), se ha demostrado que el estimador de máxima verosimilitud (MLE) para funciones de recompensa lineales convergen si los datos de comparación se generan bajo un modelo lineal bien especificado . Esto implica que, bajo ciertas condiciones, si se entrena un modelo para decidir qué opciones preferiría la gente entre pares (o grupos) de opciones, necesariamente mejorará en la predicción de preferencias futuras. Se espera esta mejora siempre que las comparaciones de las que aprenda se basen en una regla coherente y sencilla. [18] [19]
Tanto los modelos de recopilación de datos fuera de línea, donde el modelo aprende interactuando con un conjunto de datos estáticos y actualizando su política en lotes, como los modelos de recopilación de datos en línea, donde el modelo interactúa directamente con el entorno dinámico y actualiza su política de inmediato, han sido matemáticamente estudió la demostración de los límites de complejidad de la muestra para RLHF bajo diferentes modelos de retroalimentación. [18] [20]
En el modelo de recopilación de datos fuera de línea, cuando el objetivo es la capacitación en políticas, un MLE pesimista que incorpore un límite de confianza inferior como estimación de recompensa es más efectivo. Además, cuando corresponde, se ha demostrado que considerar comparaciones K directamente es asintóticamente más eficiente que convertirlas en comparaciones por pares con fines de predicción. [20] [21] [13]
En el escenario en línea, cuando se recopila retroalimentación humana a través de comparaciones por pares bajo el modelo Bradley-Terry-Luce y el objetivo es minimizar el arrepentimiento del algoritmo (la diferencia en el rendimiento en comparación con un agente óptimo), se ha demostrado que un MLE optimista que incorpora un límite de confianza superior ya que la estimación de recompensa se puede utilizar para diseñar algoritmos de muestra eficientes (lo que significa que requieren relativamente pocos datos de entrenamiento). Un desafío clave en RLHF a la hora de aprender de comparaciones por pares (o en duelo) está asociado con la naturaleza no markoviana de sus políticas óptimas. A diferencia de escenarios más simples donde la estrategia óptima no requiere memoria de acciones pasadas, en RLHF, el mejor curso de acción a menudo depende de eventos y decisiones anteriores, lo que hace que la estrategia sea inherentemente dependiente de la memoria. [19]
RLHF se ha aplicado a varios dominios del procesamiento del lenguaje natural (PNL), como agentes conversacionales, resumen de textos y comprensión del lenguaje natural. [22] [12] El aprendizaje por refuerzo ordinario, en el que los agentes aprenden de sus acciones basándose en una "función de recompensa" predefinida, es difícil de aplicar a las tareas de PNL porque las recompensas tienden a ser difíciles de definir o medir, especialmente cuando se trata de tareas complejas. tareas que involucran valores o preferencias humanas. [4] RLHF puede dirigir los modelos de PNL, en particular los modelos de lenguaje , para proporcionar respuestas que se alineen con las preferencias humanas con respecto a tales tareas al capturar sus preferencias de antemano en el modelo de recompensa. Esto da como resultado un modelo capaz de generar respuestas más relevantes y rechazar consultas inapropiadas o irrelevantes. [13] [23] Algunos ejemplos notables de modelos de lenguaje entrenados por RLHF son ChatGPT de OpenAI (y su predecesor InstructGPT ), [15] [24] [25] Sparrow de DeepMind , [26] [27] [28] Gemini de Google , [29] y Claude de Anthropic . [30]
En visión por computadora, RLHF también se ha utilizado para alinear modelos de texto con imagen . Los estudios que utilizaron con éxito RLHF para este objetivo han señalado que el uso de la regularización de KL en RLHF, cuyo objetivo es evitar que la política aprendida se desvíe demasiado del modelo no alineado, ayudó a estabilizar el proceso de capacitación al reducir el sobreajuste del modelo de recompensa. Se observó que los resultados de imágenes finales de los modelos entrenados con la regularización KL eran de una calidad significativamente mayor que los entrenados sin ella. [31] [32] Otros métodos intentaron incorporar la retroalimentación a través de un entrenamiento más directo, basado en maximizar la recompensa sin el uso de aprendizaje por refuerzo, pero admitieron que un enfoque basado en RLHF probablemente funcionaría mejor debido a la generación de muestras en línea utilizada en RLHF durante las actualizaciones, así como la regularización de KL antes mencionada sobre el modelo anterior, lo que mitiga el sobreajuste de la función de recompensa. [33]
RLHF se aplicó inicialmente a otras áreas, como el desarrollo de robots de videojuegos y tareas en robótica simulada . Por ejemplo, OpenAI y DeepMind capacitaron a agentes para jugar juegos de Atari según las preferencias humanas. En el entrenamiento clásico de dichos bots basado en RL, la función de recompensa simplemente se correlaciona con el desempeño del agente en el juego, generalmente usando métricas como la puntuación en el juego . En comparación, en RLHF, a un humano se le presentan periódicamente dos clips del comportamiento del agente en el juego y debe decidir cuál se ve mejor. Este enfoque puede enseñar a los agentes a desempeñarse a un nivel competitivo sin tener acceso a su puntuación. De hecho, se demostró que RLHF a veces puede conducir a un rendimiento superior al RL con métricas de puntuación porque las preferencias humanas pueden contener información más útil que las métricas basadas en el rendimiento. [4] [34] Los agentes lograron un rendimiento sólido en muchos de los entornos probados, superando a menudo el rendimiento humano. [35]
En RLHF se entrenan dos modelos diferentes: un modelo de recompensa y una política de aprendizaje por refuerzo (RL). El modelo de recompensa aprende a determinar qué comportamiento es deseable basándose en la retroalimentación humana, mientras que la política se guía por el modelo de recompensa para determinar las acciones del agente. Ambos modelos se inicializan comúnmente utilizando un modelo de lenguaje autorregresivo previamente entrenado . Luego, este modelo se entrena habitualmente de manera supervisada en un conjunto de datos relativamente pequeño de pares de indicaciones a un asistente y las respuestas que las acompañan, escritas por anotadores humanos. El modelo de recompensa se beneficia al comenzar con un modelo previamente entrenado, ya que esto lo inicializa con una comprensión del lenguaje y enfoca el entrenamiento explícitamente en el aprendizaje de las preferencias humanas, acelerando el proceso. Además de usarse para inicializar el modelo de recompensa y la política de RL, el modelo también se usa para muestrear datos que los anotadores compararán. [13] [12]
Luego, el modelo de recompensa se entrena reemplazando la capa final del modelo anterior con un cabezal de regresión inicializado aleatoriamente. Este cambio cambia el modelo de su tarea de clasificación original sobre su vocabulario a simplemente generar un número correspondiente a la puntuación de cualquier mensaje y respuesta determinados. Este modelo se entrena con los datos de comparación de preferencias humanas recopilados anteriormente del modelo supervisado. En particular, está capacitado para minimizar la siguiente función de pérdida de entropía cruzada , lo que lo incentiva a hacer predicciones que se acercan más a las calificaciones humanas reales:
donde es el número de respuestas que clasificaron los etiquetadores, es el resultado del modelo de recompensa por solicitud y finalización , es la finalización preferida sobre , denota la función sigmoidea y denota el valor esperado . [13] Esta función de pérdida esencialmente mide la diferencia entre las predicciones del modelo de recompensa y las decisiones tomadas por los humanos. El objetivo es acercar lo más posible las conjeturas del modelo a las preferencias de los humanos minimizando la diferencia medida por esta ecuación. En el caso de comparaciones únicamente por pares, se omite el factor de. [12] De lo contrario, todas las comparaciones de cada mensaje se utilizan para el entrenamiento como un solo lote . [13] Después del entrenamiento, los resultados del modelo se normalizan de modo que las terminaciones de referencia tengan una puntuación media de 0. [12]
De manera similar al modelo de recompensa, la política de retroalimentación humana también se ajusta con respecto al modelo previamente entrenado. El objetivo de este paso de ajuste es adaptar el modelo no alineado preexistente (inicialmente entrenado de manera supervisada) para alinearse mejor con las preferencias humanas ajustando sus parámetros en función de las recompensas derivadas de la retroalimentación humana. El resultado del modelo de recompensa se puede utilizar como recompensa a maximizar utilizando RL para los pares de respuesta rápida. [12] El entorno presenta aleatoriamente la política con indicaciones del conjunto de datos y espera respuestas a ellas, simulando escenarios del mundo real donde el agente debe comprender diversas indicaciones y generar respuestas apropiadas. Al denotar la política de RL aprendida con parámetros como , podemos definir la siguiente función objetivo:
¿Dónde está la distribución de entrenamiento de la que nos basamos y es el modelo no alineado previamente entrenado? La constante se utiliza para ajustar la intensidad del término de penalización de KL. Esta penalización se aplica sobre una base simbólica entre la política y los resultados de los modelos no alineados. Su propósito es evitar un ajuste excesivo de la política, asegurando que el proceso de capacitación no especialice demasiado el modelo en los nuevos datos de capacitación. [13] [12] Este término de KL funciona penalizando la divergencia de KL (una medida de distancia estadística entre distribuciones) entre el modelo que se está ajustando y el modelo supervisado inicial. Al elegir un modelo apropiado , la capacitación puede equilibrar el aprendizaje a partir de nuevos datos y, al mismo tiempo, conservar información útil del modelo inicial, lo que aumenta la generalización al evitar ajustarse demasiado a los nuevos datos. Además de evitar que el nuevo modelo produzca resultados demasiado diferentes a los del modelo inicial, una segunda motivación para incluir el término KL es permitir que la política explore más el entorno fomentando una entropía adicional , que puede evitar que el modelo colapse en un único modelo. modo . [12]
En términos más simples, la función objetivo calcula qué tan bien se espera que las respuestas de la política se alineen con la retroalimentación humana. La política genera respuestas a indicaciones, y cada respuesta se evalúa en función de qué tan bien coincide con las preferencias humanas (medidas por el modelo de recompensa) y qué tan similar es a las respuestas que el modelo generaría naturalmente. El objetivo es equilibrar la mejora de la alineación con las preferencias humanas y al mismo tiempo garantizar que las respuestas del modelo sigan siendo diversas y no muy alejadas de lo que ha aprendido durante su formación inicial. Esto ayuda al modelo no sólo a proporcionar respuestas que las personas encuentren útiles o agradables, sino también a mantener una comprensión amplia y evitar respuestas demasiado estrechas o repetitivas.
Comúnmente se agrega un segundo término a la función objetivo que permite que la política incorpore los gradientes previos a la capacitación. Este término evita que el modelo pierda su capacidad inicial de comprensión del lenguaje mientras aprende nuevas tareas basadas en la retroalimentación humana al incorporar su tarea original previa al entrenamiento de completar texto. La función objetivo final se escribe como:
donde controla la fuerza de este término adicional y es la distribución del texto original previo al entrenamiento. [13] Esta función objetivo se puede utilizar directamente para entrenar la política utilizando el algoritmo de optimización de política proximal . [13] [12]
En total, esta función objetivo define el método para ajustar la política de RL, combinando el objetivo de alinearse con la retroalimentación humana y mantener la comprensión del lenguaje original del modelo.
RLHF enfrenta desafíos a la hora de recopilar comentarios humanos, aprender un modelo de recompensa y optimizar la política. [36] En términos de recopilación de datos, la escalabilidad y el costo de la retroalimentación humana pueden ser lentos y costosos en comparación con el aprendizaje no supervisado. Su calidad y coherencia pueden variar según la tarea, la interfaz y las preferencias y prejuicios de los seres humanos individuales. [13] [37]
La eficacia de RLHF depende de la calidad de la retroalimentación humana. Por ejemplo, el modelo puede volverse sesgado , favoreciendo a ciertos grupos sobre otros, si la retroalimentación carece de imparcialidad, es inconsistente o incorrecta. [3] [38] Existe el riesgo de sobreajuste , donde el modelo memoriza ejemplos de retroalimentación específicos en lugar de aprender a generalizar . Por ejemplo, la retroalimentación predominantemente de un grupo demográfico específico podría llevar al modelo a aprender peculiaridades o ruido, junto con la alineación prevista. Una alineación excesiva con la retroalimentación específica que recibió (es decir, con el sesgo existente) puede hacer que el modelo funcione de manera subóptima en nuevos contextos o cuando lo utilicen diferentes grupos. [39] Una única función de recompensa no siempre puede representar las opiniones de diversos grupos de personas. Incluso con una muestra representativa, los puntos de vista y preferencias contradictorios pueden dar lugar a que el modelo de recompensa favorezca la opinión de la mayoría, lo que podría poner en desventaja a los grupos subrepresentados. [36]
En algunos casos, como es posible en el aprendizaje por refuerzo regular , puede existir el riesgo de que el modelo aprenda a manipular el proceso de retroalimentación o a jugar con el sistema para lograr mayores recompensas en lugar de mejorar genuinamente su desempeño. [40] En el caso de RLHF, un modelo puede aprender a explotar el hecho de que es recompensado por lo que se evalúa positivamente y no necesariamente por lo que es realmente bueno, lo que puede llevarlo a aprender a persuadir y manipular. Por ejemplo, los modelos podrían aprender que la confianza aparente, incluso si es inexacta, genera mayores recompensas. Este comportamiento, si no se controla, no sólo se incentiva sino que puede causar importantes problemas de implementación debido al potencial del modelo para inducir a error. Los estudios han encontrado que los humanos no están capacitados para identificar errores en los resultados del LLM en tareas complejas; por lo tanto, los modelos que aprenden a generar texto que suena seguro pero incorrecto pueden generar problemas importantes cuando se implementan. [36]
Se ha propuesto una alternativa a RLHF llamada Optimización de preferencias directas (DPO) para conocer las preferencias humanas. Al igual que RLHF, se ha aplicado para alinear modelos de lenguaje grandes previamente entrenados utilizando datos de preferencias generados por humanos. Sin embargo, a diferencia de RLHF, que primero entrena un modelo intermedio separado para comprender cómo son los buenos resultados y luego enseña al modelo principal cómo lograr esos resultados, DPO simplifica el proceso ajustando directamente el modelo principal según las preferencias de las personas. Utiliza un cambio de variables para definir la " pérdida de preferencias " directamente como una función de la política y utiliza esta pérdida para afinar el modelo, ayudándolo a comprender y priorizar las preferencias humanas sin necesidad de un paso separado. Esencialmente, este enfoque da forma directamente a las decisiones del modelo en función de la retroalimentación humana positiva o negativa.
DPO es más sencillo de implementar y capacitar que RLHF y se ha demostrado que produce resultados comparables y, en ocasiones, superiores. [41] Sin embargo, también se ha demostrado que RLHF supera a DPO en algunos conjuntos de datos, por ejemplo, en puntos de referencia que intentan medir la veracidad. Por lo tanto, la elección del método puede variar según las características de los datos de preferencia humana y la naturaleza de la tarea. [42]