Aprendizaje por refuerzo a partir de la retroalimentación humana

En el aprendizaje automático , el aprendizaje de refuerzo a partir de la retroalimentación humana ( RLHF ) es una técnica para alinear un agente inteligente con las preferencias humanas. Implica entrenar un modelo de recompensa para representar las preferencias, que luego se puede utilizar para entrenar otros modelos a través del aprendizaje de refuerzo .

En el aprendizaje de refuerzo clásico, el objetivo de un agente inteligente es aprender una función que guía su comportamiento, llamada política . Esta función se actualiza iterativamente para maximizar las recompensas en función del desempeño de la tarea del agente. ^[1] Sin embargo, definir explícitamente una función de recompensa que se aproxime con precisión a las preferencias humanas es un desafío. Por lo tanto, RLHF busca entrenar un "modelo de recompensa" directamente a partir de la retroalimentación humana . ^[2] El modelo de recompensa se entrena primero de manera supervisada para predecir si una respuesta a un mensaje dado es buena (alta recompensa) o mala (baja recompensa) según los datos de clasificación recopilados de anotadores humanos u otros modelos entrenados previamente. Luego, este modelo sirve como una función de recompensa para mejorar la política de un agente a través de un algoritmo de optimización como la optimización de políticas proximales . ^[3]

La RLHF tiene aplicaciones en varios dominios del aprendizaje automático, incluidas tareas de procesamiento del lenguaje natural como el resumen de texto y los agentes conversacionales , tareas de visión artificial como los modelos de texto a imagen y el desarrollo de bots de videojuegos . Si bien la RLHF es un método eficaz para entrenar modelos para que actúen mejor de acuerdo con las preferencias humanas, también enfrenta desafíos debido a la forma en que se recopilan los datos de preferencia humana. Aunque la RLHF no requiere cantidades masivas de datos para mejorar el rendimiento, obtener datos de preferencia de alta calidad sigue siendo un proceso costoso. Además, si los datos no se recopilan cuidadosamente de una muestra representativa , el modelo resultante puede exhibir sesgos no deseados .

Antecedentes y motivación

Optimizar un modelo en función de la retroalimentación humana es deseable cuando una tarea es difícil de especificar pero fácil de juzgar. ^[4] Por ejemplo, se puede querer entrenar un modelo para generar texto seguro que sea útil e inofensivo (por ejemplo, sin sesgos , toxicidad o contenido dañino). Pedirle a los humanos que creen manualmente ejemplos de texto inofensivo y dañino sería difícil y demandaría mucho tiempo. Sin embargo, los humanos son expertos en evaluar y comparar rápidamente la nocividad de diferentes textos generados por IA. Por lo tanto, un objetivo más práctico sería permitir que el modelo use este tipo de retroalimentación humana para mejorar su generación de texto. ^[5]

A pesar de los claros beneficios de incorporar retroalimentación humana en los modelos de entrenamiento, los esfuerzos previos (incluidos algunos que aprovechan el aprendizaje por refuerzo ) han encontrado desafíos significativos. La mayoría de los intentos fueron limitados y difíciles de generalizar, y fallaron en tareas más complejas ^[6]^[7]^[8]^[9] o enfrentaron dificultades para aprender de funciones de recompensa dispersas (que carecían de información específica y se relacionaban con grandes cantidades de texto a la vez) o ruidosas (que recompensaban de manera inconsistente resultados similares). ^[10]^[11]

RLHF no fue el primer método exitoso de uso de retroalimentación humana para el aprendizaje de refuerzo, pero es uno de los más utilizados. La base para RLHF se introdujo como un intento de crear un algoritmo general para aprender a partir de una cantidad práctica de retroalimentación humana. ^[4]^[3] El algoritmo tal como se utiliza hoy en día fue introducido por OpenAI en un artículo sobre la mejora de la continuación o el resumen de texto basado en la retroalimentación humana, y comenzó a ganar popularidad cuando el mismo método se reutilizó en su artículo sobre InstructGPT . ^[2]^[12]^[13] También se ha demostrado que RLHF mejora la robustez de los agentes de RL y su capacidad de exploración , lo que da como resultado un proceso de optimización más apto para manejar la incertidumbre y explorar eficientemente su entorno en busca de la mayor recompensa. ^[14]

Recopilación de comentarios humanos

La retroalimentación humana se recopila comúnmente al solicitarles que clasifiquen instancias del comportamiento del agente. ^[13]^[15]^[16] Estas clasificaciones se pueden usar para puntuar los resultados, por ejemplo, utilizando el sistema de clasificación Elo , que es un algoritmo para calcular los niveles de habilidad relativos de los jugadores en un juego basándose únicamente en el resultado de cada juego. ^[3] Si bien la clasificación de los resultados es la forma de retroalimentación más ampliamente adoptada, investigaciones recientes han explorado otras formas, como la retroalimentación numérica, la retroalimentación en lenguaje natural y la solicitud de ediciones directas a la salida del modelo. ^[17]

Una motivación inicial de RLHF fue que requiere cantidades relativamente pequeñas de datos de comparación para ser eficaz. ^[4] Se ha demostrado que una pequeña cantidad de datos puede conducir a resultados comparables a una cantidad mayor. Además, aumentar la cantidad de datos tiende a ser menos eficaz que aumentar proporcionalmente el tamaño del modelo de recompensa. ^[12] Sin embargo, una cantidad mayor y más diversa de datos puede ser crucial para tareas en las que es importante evitar el sesgo de un grupo parcialmente representativo de anotadores. ^[13]

Al aprender de la retroalimentación humana mediante la comparación por pares según el modelo Bradley–Terry–Luce (o el modelo Plackett–Luce para comparaciones K-wise en más de dos comparaciones), se ha demostrado que el estimador de máxima verosimilitud (MLE) para funciones de recompensa lineales converge si los datos de comparación se generan según un modelo lineal bien especificado . Esto implica que, en determinadas condiciones, si se entrena un modelo para decidir qué opciones preferirían las personas entre pares (o grupos) de opciones, necesariamente mejorará en la predicción de preferencias futuras. Esta mejora es esperable siempre que las comparaciones de las que aprende se basen en una regla consistente y simple. ^[18]^[19]

Se han estudiado matemáticamente tanto los modelos de recopilación de datos fuera de línea, donde el modelo aprende interactuando con un conjunto de datos estáticos y actualizando su política en lotes, como los modelos de recopilación de datos en línea, donde el modelo interactúa directamente con el entorno dinámico y actualiza su política inmediatamente, demostrando límites de complejidad de muestra para RLHF bajo diferentes modelos de retroalimentación. ^[18]^[20]

En el modelo de recopilación de datos fuera de línea, cuando el objetivo es el entrenamiento de políticas, un modelo de evaluación multivariable pesimista que incorpore un límite de confianza más bajo como estimación de recompensa es más eficaz. Además, cuando es aplicable, se ha demostrado que considerar comparaciones K-wise directamente es asintóticamente más eficiente que convertirlas en comparaciones por pares para fines de predicción. ^[20]^[21]^[13]

En el escenario en línea, cuando se recopila retroalimentación humana a través de comparaciones por pares según el modelo Bradley-Terry-Luce y el objetivo es minimizar el arrepentimiento del algoritmo (la diferencia en el rendimiento en comparación con un agente óptimo), se ha demostrado que un MLE optimista que incorpora un límite de confianza superior como estimación de recompensa se puede utilizar para diseñar algoritmos de muestra eficientes (lo que significa que requieren relativamente pocos datos de entrenamiento). Un desafío clave en RLHF cuando se aprende a partir de comparaciones por pares (o en duelo) está asociado con la naturaleza no markoviana de sus políticas óptimas. A diferencia de los escenarios más simples donde la estrategia óptima no requiere la memoria de acciones pasadas, en RLHF, el mejor curso de acción a menudo depende de eventos y decisiones anteriores, lo que hace que la estrategia dependa inherentemente de la memoria. ^[19]

Aplicaciones

RLHF se ha aplicado a varios dominios del procesamiento del lenguaje natural (PLN), como agentes conversacionales, resumen de texto y comprensión del lenguaje natural. ^[22]^[12] El aprendizaje de refuerzo ordinario, en el que los agentes aprenden de sus acciones basándose en una "función de recompensa" predefinida, es difícil de aplicar a tareas de PNL porque las recompensas tienden a ser difíciles de definir o medir, especialmente cuando se trata de tareas complejas que involucran valores o preferencias humanas. ^[4] RLHF puede dirigir los modelos de PNL, en particular los modelos de lenguaje , para proporcionar respuestas que se alineen con las preferencias humanas con respecto a tales tareas al capturar sus preferencias de antemano en el modelo de recompensa. Esto da como resultado un modelo capaz de generar respuestas más relevantes y rechazar consultas inapropiadas o irrelevantes. ^[13]^[23] Algunos ejemplos notables de modelos de lenguaje entrenados con RLHF son ChatGPT de OpenAI (y su predecesor InstructGPT ), ^[15]^[24]^[25]Sparrow de DeepMind , ^[26]^[27]^[28]Gemini de Google , ^[29] y Claude de Anthropic . ^[30]

En la visión artificial, la RLHF también se ha utilizado para alinear modelos de texto a imagen . Los estudios que utilizaron con éxito la RLHF para este objetivo han señalado que el uso de la regularización KL en la RLHF, que tiene como objetivo evitar que la política aprendida se aleje demasiado del modelo no alineado, ayudó a estabilizar el proceso de entrenamiento al reducir el sobreajuste al modelo de recompensa. Se observó que las salidas de imagen finales de los modelos entrenados con la regularización KL eran de una calidad significativamente mayor que las entrenadas sin ella. ^[31]^[32] Otros métodos intentaron incorporar la retroalimentación a través de un entrenamiento más directo (basado en la maximización de la recompensa sin el uso del aprendizaje de refuerzo), pero admitieron que un enfoque basado en la RLHF probablemente funcionaría mejor debido a la generación de muestras en línea utilizada en la RLHF durante las actualizaciones, así como a la regularización KL antes mencionada sobre el modelo anterior, que mitiga el sobreajuste a la función de recompensa. ^[33]

El RLHF se aplicó inicialmente a otras áreas, como el desarrollo de bots de videojuegos y tareas en robótica simulada . Por ejemplo, OpenAI y DeepMind entrenaron a agentes para jugar juegos de Atari según las preferencias humanas. En el entrenamiento clásico basado en RL de dichos bots, la función de recompensa simplemente se correlaciona con el rendimiento del agente en el juego, generalmente utilizando métricas como la puntuación en el juego . En comparación, en RLHF, a un humano se le presentan periódicamente dos clips del comportamiento del agente en el juego y debe decidir cuál se ve mejor. Este enfoque puede enseñar a los agentes a desempeñarse a un nivel competitivo sin tener acceso nunca a su puntuación. De hecho, se demostró que el RLHF a veces puede conducir a un rendimiento superior al RL con métricas de puntuación porque las preferencias del humano pueden contener información más útil que las métricas basadas en el rendimiento. ^[4]^[34] Los agentes lograron un rendimiento sólido en muchos de los entornos probados, a menudo superando el rendimiento humano. ^[35]

Capacitación

En RLHF, se entrenan dos modelos diferentes: un modelo de recompensa y una política de aprendizaje por refuerzo (RL). El modelo de recompensa aprende a determinar qué comportamiento es deseable en función de la retroalimentación humana, mientras que la política se guía por el modelo de recompensa para determinar las acciones del agente. Ambos modelos se inicializan comúnmente utilizando un modelo de lenguaje autorregresivo entrenado previamente . Luego, este modelo se entrena habitualmente de manera supervisada en un conjunto de datos relativamente pequeño de pares de indicaciones para un asistente y sus respuestas acompañantes, escritas por anotadores humanos. El modelo de recompensa se beneficia de comenzar con un modelo entrenado previamente, ya que esto lo inicializa con una comprensión del lenguaje y enfoca el entrenamiento explícitamente en el aprendizaje de las preferencias humanas, acelerando el proceso. Además de usarse para inicializar el modelo de recompensa y la política de RL, el modelo también se usa para muestrear datos que serán comparados por los anotadores. ^[13]^[12]

El modelo de recompensa se entrena reemplazando la capa final del modelo anterior con un cabezal de regresión inicializado aleatoriamente . Este cambio hace que el modelo pase de su tarea de clasificación original sobre su vocabulario a simplemente generar un número correspondiente a la puntuación de cualquier indicación y respuesta dadas. Este modelo se entrena con los datos de comparación de preferencias humanas recopilados anteriormente del modelo supervisado. En particular, se lo entrena para minimizar la siguiente función de pérdida de entropía cruzada , que lo incentiva a hacer predicciones que se acerquen más a las calificaciones humanas reales:

${\mathcal {L}}(\theta )=-{\frac {1}{K \choose 2}}E_{(x,y_{w},y_{l})}[\log(\sigma (r_{\theta }(x,y_{w})-r_{\theta }(x,y_{l})))]$

donde es el número de respuestas que clasificaron los etiquetadores, es la salida del modelo de recompensa para la indicación y la finalización , es la finalización preferida sobre , denota la función sigmoidea y denota el valor esperado . ^[13] Esta función de pérdida mide esencialmente la diferencia entre las predicciones del modelo de recompensa y las decisiones tomadas por los humanos. El objetivo es hacer que las conjeturas del modelo sean lo más cercanas posible a las preferencias de los humanos minimizando la diferencia medida por esta ecuación. En el caso de solo comparaciones por pares, se omite el factor de . ^[12] De lo contrario, todas las comparaciones de cada indicación se utilizan para el entrenamiento como un solo lote . ^[13] Después del entrenamiento, las salidas del modelo se normalizan de modo que las finalizaciones de referencia tengan una puntuación media de 0. ^[12] $K$ $r_{\theta }(x,y)$ $x$ $y$ $y_{w}$ $y_{l}$ $\sigma (x)$ $E[X]$ $1/{\tbinom {K}{2}}$ ${\tbinom {K}{2}}$

De manera similar al modelo de recompensa, la política de retroalimentación humana también se ajusta con precisión sobre el modelo entrenado previamente. El objetivo de este paso de ajuste es adaptar el modelo preexistente, no alineado (inicialmente entrenado de manera supervisada) para que se alinee mejor con las preferencias humanas ajustando sus parámetros en función de las recompensas derivadas de la retroalimentación humana. El resultado del modelo de recompensa se puede utilizar como la recompensa que se maximizará utilizando RL para los pares de indicaciones-respuestas. ^[12] El entorno presenta aleatoriamente la política con indicaciones del conjunto de datos y espera respuestas a ellas, simulando escenarios del mundo real donde el agente debe comprender diversas indicaciones y generar respuestas apropiadas. Denotando la política de RL aprendida con parámetros como , podemos definir la siguiente función objetivo: $\phi$ $\pi _{\phi }^{\text{RL}}$

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]$

donde es la distribución de entrenamiento de la que estamos extrayendo y es el modelo entrenado previamente, no alineado. La constante se utiliza para ajustar la intensidad del término de penalización KL. Esta penalización se aplica sobre una base por token entre la política y las salidas de los modelos no alineados. Su propósito es evitar ajustar excesivamente la política, asegurando que el proceso de entrenamiento no especialice demasiado el modelo en los nuevos datos de entrenamiento. ^[13]^[12] Este término KL funciona penalizando la divergencia KL (una medida de distancia estadística entre distribuciones) entre el modelo que se está ajustando y el modelo supervisado inicial. Al elegir un , el entrenamiento puede equilibrar el aprendizaje de los nuevos datos mientras retiene información útil del modelo inicial, aumentando la generalización al evitar un ajuste demasiado cercano a los nuevos datos. Además de evitar que el nuevo modelo produzca salidas demasiado diferentes a las del modelo inicial, una segunda motivación para incluir el término KL es permitir que la política explore más el entorno al fomentar la entropía adicional , lo que puede evitar que el modelo colapse a un solo modo . ^[12] $D_{\pi _{\phi }^{\text{RL}}}$ $\pi ^{\text{SFT}}$ $\beta$ $\beta$

En términos más simples, la función objetivo calcula qué tan bien se espera que las respuestas de la política se alineen con la retroalimentación humana. La política genera respuestas a indicaciones, y cada respuesta se evalúa tanto en qué tan bien coincide con las preferencias humanas (según lo medido por el modelo de recompensa) como en qué tan similar es a las respuestas que el modelo generaría naturalmente. El objetivo es equilibrar la mejora de la alineación con las preferencias humanas y, al mismo tiempo, garantizar que las respuestas del modelo sigan siendo diversas y no demasiado alejadas de lo que ha aprendido durante su entrenamiento inicial. Esto ayuda al modelo no solo a proporcionar respuestas que las personas encuentren útiles o agradables, sino también a mantener una comprensión amplia y evitar respuestas demasiado limitadas o repetitivas.

Generalmente se agrega un segundo término a la función objetivo que permite que la política incorpore los gradientes de preentrenamiento. Este término evita que el modelo pierda su capacidad inicial de comprensión del lenguaje mientras aprende nuevas tareas basadas en la retroalimentación humana al incorporar su tarea original de preentrenamiento de completar texto. La función objetivo final se escribe como:

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]+\gamma E_{x\sim D_{\text{pretrain}}}[\log(\pi _{\phi }^{\text{RL}}(x))]$

donde controla la fuerza de este término adicional y es la distribución del texto original previo al entrenamiento. ^[13] Esta función objetivo se puede utilizar directamente para entrenar la política utilizando el algoritmo de optimización de política proximal . ^[13]^[12] $\gamma$ $D_{\text{pretrain}}$

En total, esta función objetivo define el método para ajustar la política de RL, combinando el objetivo de alinearse con la retroalimentación humana y mantener la comprensión del lenguaje original del modelo.

Limitaciones

El aprendizaje automático basado en la frecuencia (RLHF) tiene problemas para recopilar la retroalimentación humana, aprender un modelo de recompensa y optimizar la política. ^[36] En términos de recopilación de datos, la escalabilidad y el costo de la retroalimentación humana pueden ser lentos y costosos en comparación con el aprendizaje no supervisado. Su calidad y consistencia pueden variar según la tarea, la interfaz y las preferencias y sesgos de los humanos individuales. ^[13]^[37]

La eficacia de RLHF depende de la calidad de la retroalimentación humana. Por ejemplo, el modelo puede volverse sesgado , favoreciendo a ciertos grupos sobre otros, si la retroalimentación carece de imparcialidad, es inconsistente o incorrecta. ^[3]^[38] Existe el riesgo de sobreajuste , donde el modelo memoriza ejemplos de retroalimentación específicos en lugar de aprender a generalizar . Por ejemplo, la retroalimentación predominantemente de un grupo demográfico específico puede llevar al modelo a aprender peculiaridades o ruido, junto con la alineación deseada. La alineación excesiva con la retroalimentación específica que recibió (es decir, con el sesgo en ella) puede llevar a que el modelo funcione de manera subóptima en nuevos contextos o cuando lo usen diferentes grupos. ^[39] Una única función de recompensa no siempre puede representar las opiniones de diversos grupos de personas. Incluso con una muestra representativa, las opiniones y preferencias conflictivas pueden dar como resultado que el modelo de recompensa favorezca la opinión de la mayoría, lo que potencialmente perjudica a los grupos subrepresentados. ^[36]

En algunos casos, como es posible en el aprendizaje de refuerzo regular , puede existir el riesgo de que el modelo aprenda a manipular el proceso de retroalimentación o a jugar con el sistema para lograr mayores recompensas en lugar de mejorar genuinamente su desempeño. ^[40] En el caso de RLHF, un modelo puede aprender a explotar el hecho de que es recompensado por lo que se evalúa positivamente y no necesariamente por lo que es realmente bueno, lo que puede llevarlo a aprender a persuadir y manipular. Por ejemplo, los modelos pueden aprender que la confianza aparente, incluso si es inexacta, genera mayores recompensas. Tal comportamiento, si no se controla, no solo se incentiva sino que puede causar problemas de implementación significativos debido al potencial del modelo para engañar. Los estudios han encontrado que los humanos no son hábiles para identificar errores en los resultados de LLM en tareas complejas; por lo tanto, los modelos que aprenden a generar texto que suena seguro pero incorrecto pueden conducir a problemas significativos cuando se implementan. ^[36]

Alternativas

Aprendizaje por refuerzo a partir de la retroalimentación de la IA

De manera similar a RLHF, el aprendizaje de refuerzo a partir de la retroalimentación de IA (RLAIF) se basa en el entrenamiento de un modelo de preferencia, excepto que la retroalimentación se genera automáticamente. ^[41] Esto se utiliza en particular en la IA constitucional de Anthropic , donde la retroalimentación de IA se basa en la conformidad con los principios de una constitución. ^[42]

Optimización de preferencias directas

Se ha propuesto otra alternativa a la RLHF, denominada Optimización de preferencias directas (DPO, por sus siglas en inglés), para aprender las preferencias humanas. Al igual que la RLHF, se ha aplicado para alinear modelos de lenguaje grandes previamente entrenados utilizando datos de preferencias generados por humanos. Sin embargo, a diferencia de la RLHF, que primero entrena un modelo intermedio independiente para comprender cómo se ven los buenos resultados y luego enseña al modelo principal cómo lograr esos resultados, la DPO simplifica el proceso al ajustar directamente el modelo principal de acuerdo con las preferencias de las personas. Utiliza un cambio de variables para definir la " pérdida de preferencia " directamente como una función de la política y utiliza esta pérdida para ajustar el modelo, lo que lo ayuda a comprender y priorizar las preferencias humanas sin necesidad de un paso separado. Básicamente, este enfoque moldea directamente las decisiones del modelo en función de la retroalimentación humana positiva o negativa.

La DPO es más sencilla de implementar y entrenar que la RLHF y se ha demostrado que produce resultados comparables y, a veces, superiores. ^[43] Sin embargo, también se ha demostrado que la RLHF supera a la DPO en algunos conjuntos de datos, por ejemplo, en los puntos de referencia que intentan medir la veracidad. Por lo tanto, la elección del método puede variar según las características de los datos de preferencia humana y la naturaleza de la tarea. ^[44]

Véase también

Referencias

^ Russell, Stuart J.; Norvig, Peter (2016). Inteligencia artificial: un enfoque moderno (tercera edición global). Boston Columbus Indianápolis Nueva York San Francisco Upper Saddle River Ámsterdam Ciudad del Cabo Dubái Londres Madrid Milán Múnich París Montreal Toronto Delhi Ciudad de México São Paulo Sídney Hong Kong Seúl Singapur Taipéi Tokio: Pearson. pp. 830–831. ISBN 978-0-13-604259-4.
^ ab Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). "Ajuste fino de modelos lingüísticos a partir de preferencias humanas". arXiv : 1909.08593 [cs.CL].
^ abcd Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. "Ilustración del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)". huggingface.co . Consultado el 4 de marzo de 2023 .
^ abcde Amodei, Dario; Christiano, Paul; Ray, Alex (13 de junio de 2017). "Aprendiendo de las preferencias humanas". openai.com . Consultado el 4 de marzo de 2023 .
^ Zheng, Rui; Dou, Shihan; Gao, Songyang; Hua, Yuan; Shen, Wei; Wang, Binghai; Liu, Yan; Jin, Senjie; Liu, Qin; Zhou, Yuhao; Xiong, Limao; Chen, Lu; Xi, Zhiheng; Xu, Nuo; Lai, Wenbin; Zhu, Minghao; Chang, Cheng; Yin, Zhangyue; Weng, Rongxiang; Cheng, Wensen; Huang, Haoran; Sol, Tianxiang; Yan, cuelga; Gui, Tao; Zhang, Qi; Qiu, Xipeng; Huang, Xuanjing (2023). "Secretos de RLHF en modelos de lenguaje grandes Parte I: PPO". arXiv : 2307.04964 [cs.CL].
^ Knox, W. Bradley; Stone, Peter; Breazeal, Cynthia (2013). "Entrenamiento de un robot mediante retroalimentación humana: un estudio de caso". Robótica social . Apuntes de clase en informática. Vol. 8239. Springer International Publishing. págs. 460–470. doi :10.1007/978-3-319-02675-6_46. ISBN . 978-3-319-02674-9. Recuperado el 26 de febrero de 2024 .
^ Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). "APRIL: Aprendizaje por refuerzo basado en el aprendizaje de preferencias activas". Aprendizaje automático y descubrimiento de conocimiento en bases de datos . Apuntes de clase en informática. Vol. 7524. Springer. págs. 116–131. arXiv : 1208.0984 . doi :10.1007/978-3-642-33486-3_8. ISBN . 978-3-642-33485-6. Recuperado el 26 de febrero de 2024 .
^ Wilson, Aaron; Fern, Alan; Tadepalli, Prasad (2012). "Un enfoque bayesiano para el aprendizaje de políticas a partir de consultas de preferencias de trayectorias". Avances en sistemas de procesamiento de información neuronal . 25 . Curran Associates, Inc . Consultado el 26 de febrero de 2024 .
^ Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18 de junio de 2014). "Programación por retroalimentación". Actas de la 31.ª Conferencia internacional sobre aprendizaje automático . PMLR: 1503–1511 . Consultado el 26 de febrero de 2024 .
^ Warnell, Garrett; Waytowich, Nicholas; Lawhern, Vernon; Stone, Peter (25 de abril de 2018). "Deep TAMER: modelado interactivo de agentes en espacios de estados de alta dimensión". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 32 (1). arXiv : 1709.10163 . doi :10.1609/aaai.v32i1.11485. S2CID 4130751.
^ MacGlashan, James; Ho, Mark K.; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 de agosto de 2017). "Aprendizaje interactivo a partir de la retroalimentación humana dependiente de la política". Actas de la 34.ª Conferencia Internacional sobre Aprendizaje Automático - Volumen 70. JMLR.org: 2285–2294. arXiv : 1701.06049 .
^ abcdefghij Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). "Aprender a resumir con retroalimentación humana". Avances en sistemas de procesamiento de información neuronal . 33 .
^ abcdefghijkl Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Gray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (31 de octubre de 2022). Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana. Trigésima sexta conferencia sobre sistemas de procesamiento de información neuronal: NeurIPS 2022. arXiv : 2203.02155 .
^ Bai, Yuntao; Jones, Andy; Ndousse, Kamal; Askell, Amanda; Chen, Anna; DasSarma, Nova; Drain, Dawn; Fort, Stanislav; Ganguli, Deep; Henighan, Tom; Joseph, Nicholas; Kadavath, Saurav; Kernion, Jackson; Conerly, Tom; El-Showk, Sheer; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Hume, Tristan; Johnston, Scott; Kravec, Shauna; Lovitt, Liane; Nanda, Neel; Olsson, Catherine; Amodei, Dario; Brown, Tom; Clark, Jack; McCandlish, Sam; Olah, Chris; Mann, Ben; Kaplan, Jared (2022). "Entrenamiento de un asistente útil e inofensivo con aprendizaje de refuerzo a partir de la retroalimentación humana". arXiv : 2204.05862 [cs.CL].
^ ab Edwards, Benj (1 de diciembre de 2022). «OpenAI invita a todos a probar ChatGPT, un nuevo chatbot impulsado por IA, con resultados divertidos». Ars Technica . Consultado el 4 de marzo de 2023 .
^ Abhishek, Gupta (5 de febrero de 2023). "Cómo lograr la participación de las partes interesadas en la IA responsable". VentureBeat . Consultado el 4 de marzo de 2023 .
^ Fernández, Patricio; Madaán, Amán; Liu, Emmy; Farinhas, António; Pedro Henrique Martíns; Bertsch, Amanda; de Souza, José GC; Zhou, Shuyan; Wu, Tongshuang; Neubig, Graham; Martins, André FT (2023). "Cerrando la brecha: una encuesta sobre la integración de la retroalimentación (humana) para la generación del lenguaje natural". arXiv : 2305.00955 [cs.CL].
^ ab Xie, Tengyang; Jiang, Nan; Wang, Huan; Xiong, Caiming; Bai, Yu (2021). "Ajuste de políticas: uniendo el aprendizaje de refuerzo en línea y fuera de línea con eficiencia de muestra". Avances en sistemas de procesamiento de información neuronal . 34 . Curran Associates, Inc.: 27395–27407. arXiv : 2106.04895 . Consultado el 10 de marzo de 2024 .
^ ab Pacchiano, Aldo; Saha, Aadirupa; Lee, Jonathan (3 de marzo de 2023). "Dueling RL: Reinforcement Learning with Trayectory Preferences". Actas de la 26.ª Conferencia Internacional sobre Inteligencia Artificial y Estadística . PMLR: 6263–6289. arXiv : 2111.04850 .
^ ab Zhu, Banghua; Jordan, Michael; Jiao, Jiantao (3 de julio de 2023). "Aprendizaje de refuerzo basado en principios con retroalimentación humana a partir de comparaciones por pares o por K". Actas de la 40.ª Conferencia internacional sobre aprendizaje automático . PMLR: 43037–43067. arXiv : 2301.11270 .
^ Li, Zihao; Yang, Zhuoran; Wang, Mengdi (20 de junio de 2023). "Aprendizaje de refuerzo con retroalimentación humana: aprendizaje de elecciones dinámicas a través del pesimismo". Taller ILHF ICML 2023. arXiv : 2305.18438 . Consultado el 10 de marzo de 2024 .
^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (2022). "Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana". arXiv : 2203.02155 [cs.CL].
^ Wiggers, Kyle (24 de febrero de 2023). "¿Es posible proteger realmente a la IA de los ataques basados en texto?". TechCrunch . Consultado el 4 de marzo de 2023 .
^ Heikkilä, Melissa (21 de febrero de 2023). «Cómo OpenAI intenta hacer que ChatGPT sea más seguro y menos sesgado». MIT Technology Review . Consultado el 4 de marzo de 2023 .
^ Douglas Heaven, Will (30 de noviembre de 2022). "ChatGPT es la última solución de OpenAI para GPT-3. Es elegante, pero sigue arrojando tonterías". MIT Technology Review . Consultado el 4 de marzo de 2023 .
^ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martin; Thacker, Phoebe; Campbell-Gillingham, Lucy; Uesato, Jonathan; Huang, Po-Sen; Comanescu, Ramona; Yang, Fan; See, Abigail; Dathathri, Sumanth; Greig, Rory; Chen, Charlie; Fritz, Doug; Elias, Jaume Sanchez; Green, Richard; Mokrá, Soňa; Fernando, Nicholas; Wu, Boxi; Foley, Rachel; Young, Susannah; Gabriel, Iason; Isaac, William; Mellor, John; Hassabis, Demis; Kavukcuoglu, Koray; Hendricks, Lisa Anne; Irving, Geoffrey (2022). "Mejorar la alineación de los agentes de diálogo mediante juicios humanos específicos". arXiv : 2209.14375 [cs.LG].
^ Goldman, Sharon (23 de septiembre de 2022). "Por qué DeepMind no está implementando su nuevo chatbot de IA y qué significa para una IA responsable". VentureBeat . Consultado el 4 de marzo de 2023 .
^ El equipo Sparrow (22 de septiembre de 2022). «Construyendo agentes de diálogo más seguros». www.deepmind.com . Consultado el 4 de marzo de 2023 .
^ Pinchai, Sundar; Hassabis, Demis (6 de diciembre de 2023). «Presentamos Gemini: nuestro modelo de IA más grande y capaz». Google . Consultado el 29 de febrero de 2024 .
^ Henshall, Will (18 de julio de 2023). "Qué hay que saber sobre Claude 2, el rival de Anthropic para ChatGPT". TIME . Consultado el 6 de marzo de 2024 .
^ Fan, Ying; Watkins, Olivia; Du, Yuqing; Liu, Hao; Ryu, Moonkyung; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Lee, Kangwook; Lee, Kimin (2 de noviembre de 2023). "DPOK: aprendizaje por refuerzo para ajustar los modelos de difusión de texto a imagen". NeurIPS 2023. arXiv : 2305.16381 . Consultado el 1 de marzo de 2024 .
^ Xu, Jiazheng; Liu, Xiao; Wu, Yuchen; Tong, Yuxuan; Li, Qinkai; Ding, Ming; Tang, Jie; Dong, Yuxiao (15 de diciembre de 2023). «ImageReward: aprendizaje y evaluación de las preferencias humanas para la generación de texto a imagen». Avances en sistemas de procesamiento de información neuronal . 36 : 15903–15935. arXiv : 2304.05977 . Consultado el 1 de marzo de 2024 .
^ Lee, Kimin; Liu, Hao; Ryu, Moonkyung; Watkins, Olivia; Du, Yuqing; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Gu, Shixiang Shane (2023). "Alineación de modelos de texto a imagen mediante retroalimentación humana". arXiv : 2302.12192 [cs.LG].
^ Leike, Jan; Martic, Miljan; Legg, Shane (12 de junio de 2017). "Aprendizaje a través de la retroalimentación humana". www.deepmind.com . Consultado el 4 de marzo de 2023 .
^ Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Aprendizaje por refuerzo profundo a partir de las preferencias humanas". Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc . Consultado el 4 de marzo de 2023 .
^ abc Casper, Stephen; Davies, Xander; Shi, Claudia; Gilbert, Thomas Krendl; Scheurer, Jérémy; Rando, Javier; Freedman, Rachel; Korbak, Tomasz; Lindner, David; Freire, Pedro; Wang, Tony Tong; Marks, Samuel; Segerie, Charbel-Raphael; Carroll, Micah; Peng, Andi; Christoffersen, Phillip; Damani, Mehul; Slocum, Stewart; Anwar, Usman; Siththaranjan, Anand; Nadeau, Max; Michaud, Eric J.; Pfau, Jacob; Krasheninnikov, Dmitrii; Chen, Xin; Langosco, Lauro; Hase, Peter; Biyik, Erdem; Dragan, Anca; Krueger, David; Sadigh, Dorsa; Hadfield-Menell, Dylan (18 de septiembre de 2023). "Problemas abiertos y limitaciones fundamentales del aprendizaje por refuerzo a partir de la retroalimentación humana". Transacciones sobre investigación en aprendizaje automático . arXiv : 2307.15217 .
^ Christiano, Paul (25 de enero de 2023). "Reflexiones sobre el impacto de la investigación sobre la RLHF" . Consultado el 4 de marzo de 2023 .
^ Belenguer, Lorenzo (2022). "Sesgo en IA: exploración de modelos de toma de decisiones algorítmicas discriminatorias y la aplicación de posibles soluciones centradas en máquinas adaptadas de la industria farmacéutica". IA y ética . 2 (4). Ética de la IA: 771–787. doi :10.1007/s43681-022-00138-8. PMC 8830968 . PMID 35194591.
^ Zhang, Chiyuan; Bengio, Samy; Hardt, Moritz; Recht, Benjamin; Vinyals, Oriol (4 de noviembre de 2016). "Entender el aprendizaje profundo requiere repensar la generalización". Conferencia internacional sobre representaciones del aprendizaje.
^ Clark, Jack; Amodei, Dario (21 de diciembre de 2016). "Funciones de recompensa defectuosas en la naturaleza". OpenAI.
^ Ansari, Tasmia (6 de octubre de 2023). "El aprendizaje por refuerzo requiere menos humanos y más inteligencia artificial". Revista Analytics India . Consultado el 27 de abril de 2024 .
^ Edwards, Benj (9 de mayo de 2023). «La IA gana «valores» con el nuevo enfoque de chatbot de IA constitucional de Anthropic». Ars Technica . Consultado el 27 de abril de 2024 .
^ Rafailov, Rafael; Sharma, Archit; Mitchell, Eric; Ermon, Stefano; Manning, Christopher D.; Finn, Chelsea (2023). "Optimización directa de preferencias: su modelo de lenguaje es secretamente un modelo de recompensa". arXiv : 2305.18290 [cs.LG].
^ Wang, Zhilin; Dong, Yi; Zeng, Jiaqi; Adams, Virginia; Sreedhar, Makesh Narsimhan; Egert, Daniel; Delalleau, Olivier; Scowcroft, Jane Polak; Kant, Neel; Golpe, Aidan; Kuchaiev, Oleksii (2023). "HelpSteer: conjunto de datos de utilidad de múltiples atributos para SteerLM". arXiv : 2311.09528 [cs.CL].