Aprendizaje reforzado a partir de la retroalimentación humana

En el aprendizaje automático , el aprendizaje reforzado a partir de la retroalimentación humana ( RLHF ) es una técnica para alinear un agente inteligente con las preferencias humanas. En el aprendizaje por refuerzo clásico , el objetivo de dicho agente es aprender una función que guía su comportamiento llamada política . Esta función aprende a maximizar la recompensa que recibe de una función de recompensa separada en función del desempeño de su tarea. ^[1] Sin embargo, en el caso de las preferencias humanas, tiende a ser difícil definir explícitamente una función de recompensa que se aproxime a las preferencias humanas. Por ello, RLHF busca entrenar un "modelo de recompensa" directamente a partir de la retroalimentación humana . ^[2] El modelo de recompensa se entrena primero de forma supervisada , independientemente de la política que se esté optimizando, para predecir si una respuesta a un mensaje determinado es buena (recompensa alta) o mala (recompensa baja) basándose en los datos de clasificación recopilados de anotadores humanos. . Luego, este modelo se utiliza como función de recompensa para mejorar la política de un agente a través de un algoritmo de optimización como la optimización de políticas próximas . ^[3]

RLHF tiene aplicaciones en varios dominios del aprendizaje automático, incluidas tareas de procesamiento del lenguaje natural, como resúmenes de texto y agentes conversacionales , tareas de visión por computadora , como modelos de texto a imagen , y el desarrollo de robots de videojuegos . Si bien RLHF es un método eficaz para entrenar modelos para que actúen mejor de acuerdo con las preferencias humanas, también enfrenta desafíos debido a la forma en que se recopilan los datos de preferencias humanas. Aunque RLHF no requiere cantidades masivas de datos para mejorar el rendimiento, obtener datos de preferencias de alta calidad sigue siendo un proceso costoso. Además, si los datos no se recopilan cuidadosamente a partir de una muestra representativa , el modelo resultante puede presentar sesgos no deseados .

Antecedentes y motivación

Es deseable optimizar un modelo basado en la retroalimentación humana cuando una tarea es difícil de especificar pero fácil de juzgar. ^[4] Por ejemplo, es posible que desee entrenar un modelo para generar texto seguro que sea útil e inofensivo (por ejemplo, sin sesgos , toxicidad o contenido dañino). Pedir a los humanos que creen manualmente ejemplos de texto inofensivo y dañino sería difícil y llevaría mucho tiempo. Sin embargo, los humanos son expertos en evaluar y comparar rápidamente la nocividad de diferentes textos generados por IA. Por tanto, un objetivo más práctico sería permitir que el modelo utilice este tipo de retroalimentación humana para mejorar su generación de texto. ^[5]

A pesar de los claros beneficios de incorporar la retroalimentación humana en los modelos de capacitación, los esfuerzos anteriores (incluidos algunos que aprovechan el aprendizaje por refuerzo ) han encontrado desafíos importantes. La mayoría de los intentos fueron limitados y difíciles de generalizar, desglosándose en tareas más complejas, ^[6]^[7]^[8]^[9] o enfrentaron dificultades para aprender de forma escasa (carecían de información específica y se relacionaban con grandes cantidades de texto a la vez). ) o funciones de recompensa ruidosas (que recompensan de manera inconsistente resultados similares). ^[10]^[11]

RLHF no fue el primer método exitoso de utilizar la retroalimentación humana para el aprendizaje por refuerzo, pero es uno de los más utilizados. La base de RLHF se introdujo como un intento de crear un algoritmo general para aprender a partir de una cantidad práctica de retroalimentación humana. ^[4]^[3]OpenAI presentó el algoritmo tal como se usa hoy en un artículo sobre cómo mejorar la continuación o el resumen de texto basado en comentarios humanos, y comenzó a ganar popularidad cuando se reutilizó el mismo método en su artículo sobre InstructGPT . ^[2]^[12]^[13] También se ha demostrado que RLHF mejora la robustez de los agentes RL y su capacidad de exploración , lo que resulta en un proceso de optimización más hábil para manejar la incertidumbre y explorar eficientemente su entorno en busca de la mayor recompensa. ^[14]

Recopilación de comentarios humanos

La retroalimentación humana se recopila comúnmente instándolos a clasificar instancias del comportamiento del agente. ^[13]^[15]^[16] Estas clasificaciones se pueden usar para calificar resultados, por ejemplo, usando el sistema de calificación Elo , que es un algoritmo para calcular los niveles de habilidad relativos de los jugadores en un juego basándose únicamente en el resultado de cada uno. juego. ^[3] Si bien clasificar los resultados es la forma de retroalimentación más ampliamente adoptada, investigaciones recientes han explorado otras formas, como la retroalimentación numérica, la retroalimentación en lenguaje natural y la solicitud de ediciones directas a la salida del modelo. ^[17]

Una motivación inicial del RLHF fue que requiere cantidades relativamente pequeñas de datos de comparación para ser efectivo. ^[4] Se ha demostrado que una pequeña cantidad de datos puede conducir a resultados comparables a una cantidad mayor. Además, aumentar la cantidad de datos tiende a ser menos eficaz que aumentar proporcionalmente el tamaño del modelo de recompensa. ^[12] Sin embargo, una cantidad mayor y más diversa de datos puede ser crucial para tareas en las que es importante evitar el sesgo de un grupo parcialmente representativo de anotadores. ^[13]

Al aprender de la retroalimentación humana mediante comparaciones por pares según el modelo Bradley-Terry-Luce (o el modelo Plackett-Luce para comparaciones K en más de dos comparaciones), se ha demostrado que el estimador de máxima verosimilitud (MLE) para funciones de recompensa lineales convergen si los datos de comparación se generan bajo un modelo lineal bien especificado . Esto implica que, bajo ciertas condiciones, si se entrena un modelo para decidir qué opciones preferiría la gente entre pares (o grupos) de opciones, necesariamente mejorará en la predicción de preferencias futuras. Se espera esta mejora siempre que las comparaciones de las que aprenda se basen en una regla coherente y sencilla. ^[18]^[19]

Tanto los modelos de recopilación de datos fuera de línea, donde el modelo aprende interactuando con un conjunto de datos estáticos y actualizando su política en lotes, como los modelos de recopilación de datos en línea, donde el modelo interactúa directamente con el entorno dinámico y actualiza su política de inmediato, han sido matemáticamente estudió la demostración de los límites de complejidad de la muestra para RLHF bajo diferentes modelos de retroalimentación. ^[18]^[20]

En el modelo de recopilación de datos fuera de línea, cuando el objetivo es la capacitación en políticas, un MLE pesimista que incorpore un límite de confianza inferior como estimación de recompensa es más efectivo. Además, cuando corresponde, se ha demostrado que considerar comparaciones K directamente es asintóticamente más eficiente que convertirlas en comparaciones por pares con fines de predicción. ^[20]^[21]^[13]

En el escenario en línea, cuando se recopila retroalimentación humana a través de comparaciones por pares bajo el modelo Bradley-Terry-Luce y el objetivo es minimizar el arrepentimiento del algoritmo (la diferencia en el rendimiento en comparación con un agente óptimo), se ha demostrado que un MLE optimista que incorpora un límite de confianza superior ya que la estimación de recompensa se puede utilizar para diseñar algoritmos de muestra eficientes (lo que significa que requieren relativamente pocos datos de entrenamiento). Un desafío clave en RLHF a la hora de aprender de comparaciones por pares (o en duelo) está asociado con la naturaleza no markoviana de sus políticas óptimas. A diferencia de escenarios más simples donde la estrategia óptima no requiere memoria de acciones pasadas, en RLHF, el mejor curso de acción a menudo depende de eventos y decisiones anteriores, lo que hace que la estrategia sea inherentemente dependiente de la memoria. ^[19]

Aplicaciones

RLHF se ha aplicado a varios dominios del procesamiento del lenguaje natural (PNL), como agentes conversacionales, resumen de textos y comprensión del lenguaje natural. ^[22]^[12] El aprendizaje por refuerzo ordinario, en el que los agentes aprenden de sus acciones basándose en una "función de recompensa" predefinida, es difícil de aplicar a las tareas de PNL porque las recompensas tienden a ser difíciles de definir o medir, especialmente cuando se trata de tareas complejas. tareas que involucran valores o preferencias humanas. ^[4] RLHF puede dirigir los modelos de PNL, en particular los modelos de lenguaje , para proporcionar respuestas que se alineen con las preferencias humanas con respecto a tales tareas al capturar sus preferencias de antemano en el modelo de recompensa. Esto da como resultado un modelo capaz de generar respuestas más relevantes y rechazar consultas inapropiadas o irrelevantes. ^[13]^[23] Algunos ejemplos notables de modelos de lenguaje entrenados por RLHF son ChatGPT de OpenAI (y su predecesor InstructGPT ), ^[15]^[24]^[25]Sparrow de DeepMind , ^[26]^[27]^[28]Gemini de Google , ^[29] y Claude de Anthropic . ^[30]

En visión por computadora, RLHF también se ha utilizado para alinear modelos de texto con imagen . Los estudios que utilizaron con éxito RLHF para este objetivo han señalado que el uso de la regularización de KL en RLHF, cuyo objetivo es evitar que la política aprendida se desvíe demasiado del modelo no alineado, ayudó a estabilizar el proceso de capacitación al reducir el sobreajuste del modelo de recompensa. Se observó que los resultados de imágenes finales de los modelos entrenados con la regularización KL eran de una calidad significativamente mayor que los entrenados sin ella. ^[31]^[32] Otros métodos intentaron incorporar la retroalimentación a través de un entrenamiento más directo, basado en maximizar la recompensa sin el uso de aprendizaje por refuerzo, pero admitieron que un enfoque basado en RLHF probablemente funcionaría mejor debido a la generación de muestras en línea utilizada en RLHF durante las actualizaciones, así como la regularización de KL antes mencionada sobre el modelo anterior, lo que mitiga el sobreajuste de la función de recompensa. ^[33]

RLHF se aplicó inicialmente a otras áreas, como el desarrollo de robots de videojuegos y tareas en robótica simulada . Por ejemplo, OpenAI y DeepMind capacitaron a agentes para jugar juegos de Atari según las preferencias humanas. En el entrenamiento clásico de dichos bots basado en RL, la función de recompensa simplemente se correlaciona con el desempeño del agente en el juego, generalmente usando métricas como la puntuación en el juego . En comparación, en RLHF, a un humano se le presentan periódicamente dos clips del comportamiento del agente en el juego y debe decidir cuál se ve mejor. Este enfoque puede enseñar a los agentes a desempeñarse a un nivel competitivo sin tener acceso a su puntuación. De hecho, se demostró que RLHF a veces puede conducir a un rendimiento superior al RL con métricas de puntuación porque las preferencias humanas pueden contener información más útil que las métricas basadas en el rendimiento. ^[4]^[34] Los agentes lograron un rendimiento sólido en muchos de los entornos probados, superando a menudo el rendimiento humano. ^[35]

Capacitación

En RLHF se entrenan dos modelos diferentes: un modelo de recompensa y una política de aprendizaje por refuerzo (RL). El modelo de recompensa aprende a determinar qué comportamiento es deseable basándose en la retroalimentación humana, mientras que la política se guía por el modelo de recompensa para determinar las acciones del agente. Ambos modelos se inicializan comúnmente utilizando un modelo de lenguaje autorregresivo previamente entrenado . Luego, este modelo se entrena habitualmente de manera supervisada en un conjunto de datos relativamente pequeño de pares de indicaciones a un asistente y las respuestas que las acompañan, escritas por anotadores humanos. El modelo de recompensa se beneficia al comenzar con un modelo previamente entrenado, ya que esto lo inicializa con una comprensión del lenguaje y enfoca el entrenamiento explícitamente en el aprendizaje de las preferencias humanas, acelerando el proceso. Además de usarse para inicializar el modelo de recompensa y la política de RL, el modelo también se usa para muestrear datos que los anotadores compararán. ^[13]^[12]

Luego, el modelo de recompensa se entrena reemplazando la capa final del modelo anterior con un cabezal de regresión inicializado aleatoriamente. Este cambio cambia el modelo de su tarea de clasificación original sobre su vocabulario a simplemente generar un número correspondiente a la puntuación de cualquier mensaje y respuesta determinados. Este modelo se entrena con los datos de comparación de preferencias humanas recopilados anteriormente del modelo supervisado. En particular, está capacitado para minimizar la siguiente función de pérdida de entropía cruzada , lo que lo incentiva a hacer predicciones que se acercan más a las calificaciones humanas reales:

${\mathcal {L}}(\theta )=-{\frac {1}{K \choose 2}}E_{(x,y_{w},y_{l})}[\log(\sigma (r_{\theta }(x,y_{w})-r_{\theta }(x,y_{l})))]$

donde es el número de respuestas que clasificaron los etiquetadores, es el resultado del modelo de recompensa por solicitud y finalización , es la finalización preferida sobre , denota la función sigmoidea y denota el valor esperado . ^[13] Esta función de pérdida esencialmente mide la diferencia entre las predicciones del modelo de recompensa y las decisiones tomadas por los humanos. El objetivo es acercar lo más posible las conjeturas del modelo a las preferencias de los humanos minimizando la diferencia medida por esta ecuación. En el caso de comparaciones únicamente por pares, se omite el factor de. ^[12] De lo contrario, todas las comparaciones de cada mensaje se utilizan para el entrenamiento como un solo lote . ^[13] Después del entrenamiento, los resultados del modelo se normalizan de modo que las terminaciones de referencia tengan una puntuación media de 0. ^[12] $K$ $r_{\theta }(x,y)$ $x$ $y$ $y_{w}$ $y_{l}$ $\sigma (x)$ $E[X]$ $1/{\tbinom {K}{2}}$ ${\tbinom {K}{2}}$

De manera similar al modelo de recompensa, la política de retroalimentación humana también se ajusta con respecto al modelo previamente entrenado. El objetivo de este paso de ajuste es adaptar el modelo no alineado preexistente (inicialmente entrenado de manera supervisada) para alinearse mejor con las preferencias humanas ajustando sus parámetros en función de las recompensas derivadas de la retroalimentación humana. El resultado del modelo de recompensa se puede utilizar como recompensa a maximizar utilizando RL para los pares de respuesta rápida. ^[12] El entorno presenta aleatoriamente la política con indicaciones del conjunto de datos y espera respuestas a ellas, simulando escenarios del mundo real donde el agente debe comprender diversas indicaciones y generar respuestas apropiadas. Al denotar la política de RL aprendida con parámetros como , podemos definir la siguiente función objetivo: $\phi$ $\pi _{\phi }^{\text{RL}}$

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]$

¿Dónde está la distribución de entrenamiento de la que nos basamos y es el modelo no alineado previamente entrenado? La constante se utiliza para ajustar la intensidad del término de penalización de KL. Esta penalización se aplica sobre una base simbólica entre la política y los resultados de los modelos no alineados. Su propósito es evitar un ajuste excesivo de la política, asegurando que el proceso de capacitación no especialice demasiado el modelo en los nuevos datos de capacitación. ^[13]^[12] Este término de KL funciona penalizando la divergencia de KL (una medida de distancia estadística entre distribuciones) entre el modelo que se está ajustando y el modelo supervisado inicial. Al elegir un modelo apropiado , la capacitación puede equilibrar el aprendizaje a partir de nuevos datos y, al mismo tiempo, conservar información útil del modelo inicial, lo que aumenta la generalización al evitar ajustarse demasiado a los nuevos datos. Además de evitar que el nuevo modelo produzca resultados demasiado diferentes a los del modelo inicial, una segunda motivación para incluir el término KL es permitir que la política explore más el entorno fomentando una entropía adicional , que puede evitar que el modelo colapse en un único modelo. modo . ^[12] $D_{\pi _{\phi }^{\text{RL}}}$ $\pi ^{\text{SFT}}$ $\beta$ $\beta$

En términos más simples, la función objetivo calcula qué tan bien se espera que las respuestas de la política se alineen con la retroalimentación humana. La política genera respuestas a indicaciones, y cada respuesta se evalúa en función de qué tan bien coincide con las preferencias humanas (medidas por el modelo de recompensa) y qué tan similar es a las respuestas que el modelo generaría naturalmente. El objetivo es equilibrar la mejora de la alineación con las preferencias humanas y al mismo tiempo garantizar que las respuestas del modelo sigan siendo diversas y no muy alejadas de lo que ha aprendido durante su formación inicial. Esto ayuda al modelo no sólo a proporcionar respuestas que las personas encuentren útiles o agradables, sino también a mantener una comprensión amplia y evitar respuestas demasiado estrechas o repetitivas.

Comúnmente se agrega un segundo término a la función objetivo que permite que la política incorpore los gradientes previos a la capacitación. Este término evita que el modelo pierda su capacidad inicial de comprensión del lenguaje mientras aprende nuevas tareas basadas en la retroalimentación humana al incorporar su tarea original previa al entrenamiento de completar texto. La función objetivo final se escribe como:

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]+\gamma E_{x\sim D_{\text{pretrain}}}[\log(\pi _{\phi }^{\text{RL}}(x))]$

donde controla la fuerza de este término adicional y es la distribución del texto original previo al entrenamiento. ^[13] Esta función objetivo se puede utilizar directamente para entrenar la política utilizando el algoritmo de optimización de política proximal . ^[13]^[12] $\gamma$ $D_{\text{pretrain}}$

En total, esta función objetivo define el método para ajustar la política de RL, combinando el objetivo de alinearse con la retroalimentación humana y mantener la comprensión del lenguaje original del modelo.

Limitaciones

RLHF enfrenta desafíos a la hora de recopilar comentarios humanos, aprender un modelo de recompensa y optimizar la política. ^[36] En términos de recopilación de datos, la escalabilidad y el costo de la retroalimentación humana pueden ser lentos y costosos en comparación con el aprendizaje no supervisado. Su calidad y coherencia pueden variar según la tarea, la interfaz y las preferencias y prejuicios de los seres humanos individuales. ^[13]^[37]

La eficacia de RLHF depende de la calidad de la retroalimentación humana. Por ejemplo, el modelo puede volverse sesgado , favoreciendo a ciertos grupos sobre otros, si la retroalimentación carece de imparcialidad, es inconsistente o incorrecta. ^[3]^[38] Existe el riesgo de sobreajuste , donde el modelo memoriza ejemplos de retroalimentación específicos en lugar de aprender a generalizar . Por ejemplo, la retroalimentación predominantemente de un grupo demográfico específico podría llevar al modelo a aprender peculiaridades o ruido, junto con la alineación prevista. Una alineación excesiva con la retroalimentación específica que recibió (es decir, con el sesgo existente) puede hacer que el modelo funcione de manera subóptima en nuevos contextos o cuando lo utilicen diferentes grupos. ^[39] Una única función de recompensa no siempre puede representar las opiniones de diversos grupos de personas. Incluso con una muestra representativa, los puntos de vista y preferencias contradictorios pueden dar lugar a que el modelo de recompensa favorezca la opinión de la mayoría, lo que podría poner en desventaja a los grupos subrepresentados. ^[36]

En algunos casos, como es posible en el aprendizaje por refuerzo regular , puede existir el riesgo de que el modelo aprenda a manipular el proceso de retroalimentación o a jugar con el sistema para lograr mayores recompensas en lugar de mejorar genuinamente su desempeño. ^[40] En el caso de RLHF, un modelo puede aprender a explotar el hecho de que es recompensado por lo que se evalúa positivamente y no necesariamente por lo que es realmente bueno, lo que puede llevarlo a aprender a persuadir y manipular. Por ejemplo, los modelos podrían aprender que la confianza aparente, incluso si es inexacta, genera mayores recompensas. Este comportamiento, si no se controla, no sólo se incentiva sino que puede causar importantes problemas de implementación debido al potencial del modelo para inducir a error. Los estudios han encontrado que los humanos no están capacitados para identificar errores en los resultados del LLM en tareas complejas; por lo tanto, los modelos que aprenden a generar texto que suena seguro pero incorrecto pueden generar problemas importantes cuando se implementan. ^[36]

Alternativas

Se ha propuesto una alternativa a RLHF llamada Optimización de preferencias directas (DPO) para conocer las preferencias humanas. Al igual que RLHF, se ha aplicado para alinear modelos de lenguaje grandes previamente entrenados utilizando datos de preferencias generados por humanos. Sin embargo, a diferencia de RLHF, que primero entrena un modelo intermedio separado para comprender cómo son los buenos resultados y luego enseña al modelo principal cómo lograr esos resultados, DPO simplifica el proceso ajustando directamente el modelo principal según las preferencias de las personas. Utiliza un cambio de variables para definir la " pérdida de preferencias " directamente como una función de la política y utiliza esta pérdida para afinar el modelo, ayudándolo a comprender y priorizar las preferencias humanas sin necesidad de un paso separado. Esencialmente, este enfoque da forma directamente a las decisiones del modelo en función de la retroalimentación humana positiva o negativa.

DPO es más sencillo de implementar y capacitar que RLHF y se ha demostrado que produce resultados comparables y, en ocasiones, superiores. ^[41] Sin embargo, también se ha demostrado que RLHF supera a DPO en algunos conjuntos de datos, por ejemplo, en puntos de referencia que intentan medir la veracidad. Por lo tanto, la elección del método puede variar según las características de los datos de preferencia humana y la naturaleza de la tarea. ^[42]

Ver también

Referencias

^ Russell, Stuart J.; Norvig, Peter (2016). Inteligencia artificial: un enfoque moderno (tercera edición global). Boston Columbus Indianápolis Nueva York San Francisco Upper Saddle River Ámsterdam Ciudad del Cabo Dubai Londres Madrid Milán Múnich París Montreal Toronto Delhi Ciudad de México Sao Paulo Sídney Hong Kong Seúl Singapur Taipei Tokio: Pearson. págs. 830–831. ISBN 978-0-13-604259-4.
^ ab Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Marrón, Tom B.; Radford, Alec; Amodei, Darío; Cristiano, Pablo; Irving, Geoffrey (2019). "Ajustar modelos de lenguaje a partir de preferencias humanas". arXiv : 1909.08593 [cs.CL].
^ abcd Lambert, Nathan; Castricato, Luis; von Werra, Leandro; Havrilla, Alex. "Ilustración del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)". abrazandoface.co . Consultado el 4 de marzo de 2023 .
^ abcde Amodei, Darío; Cristiano, Pablo; Ray, Alex (13 de junio de 2017). "Aprender de las preferencias humanas". openai.com . Consultado el 4 de marzo de 2023 .
^ Zheng, Rui; Dou, Shihan; Gao, Songyang; Hua, Yuan; Shen, Wei; Wang, Binghai; Liu, Yan; Jin, Senjie; Liu, Qin; Zhou, Yuhao; Xiong, Limao; Chen, Lu; Xi, Zhiheng; Xu, Nuo; Lai, Wenbin; Zhu, Minghao; Chang, Cheng; Yin, Zhangyue; Weng, Rongxiang; Cheng, Wensen; Huang, Haoran; Sol, Tianxiang; Yan, cuelga; Gui, Tao; Zhang, Qi; Qiu, Xipeng; Huang, Xuanjing (2023). "Secretos de RLHF en modelos de lenguaje grandes Parte I: PPO". arXiv : 2307.04964 [cs.CL].
^ Knox, W. Bradley; Piedra, Pedro; Breazeal, Cynthia (2013). "Entrenamiento de un robot mediante retroalimentación humana: un estudio de caso". Robótica Social . Apuntes de conferencias sobre informática. 8239 . Publicaciones internacionales Springer: 460–470. doi :10.1007/978-3-319-02675-6_46. ISBN 978-3-319-02674-9. Consultado el 26 de febrero de 2024 .
^ Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). "ABRIL: Aprendizaje por refuerzo basado en el aprendizaje de preferencia activa". Aprendizaje automático y descubrimiento de conocimiento en bases de datos . Apuntes de conferencias sobre informática. 7524 . Saltador: 116-131. arXiv : 1208.0984 . doi :10.1007/978-3-642-33486-3_8. ISBN 978-3-642-33485-6. Consultado el 26 de febrero de 2024 .
^ Wilson, Aarón; Helecho, Alan; Tadepalli, Prasad (2012). "Un enfoque bayesiano para el aprendizaje de políticas a partir de consultas de preferencia de trayectoria". Avances en los sistemas de procesamiento de información neuronal . 25 . Curran asociados, Inc. Consultado el 26 de febrero de 2024 .
^ Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18 de junio de 2014). "Programación por retroalimentación". Actas de la 31ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 1503-1511 . Consultado el 26 de febrero de 2024 .
^ Warnell, Garrett; Waytowich, Nicolás; Lawhern, Vernon; Stone, Peter (25 de abril de 2018). "Deep TAMER: modelado de agentes interactivos en espacios de estado de alta dimensión". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 32 (1). arXiv : 1709.10163 . doi : 10.1609/aaai.v32i1.11485. S2CID 4130751.
^ MacGlashan, James; Hola, Mark K.; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Mateo E.; Littman, Michael L. (6 de agosto de 2017). "Aprendizaje interactivo a partir de comentarios humanos dependientes de políticas". Actas de la 34ª Conferencia Internacional sobre Aprendizaje Automático - Volumen 70 . JMLR.org: 2285–2294. arXiv : 1701.06049 .
^ abcdefghij Nisan Stiennon; Largo Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Darío Amodei; Pablo F. Christiano (2020). "Aprender a resumir con retroalimentación humana". Avances en los sistemas de procesamiento de información neuronal . 33 .
^ abcdefghijkl Ouyang, largo; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Gris, Alex; Schulman, Juan; Hilton, Jacob; Kelton, Fraser; Molinero, Lucas; Simens, Maddie; Askell, Amanda; Welinder, Peter; Cristiano, Pablo; Leike, enero; Lowe, Ryan (31 de octubre de 2022). Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana. Trigésima sexta conferencia sobre sistemas de procesamiento de información neuronal: NeurIPS 2022. arXiv : 2203.02155 .
^ Bai, Yuntao; Jones, Andy; Ndousse, Kamal; Askell, Amanda; Chen, Anna; DasSarma, Nova; Drenaje, amanecer; Fuerte, Stanislav; Ganguli, Profundo; Henighan, Tom; José, Nicolás; Kadavath, Saurav; Kernion, Jackson; Conerly, Tom; El-Showk, pura; Elhage, Nelson; Hatfield-Dodds, Zac; Hernández, Danny; Hume, Tristán; Johnston, Scott; Kravec, Shauna; Lovitt, Liane; Nanda, Neel; Olsson, Catalina; Amodei, Darío; Marrón, Tom; Clark, Jack; McCandlish, Sam; Ola, Chris; Mann, Ben; Kaplan, Jared (2022). "Formación de un asistente útil e inofensivo con aprendizaje reforzado a partir de la retroalimentación humana". arXiv : 2204.05862 [cs.CL].
^ ab Edwards, Benj (1 de diciembre de 2022). "OpenAI invita a todos a probar ChatGPT, un nuevo chatbot impulsado por IA, con resultados divertidos". Ars Técnica . Consultado el 4 de marzo de 2023 .
^ Abhishek, Gupta (5 de febrero de 2023). "Lograr la participación adecuada de las partes interesadas en una IA responsable". VentureBeat . Consultado el 4 de marzo de 2023 .
^ Fernández, Patricio; Madaán, Amán; Liu, Emmy; Farinhas, António; Pedro Henrique Martíns; Bertsch, Amanda; de Souza, José GC; Zhou, Shuyan; Wu, Tongshuang; Neubig, Graham; Martins, André FT (2023). "Cerrando la brecha: una encuesta sobre la integración de la retroalimentación (humana) para la generación del lenguaje natural". arXiv : 2305.00955 [cs.CL].
^ ab Xie, Tengyang; Jiang, Nan; Wang, Huan; Xiong, Caiming; Bai, Yu (2021). "Ajuste de políticas: uniendo el aprendizaje de refuerzo en línea y fuera de línea con eficiencia de muestreo". Avances en los sistemas de procesamiento de información neuronal . 34 . Curran Associates, Inc.: 27395–27407. arXiv : 2106.04895 . Consultado el 10 de marzo de 2024 .
^ ab Pacchiano, Aldo; Saha, Aadirupa; Lee, Jonathan (3 de marzo de 2023). "Duelo RL: aprendizaje por refuerzo con preferencias de trayectoria". Actas de la 26ª Conferencia Internacional sobre Inteligencia Artificial y Estadística . PMLR: 6263–6289. arXiv : 2111.04850 .
^ ab Zhu, Banghua; Jordán, Michael; Jiao, Jiantao (3 de julio de 2023). "Aprendizaje por refuerzo de principios con retroalimentación humana a partir de comparaciones por pares o por K". Actas de la 40ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 43037–43067. arXiv : 2301.11270 .
^ Li, Zihao; Yang, Zhuoran; Wang, Mengdi (20 de junio de 2023). "Aprendizaje por refuerzo con retroalimentación humana: aprendizaje de opciones dinámicas a través del pesimismo". Taller ILHF ICML 2023 . arXiv : 2305.18438 . Consultado el 10 de marzo de 2024 .
^ Ouyang, largo; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Rayo, Alex; Schulman, Juan; Hilton, Jacob; Kelton, Fraser; Molinero, Lucas; Simens, Maddie; Askell, Amanda; Welinder, Peter; Cristiano, Pablo; Leike, enero; Lowe, Ryan (2022). "Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana". arXiv : 2203.02155 [cs.CL].
^ Wiggers, Kyle (24 de febrero de 2023). "¿Se puede realmente proteger la IA de los ataques basados en texto?". TechCrunch . Consultado el 4 de marzo de 2023 .
^ Heikkilä, Melissa (21 de febrero de 2023). "Cómo OpenAI intenta hacer que ChatGPT sea más seguro y menos sesgado". Revisión de tecnología del MIT . Consultado el 4 de marzo de 2023 .
^ Douglas Heaven, Will (30 de noviembre de 2022). "ChatGPT es la última solución de OpenAI para GPT-3. Es ingenioso pero aún dice tonterías". Revisión de tecnología del MIT . Consultado el 4 de marzo de 2023 .
^ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, Juan; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martín; Thacker, Phoebe; Campbell-Gillingham, Lucy; Uesato, Jonathan; Huang, Po-Sen; Comanascu, Ramona; Yang, ventilador; Mira, Abigail; Dathathri, Sumanth; Greig, Rory; Chen, Charlie; Fritz, Doug; Elías, Jaume Sánchez; Verde, Ricardo; Mokrá, Soňa; Fernando, Nicolás; Wu, Boxi; Foley, Raquel; Joven, Susana; Gabriel, Iason; Isaac, Guillermo; Mellor, Juan; Hassabis, Demis; Kavukcuoglu, Koray; Hendricks, Lisa Anne; Irving, Geoffrey (2022). "Mejorar la alineación de los agentes de diálogo mediante juicios humanos específicos". arXiv : 2209.14375 [cs.LG].
^ Goldman, Sharon (23 de septiembre de 2022). "Por qué DeepMind no está implementando su nuevo chatbot de IA y qué significa para una IA responsable". VentureBeat . Consultado el 4 de marzo de 2023 .
^ El equipo Sparrow (22 de septiembre de 2022). "Construyendo agentes de diálogo más seguros". www.deepmind.com . Consultado el 4 de marzo de 2023 .
^ Pinchai, Sundar; Hassabis, Demis (6 de diciembre de 2023). "Presentamos Gemini: nuestro modelo de IA más grande y capaz". Google . Consultado el 29 de febrero de 2024 .
^ Henshall, Will (18 de julio de 2023). "Lo que hay que saber sobre Claude 2, el rival de Anthropic para ChatGPT". TIEMPO . Consultado el 6 de marzo de 2024 .
^ Fanático, Ying; Watkins, Olivia; Du, Yuqing; Liu, Hao; Ryu, Moon Kyung; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Lee, Kangwook; Lee, Kimin (2 de noviembre de 2023). "DPOK: aprendizaje por refuerzo para ajustar los modelos de difusión de texto a imagen". NeuroIPS 2023 . arXiv : 2305.16381 . Consultado el 1 de marzo de 2024 .
^ Xu, Jiazheng; Liu, Xiao; Wu, Yuchen; Tong, Yuxuan; Li, Qinkai; Ding, Ming; Tang, Jie; Dong, Yuxiao (15 de diciembre de 2023). "ImageReward: aprendizaje y evaluación de las preferencias humanas para la generación de texto a imagen". Avances en los sistemas de procesamiento de información neuronal . 36 : 15903–15935. arXiv : 2304.05977 . Consultado el 1 de marzo de 2024 .
^ Lee, Kimin; Liu, Hao; Ryu, Moon Kyung; Watkins, Olivia; Du, Yuqing; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Gu, Shixiang Shane (2023). "Alinear modelos de texto a imagen mediante comentarios humanos". arXiv : 2302.12192 [cs.LG].
^ Leike, enero; Martic, Miljan; Legg, Shane (12 de junio de 2017). "Aprender a través de la retroalimentación humana". www.deepmind.com . Consultado el 4 de marzo de 2023 .
^ Cristiano, Paul F; Leike, enero; Marrón, Tom; Martic, Miljan; Legg, Shane; Amodei, Darío (2017). "Aprendizaje por refuerzo profundo a partir de las preferencias humanas". Avances en los sistemas de procesamiento de información neuronal . 30 . Curran asociados, Inc. Consultado el 4 de marzo de 2023 .
^ a B C Casper, Stephen; Davies, Xander; Shi, Claudia; Gilbert, Thomas Krendl; Scheurer, Jérémy; Rando, Javier; Liberto, Raquel; Korbak, Tomasz; Lindner, David; Freire, Pedro; Wang, Tony Tong; Marcos, Samuel; Segerie, Charbel-Raphael; Carroll, Miqueas; Peng, Andi; Christoffersen, Phillip; Damani, Mehul; Slocum, Stewart; Anwar, Usman; Siththaranjan, Anand; Nadeau, Max; Michaud, Eric J.; Pfau, Jacob; Krasheninnikov, Dmitrii; Chen, Xin; Langosco, Lauro; Hase, Pedro; Biyik, Erdem; Dragán, Anca; Krueger, David; Sadigh, Dorsa; Hadfield-Menell, Dylan (18 de septiembre de 2023). "Problemas abiertos y limitaciones fundamentales del aprendizaje por refuerzo a partir de la retroalimentación humana". Transacciones sobre investigación en aprendizaje automático . arXiv : 2307.15217 .
^ Cristiano, Pablo. "Reflexiones sobre el impacto de la investigación del RLHF" . Consultado el 4 de marzo de 2023 .
^ Belenguer, Lorenzo (2022). "Sesgo de IA: exploración de modelos algorítmicos discriminatorios de toma de decisiones y la aplicación de posibles soluciones centradas en máquinas adaptadas de la industria farmacéutica". IA y ética . 2 (4). Ética de la IA: 771–787. doi :10.1007/s43681-022-00138-8. PMC 8830968 . PMID 35194591.
^ Zhang, Chiyuan; Bengio, Samy; Hardt, Moritz; Recht, Benjamín; Vinyals, Oriol (4 de noviembre de 2016). "Comprender el aprendizaje profundo requiere repensar la generalización". Conferencia Internacional sobre Representaciones del Aprendizaje.
^ Clark, Jack; Amodei, Darío (21 de diciembre de 2016). "Funciones de recompensa defectuosas en la naturaleza". OpenAI.
^ Rafailov, Rafael; Sharma, Archit; Mitchell, Eric; Ermón, Stefano; Manning, Christopher D.; Finlandés, Chelsea (2023). "Optimización de preferencias directas: su modelo de lenguaje es secretamente un modelo de recompensa". arXiv : 2305.18290 [cs.LG].
^ Wang, Zhilin; Dong, Yi; Zeng, Jiaqi; Adams, Virginia; Sreedhar, Makesh Narsimhan; Egert, Daniel; Delalleau, Olivier; Scowcroft, Jane Polak; Kant, Neel; Golpe, Aidan; Kuchaiev, Oleksii (2023). "HelpSteer: conjunto de datos de utilidad de múltiples atributos para SteerLM". arXiv : 2311.09528 [cs.CL].