Sparrow es un chatbot desarrollado por el laboratorio de investigación de inteligencia artificial DeepMind , una subsidiaria de Alphabet Inc. Está diseñado para responder correctamente las preguntas de los usuarios, al tiempo que reduce el riesgo de respuestas inseguras e inapropiadas. [1] Una motivación detrás de Sparrow es abordar el problema de los modelos de lenguaje que producen resultados incorrectos, sesgados o potencialmente dañinos. [1] [2] Sparrow se entrena utilizando juicios humanos, para ser más “útil, correcto e inofensivo” en comparación con los modelos de lenguaje básicos previamente entrenados. [1] El desarrollo de Sparrow implicó pedir a los participantes pagados del estudio que interactuaran con Sparrow y recopilar sus preferencias para entrenar un modelo de cuán útil es una respuesta. [2]
Para mejorar la precisión y ayudar a evitar el problema de alucinar respuestas incorrectas, Sparrow tiene la capacidad de buscar en Internet utilizando la Búsqueda de Google [1] [2] [3] para encontrar y citar evidencia de cualquier afirmación fáctica que haga.
Para que el modelo sea más seguro, su comportamiento está limitado por un conjunto de reglas, por ejemplo "no hacer declaraciones amenazantes" y "no hacer comentarios de odio o insultantes", así como reglas sobre consejos posiblemente dañinos y no reclamar ser una persona. [1] Durante el estudio de desarrollo, se pidió a los participantes que conversaran con el sistema y trataran de engañarlo para que rompiera estas reglas. [2] Se entrenó un 'modelo de reglas' a partir de los juicios de estos participantes, que se utilizó para capacitación adicional.
Sparrow se presentó en un artículo de septiembre de 2022, titulado "Mejorar la alineación de los agentes de diálogo mediante juicios humanos específicos"; [4] sin embargo, el bot no se hizo público. [1] [3] El director ejecutivo de DeepMind, Demis Hassabis, dijo que DeepMind está considerando lanzar Sparrow para una "beta privada" en algún momento de 2023. [4] [5] [6]
Sparrow es una red neuronal profunda basada en la arquitectura del modelo de aprendizaje automático transformador . Está ajustado a partir del modelo de lenguaje grande (LLM) previamente entrenado con Chinchilla AI de DeepMind, [1] que tiene 70 mil millones de parámetros. [7]
Sparrow se entrena mediante el aprendizaje reforzado a partir de la retroalimentación humana (RLHF), [1] [3] aunque también se utilizan algunas técnicas de ajuste supervisado. El entrenamiento RLHF utiliza dos modelos de recompensa para capturar los juicios humanos: un "modelo de preferencia" que predice lo que preferiría un participante del estudio humano y un "modelo de reglas" que predice si el modelo ha roto una de las reglas. [3]
El corpus de datos de entrenamiento de Sparrow está principalmente en inglés, lo que significa que funciona peor en otros idiomas. [ cita necesaria ]
Cuando los participantes del estudio lo cuestionan de manera adversa, infringe las reglas el 8% de las veces; [2] sin embargo, esto sigue siendo tres veces menor que el modelo preentrenado impulsado por la línea de base (Chinchilla).