Chinchilla es una familia de grandes modelos de lenguaje (LLM) desarrollados por el equipo de investigación de Google DeepMind , presentados en marzo de 2022. [1]
Se llama " chinchilla " porque es un desarrollo posterior de una familia de modelos anterior llamada Gopher. Ambas familias de modelos se entrenaron para investigar las leyes de escala de los modelos de lenguaje grandes . [2]
Se afirma que supera a GPT-3 . Simplifica considerablemente la utilización posterior porque requiere mucho menos potencia informática para la inferencia y el ajuste fino. Con base en el entrenamiento de modelos de lenguaje empleados anteriormente, se ha determinado que si se duplica el tamaño del modelo, también se debe tener el doble de tokens de entrenamiento. Esta hipótesis se ha utilizado para entrenar a Chinchilla por DeepMind. Similar a Gopher en términos de costo, Chinchilla tiene 70 mil millones de parámetros y cuatro veces más datos. [3]
Chinchilla tiene una precisión promedio del 67,5 % en el parámetro de medición de comprensión del lenguaje multitarea masiva (MMLU), que es un 7 % más alta que el rendimiento de Gopher. Chinchilla todavía estaba en la fase de prueba al 12 de enero de 2023. [4]
Chinchilla contribuye al desarrollo de un paradigma de entrenamiento eficaz para grandes modelos de lenguaje autorregresivo con recursos computacionales limitados. El equipo de Chinchilla recomienda que la cantidad de tokens de entrenamiento sea el doble por cada duplicación del tamaño del modelo, lo que significa que el uso de conjuntos de datos de entrenamiento más grandes y de mayor calidad puede generar mejores resultados en las tareas posteriores. [5] [6]
Se ha utilizado para el modelo de visión-lenguaje Flamingo. [7]
Tanto la familia Gopher como la familia Chinchilla son familias de modelos transformadores .
En particular, son esencialmente iguales a GPT-2 , con diferentes tamaños y modificaciones menores. La familia Gopher utiliza RMSNorm en lugar de LayerNorm ; codificación posicional relativa en lugar de codificación posicional absoluta. La familia Chinchilla es la misma que la familia Gopher, pero entrenada con AdamW en lugar de Adam optimized .
La familia Gopher contiene seis modelos de tamaño creciente, desde 44 millones de parámetros hasta 280 mil millones de parámetros. De manera predeterminada, se hace referencia al modelo más grande como "Gopher". Se aplican convenciones de nomenclatura similares para la familia Chinchilla.
La Tabla 1 de [2] muestra la familia completa de Gopher:
La Tabla 4 de [1] compara la Chinchilla de 70 mil millones de parámetros con Gopher 280B.