Chinchilla es una familia de grandes modelos de lenguaje desarrollada por el equipo de investigación de DeepMind , presentada en marzo de 2022. [1] Se llama " chinchilla " porque es un desarrollo posterior con respecto a una familia de modelos anterior llamada Gopher. Ambas familias de modelos fueron entrenadas para investigar las leyes de escala de modelos de lenguaje grandes . [2]
Afirmó superar a GPT-3 . Simplifica considerablemente la utilización posterior porque requiere mucha menos potencia informática para la inferencia y el ajuste. Con base en el entrenamiento de modelos de lenguaje empleados anteriormente, se ha determinado que si se duplica el tamaño del modelo, también se debe tener el doble de tokens de entrenamiento. Esta hipótesis ha sido utilizada para entrenar a Chinchilla por DeepMind . Similar a Gopher en términos de costo, Chinchilla tiene 70 mil millones de parámetros y cuatro veces más datos. [3]
Chinchilla tiene una precisión promedio del 67,5% en el punto de referencia de Medición de comprensión masiva del lenguaje multitarea (MMLU), que es un 7% más alto que el rendimiento de Gopher. Chinchilla todavía se encontraba en la fase de prueba al 12 de enero de 2023. [4]
Chinchilla contribuye al desarrollo de un paradigma de entrenamiento eficaz para grandes modelos de lenguaje autorregresivos con recursos informáticos limitados. El equipo de Chinchilla recomienda que la cantidad de tokens de entrenamiento sea el doble por cada tamaño del modelo que se duplique, lo que significa que el uso de conjuntos de datos de entrenamiento más grandes y de mayor calidad puede conducir a mejores resultados en las tareas posteriores. [5] [6]
Tanto la familia Gopher como la familia Chinchilla son familias de modelos de transformadores .
En particular, son esencialmente iguales que GPT-2 , con diferentes tamaños y modificaciones menores. La familia Gopher usa RMSNorm en lugar de LayerNorm; codificación posicional relativa en lugar de codificación posicional absoluta. La familia Chinchilla es la misma que la familia Gopher, pero entrenada con AdamW en lugar del optimizador Adam .
La familia Gopher contiene seis modelos de tamaño creciente, desde 44 millones de parámetros hasta 280 mil millones de parámetros. Se refieren al más grande como "Gopher" por defecto. Se aplican convenciones de nomenclatura similares para la familia Chinchilla.
La Tabla 1 de [2] muestra toda la familia Gopher:
La Tabla 4 de [1] compara el Chinchilla de 70 mil millones de parámetros con el Gopher 280B.