Chinchilla (modelo de lenguaje)

Chinchilla es una familia de grandes modelos de lenguaje (LLM) desarrollados por el equipo de investigación de Google DeepMind , presentados en marzo de 2022. ^[1]

Modelos

Se llama " chinchilla " porque es un desarrollo posterior de una familia de modelos anterior llamada Gopher. Ambas familias de modelos se entrenaron para investigar las leyes de escala de los modelos de lenguaje grandes . ^[2]

Se afirma que supera a GPT-3 . Simplifica considerablemente la utilización posterior porque requiere mucho menos potencia informática para la inferencia y el ajuste fino. Con base en el entrenamiento de modelos de lenguaje empleados anteriormente, se ha determinado que si se duplica el tamaño del modelo, también se debe tener el doble de tokens de entrenamiento. Esta hipótesis se ha utilizado para entrenar a Chinchilla por DeepMind. Similar a Gopher en términos de costo, Chinchilla tiene 70 mil millones de parámetros y cuatro veces más datos. ^[3]

Chinchilla tiene una precisión promedio del 67,5 % en el parámetro de medición de comprensión del lenguaje multitarea masiva (MMLU), que es un 7 % más alta que el rendimiento de Gopher. Chinchilla todavía estaba en la fase de prueba al 12 de enero de 2023. ^[4]

Chinchilla contribuye al desarrollo de un paradigma de entrenamiento eficaz para grandes modelos de lenguaje autorregresivo con recursos computacionales limitados. El equipo de Chinchilla recomienda que la cantidad de tokens de entrenamiento sea el doble por cada duplicación del tamaño del modelo, lo que significa que el uso de conjuntos de datos de entrenamiento más grandes y de mayor calidad puede generar mejores resultados en las tareas posteriores. ^[5]^[6]

Se ha utilizado para el modelo de visión-lenguaje Flamingo. ^[7]

Arquitectura

Tanto la familia Gopher como la familia Chinchilla son familias de modelos transformadores .

En particular, son esencialmente iguales a GPT-2 , con diferentes tamaños y modificaciones menores. La familia Gopher utiliza RMSNorm en lugar de LayerNorm ; codificación posicional relativa en lugar de codificación posicional absoluta. La familia Chinchilla es la misma que la familia Gopher, pero entrenada con AdamW en lugar de Adam optimized .

La familia Gopher contiene seis modelos de tamaño creciente, desde 44 millones de parámetros hasta 280 mil millones de parámetros. De manera predeterminada, se hace referencia al modelo más grande como "Gopher". Se aplican convenciones de nomenclatura similares para la familia Chinchilla.

La Tabla 1 de ^[2] muestra la familia completa de Gopher:

La Tabla 4 de ^[1] compara la Chinchilla de 70 mil millones de parámetros con Gopher 280B.

Véase también

LaMDA

Referencias

^ ab Hoffmann, Jordania; Borgeaud, Sebastián; Mensch, Arturo; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29 de marzo de 2022). "Entrenamiento de modelos de lenguajes grandes óptimos para la computación". arXiv : 2203.15556 [cs.CL].
^ ab Rae, Jack W.; Borgeaud, Sebastian; Cai, Trevor; Millican, Katie; Hoffmann, Jordan; Song, Francis; Aslanides, John; Henderson, Sarah; Ring, Roman; Young, Susannah; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21 de enero de 2022). "Escalado de modelos de lenguaje: métodos, análisis y perspectivas del entrenamiento de Gopher". arXiv : 2112.11446 [cs.CL].
^ Eliaçık, Eray (12 de enero de 2023). «Chinchilla AI is coming to the GPT-3's throne» (La inteligencia artificial de Chinchilla va a por el trono de GPT-3). Dataconomy . Archivado desde el original el 26 de marzo de 2023.
^ Hendrycks, Dan (14 de marzo de 2023), Medición de la comprensión del lenguaje mediante múltiples tareas masivas, archivado desde el original el 15 de marzo de 2023 , consultado el 15 de marzo de 2023
^ Chaithali, G. (9 de abril de 2022). "Eche un vistazo al nuevo modelo de lenguaje de DeepMind, Chinchilla (parámetros 70B), que supera significativamente a Gopher (280B) y GPT-3 (175B) en una amplia gama de tareas de evaluación posteriores". Archivado desde el original el 27 de marzo de 2023. Consultado el 15 de enero de 2023 .
^ Wali, Kartik (12 de abril de 2022). «DeepMind lanza un rival de GPT-3, Chinchilla». Revista Analytics India . Archivado desde el original el 26 de marzo de 2023. Consultado el 15 de enero de 2023 .
^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (6 de diciembre de 2022). "Flamingo: un modelo de lenguaje visual para el aprendizaje de pocos intentos". Avances en sistemas de procesamiento de información neuronal . 35 : 23716–23736. arXiv : 2204.14198 .