stringtranslate.com

Chinchilla (modelo de lenguaje)

Chinchilla es una familia de grandes modelos de lenguaje desarrollada por el equipo de investigación de DeepMind , presentada en marzo de 2022. [1] Se llama " chinchilla " porque es un desarrollo posterior con respecto a una familia de modelos anterior llamada Gopher. Ambas familias de modelos fueron entrenadas para investigar las leyes de escala de modelos de lenguaje grandes . [2]

Afirmó superar a GPT-3 . Simplifica considerablemente la utilización posterior porque requiere mucha menos potencia informática para la inferencia y el ajuste. Con base en el entrenamiento de modelos de lenguaje empleados anteriormente, se ha determinado que si se duplica el tamaño del modelo, también se debe tener el doble de tokens de entrenamiento. Esta hipótesis ha sido utilizada para entrenar a Chinchilla por DeepMind . Similar a Gopher en términos de costo, Chinchilla tiene 70 mil millones de parámetros y cuatro veces más datos. [3]

Chinchilla tiene una precisión promedio del 67,5% en el punto de referencia de Medición de comprensión masiva del lenguaje multitarea (MMLU), que es un 7% más alto que el rendimiento de Gopher. Chinchilla todavía se encontraba en la fase de prueba al 12 de enero de 2023. [4]

Chinchilla contribuye al desarrollo de un paradigma de entrenamiento eficaz para grandes modelos de lenguaje autorregresivos con recursos informáticos limitados. El equipo de Chinchilla recomienda que la cantidad de tokens de entrenamiento sea el doble por cada tamaño del modelo que se duplique, lo que significa que el uso de conjuntos de datos de entrenamiento más grandes y de mayor calidad puede conducir a mejores resultados en las tareas posteriores. [5] [6]

Arquitectura

Tanto la familia Gopher como la familia Chinchilla son familias de modelos de transformadores .

En particular, son esencialmente iguales que GPT-2 , con diferentes tamaños y modificaciones menores. La familia Gopher usa RMSNorm en lugar de LayerNorm; codificación posicional relativa en lugar de codificación posicional absoluta. La familia Chinchilla es la misma que la familia Gopher, pero entrenada con AdamW en lugar del optimizador Adam .

La familia Gopher contiene seis modelos de tamaño creciente, desde 44 millones de parámetros hasta 280 mil millones de parámetros. Se refieren al más grande como "Gopher" por defecto. Se aplican convenciones de nomenclatura similares para la familia Chinchilla.

La Tabla 1 de [2] muestra toda la familia Gopher:

La Tabla 4 de [1] compara el Chinchilla de 70 mil millones de parámetros con el Gopher 280B.

Ver también

Referencias

  1. ^ ab Hoffmann, Jordania; Borgeaud, Sebastián; Mensch, Arturo; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29 de marzo de 2022). "Entrenamiento de modelos de lenguajes grandes óptimos para la computación". arXiv : 2203.15556 [cs.CL].
  2. ^ ab Rae, Jack W.; Borgeaud, Sebastián; Cai, Trevor; Millican, Katie; Hoffmann, Jordania; Canción, Francisco; Aslanides, Juan; Henderson, Sara; Anillo, romano; Joven, Susana; Rutherford, Eliza; Hennigan, Tom; Menick, Jacob; Cassirer, Albin; Powell, Richard (21 de enero de 2022). "Escalado de modelos de lenguaje: métodos, análisis e información de Training Gopher". arXiv : 2112.11446 [cs.CL].
  3. ^ Eliaçık, Eray (12 de enero de 2023). "Chinchilla AI viene por el trono del GPT-3". Economía de datos . Archivado desde el original el 26 de marzo de 2023.
  4. ^ Hendrycks, Dan (14 de marzo de 2023), Medición de la comprensión masiva del lenguaje multitarea, archivado desde el original el 15 de marzo de 2023 , consultado el 15 de marzo de 2023.
  5. ^ Chaithali, G. (9 de abril de 2022). "Eche un vistazo al nuevo modelo de lenguaje de DeepMind, Chinchilla (parámetros 70B), que supera significativamente a Gopher (280B) y GPT-3 (175B) en una amplia gama de tareas de evaluación posteriores". Archivado desde el original el 27 de marzo de 2023 . Consultado el 15 de enero de 2023 .
  6. ^ Wali, Kartik (12 de abril de 2022). "DeepMind lanza Chinchilla, su rival GPT-3". Revista Analytics India . Archivado desde el original el 26 de marzo de 2023 . Consultado el 15 de enero de 2023 .