Ley de escalamiento neuronal

En el aprendizaje automático , una ley de escalamiento neuronal es una ley de escalamiento empírica que describe cómo cambia el rendimiento de la red neuronal a medida que se amplían o reducen los factores clave. Estos factores suelen incluir la cantidad de parámetros, el tamaño del conjunto de datos de entrenamiento ^[1]^[2] y el costo del entrenamiento.

Introducción

En general, un modelo neuronal se puede caracterizar por 4 parámetros: tamaño del modelo, tamaño del conjunto de datos de entrenamiento, costo del entrenamiento y tasa de error después del entrenamiento. Cada una de estas cuatro variables se puede definir con precisión en un número real. Estos se suelen escribir como (número de parámetros, tamaño del conjunto de datos, costo computacional, pérdida). ${\estilo de visualización N,D,C,L}$

Una ley de escala neuronal es una ley estadística teórica o empírica entre estos parámetros. También existen otros parámetros con otras leyes de escala.

Tamaño del modelo

En la mayoría de los casos, el tamaño del modelo es simplemente el número de parámetros. Sin embargo, surge una complicación con el uso de modelos dispersos, como los modelos de mezcla de expertos . ^[3] En los modelos dispersos, durante cada inferencia, solo se utiliza una fracción de los parámetros. En comparación, la mayoría de los otros tipos de redes neuronales, como las redes Transformer, siempre utilizan todos sus parámetros durante cada inferencia.

Tamaño del conjunto de datos de entrenamiento

El tamaño del conjunto de datos de entrenamiento se cuantifica generalmente por la cantidad de puntos de datos que contiene. Por lo general, se prefieren conjuntos de datos de entrenamiento más grandes, ya que brindan una fuente de información más rica y diversa de la que el modelo puede aprender. Esto, a su vez, puede generar un mejor rendimiento de generalización cuando el modelo se aplica a datos no vistos. ^[4] Sin embargo, aumentar el tamaño del conjunto de datos de entrenamiento también aumenta los recursos computacionales y el tiempo necesarios para el entrenamiento del modelo.

Con el método de "preentrenamiento, luego ajuste" utilizado en la mayoría de los modelos de lenguajes grandes , hay dos tipos de conjuntos de datos de entrenamiento: el conjunto de datos de preentrenamiento y el conjunto de datos de ajuste fino. Sus tamaños tendrían diferentes efectos en el rendimiento del modelo. Generalmente, el conjunto de datos de ajuste fino tiene un tamaño menor al 1 % del conjunto de datos de preentrenamiento. ^[5]

En algunos casos, una pequeña cantidad de datos de alta calidad es suficiente para realizar el ajuste fino, y más datos no mejoran el rendimiento. ^[5]

Costo de la capacitación

El costo del entrenamiento se mide generalmente en términos de tiempo (cuánto tiempo lleva entrenar el modelo) y recursos computacionales (cuánta potencia de procesamiento y memoria se requieren para entrenar el modelo). Es importante tener en cuenta que el costo del entrenamiento se puede reducir significativamente con algoritmos de entrenamiento eficientes, bibliotecas de software optimizadas y computación paralela en hardware especializado como GPU o TPU .

El costo de entrenar un modelo neuronal es una función de varios factores, incluidos el tamaño del modelo, el tamaño del conjunto de datos de entrenamiento, la complejidad del algoritmo de entrenamiento y los recursos computacionales disponibles. ^[4] En particular, duplicar el conjunto de datos de entrenamiento no necesariamente duplica el costo del entrenamiento, porque uno puede entrenar el modelo varias veces sobre el mismo conjunto de datos (cada vez siendo una " época ").

Actuación

El rendimiento de un modelo neuronal se evalúa en función de su capacidad para predecir con precisión el resultado dados los datos de entrada. Las métricas comunes para evaluar el rendimiento del modelo incluyen: ^[4]

exactitud , precisión, recuperación y puntuación F1 para tareas de clasificación como MMLU ;
error cuadrático medio (MSE) o error absoluto medio (MAE) para tareas de regresión;
log-verosimilitud negativa por token (logaritmo de perplejidad ) para modelado de lenguaje .
Calificación Elo en una competencia contra otros modelos, como la jugabilidad ^[7] o la preferencia de un juez humano ^[8]

El rendimiento se puede mejorar utilizando más datos, modelos más grandes, diferentes algoritmos de entrenamiento, regularizando el modelo para evitar el sobreajuste y deteniendo anticipadamente el uso de un conjunto de validación.

Ejemplos

(Hestness, Narang, et al, 2017)

El artículo de 2017 ^[2] es un punto de referencia común para las leyes de escalamiento neuronal ajustadas mediante análisis estadístico de datos experimentales. Los trabajos anteriores a la década de 2000, citados en el artículo, eran teóricos o de órdenes de magnitud más pequeños en escala. Mientras que los trabajos anteriores generalmente encontraron que el exponente de escalamiento escalaba como , con , el artículo encontró que . $L\propto D^{-\alpha }$ $\alpha \en \{0.5,1,2\}$ $\alpha \en [0,07,0,35]$

De los factores que variaron, solo la tarea puede cambiar el exponente . Cambiar los optimizadores de la arquitectura, los regularizadores y las funciones de pérdida solo cambiaría el factor de proporcionalidad, no el exponente. Por ejemplo, para la misma tarea, una arquitectura podría tener mientras que otra podría tener . También descubrieron que para una arquitectura dada, la cantidad de parámetros necesarios para alcanzar los niveles más bajos de pérdida, dado un tamaño de conjunto de datos fijo, crece como para otro exponente . ${\estilo de visualización \alpha}$ $L=1000D^{-0,3}$ $L=500D^{-0.3}$ $N\propto D^{\beta }$ ${\estilo de visualización \beta}$

Estudiaron la traducción automática con LSTM ( ), el modelado generativo del lenguaje con LSTM ( ), la clasificación ImageNet con ResNet ( ) y el reconocimiento de voz ( ). $\alpha \sim 0,13$ $\alpha \en [0,06,0,09],\beta \aproximadamente 0,7$ $\alpha \en [0,3,0,5],\beta \aprox 0,6$ $\alpha \aproximadamente 0,3$

(Henighan, Kaplan y otros, 2020)

Un análisis de 2020 ^[9] estudió las relaciones estadísticas entre en un amplio rango de valores y encontró leyes de escala similares, en el rango de , y en múltiples modalidades (texto, video, imagen, texto a imagen, etc.). ^[9] ${\estilo de visualización C,N,D,L}$ $N\en [10^{3},10^{9}]$ $C\en [10^{12},10^{21}]$

En particular, las leyes de escala que encontró son (Tabla 1 de ^[9] ):

Para cada modalidad, fijaron una de las dos y, al variar la otra ( se varía junto con ), la pérdida de prueba alcanzable satisface donde es la variable variada y son parámetros que se deben encontrar mediante ajuste estadístico. El parámetro es el más importante. ${\estilo de visualización C,N}$ ${\estilo de visualización D}$ $Estilo de visualización D=C/6N$ $L=L_{0}+\left({\frac {x_{0}}{x}}\right)^{\alpha }$ ${\estilo de visualización x}$ $L_{0},x_{0},\alpha$ ${\estilo de visualización \alpha}$
- Cuando la variable varía, varía de a dependiendo de la modalidad del modelo. Esto corresponde al del documento de escalamiento de Chinchilla. ${\estilo de visualización N}$ ${\estilo de visualización \alpha}$ ${\estilo de visualización 0.037}$ ${\estilo de visualización 0,24}$ $\alpha = 0,34$
- Cuando la variable varía, varía de a dependiendo de la modalidad del modelo. Esto corresponde al del documento de escalamiento de Chinchilla. ${\estilo de visualización C}$ ${\estilo de visualización \alpha}$ ${\estilo de visualización 0.048}$ ${\estilo de visualización 0,19}$ $\beta = 0,28$
Dado un presupuesto computacional fijo, el recuento óptimo de parámetros del modelo se encuentra constantemente alrededor de El parámetro varía en un factor de hasta 10 para diferentes modalidades. El parámetro exponencial varía de a para diferentes modalidades. Este exponente corresponde al del artículo de escalamiento de Chinchilla. $N_{opt}(C)=\left({\frac {C}{5\times 10^{-12}{\text{petaFLOP-día}}}}\right)^{0,7}=9,0\times 10^{-7}C^{0,7}$ $9.0\times 10^{-7}$ ${\estilo de visualización 0.7}$ ${\estilo de visualización 0,64}$ ${\estilo de visualización 0,75}$ $\aproximadamente 0,5$
Se "sugiere firmemente" (pero no se ha comprobado estadísticamente) que . Este exponente corresponde al del artículo sobre escalamiento de Chinchilla. $D_{opt}(C)\propto N_{opt}(C)^{0.4}\propto C^{0.28}$ $\aproximadamente 0,5$

La ley de escala de se confirmó durante el entrenamiento de GPT-3 (Figura 3.1 ^[10] ). $L=L_{0}+(C_{0}/C)^{0.048}$

Descamación de la chinchilla (Hoffmann, et al, 2022)

Una ley de escala particular (" escalamiento de Chinchilla ") establece que, para un modelo de lenguaje grande (LLM) entrenado autorregresivamente para una época, con un programa de tasa de aprendizaje de coseno , tenemos: ^[12] donde las variables son ${\begin{cases}C=C_{0}ND\\L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$

${\estilo de visualización C}$ es el costo de entrenamiento del modelo, en FLOPS .
${\estilo de visualización N}$ es el número de parámetros en el modelo.
${\estilo de visualización D}$ es el número de tokens en el conjunto de entrenamiento.
${\estilo de visualización L}$ es la pérdida de verosimilitud negativa promedio por token ( nats /token), lograda por el LLM entrenado en el conjunto de datos de prueba.
- ${\estilo de visualización L_{0}}$ Representa la pérdida de un proceso generativo ideal en los datos de prueba.
- ${\frac {A}{N^{\alpha }}}$ Capta el hecho de que un modelo de lenguaje Transformer con parámetros tiene un rendimiento inferior al del proceso generativo ideal. ${\estilo de visualización N}$
- ${\frac {B}{D^{\beta }}}$ Capta el hecho de que el modelo entrenado con tokens tiene un rendimiento inferior al del proceso generativo ideal. ${\estilo de visualización D}$

y los parámetros estadísticos son

$C_{0}=6$ , lo que significa que cuesta 6 FLOP por parámetro entrenar en un token. Esto es estimado por Kaplan et al. ^{[13] Tenga en cuenta que el costo de entrenamiento es mucho más alto que el costo de inferencia, ya que el entrenamiento implica}pases hacia adelante y hacia atrás , mientras que la inferencia cuesta de 1 a 2 FLOP por parámetro para inferir en un token.
$\alpha = 0,34,\beta = 0,28, A = 406,4, B = 410,7, L_{0} = 1,69$ .

Aunque Besiroglu et. al. ^[14] afirma que la estimación estadística está ligeramente desfasada y debería ser . $\alpha = 0,35,\beta = 0,37, A = 482,01, B = 2085,43, L_{0} = 1,82$

Las leyes estadísticas se ajustaron a los datos experimentales con . $N\in [7\times 10^{7},1.6\times 10^{10}],D\in [5\times 10^{9},5\times 10^{11}],C\in [10^{18},10^{24}]$

Dado que hay 4 variables relacionadas por 2 ecuaciones, imponer 1 restricción adicional y 1 objetivo de optimización adicional nos permite resolver las cuatro variables. En particular, para cualquier fijo , podemos resolver de forma única las 4 variables que minimizan . Esto nos proporciona el óptimo para cualquier fijo : Al introducir los valores numéricos, obtenemos el tamaño del modelo "eficiente de Chinchilla" y el tamaño del conjunto de datos de entrenamiento, así como la pérdida de prueba alcanzable: De manera similar, podemos encontrar el tamaño del conjunto de datos de entrenamiento óptimo y el presupuesto de cómputo de entrenamiento para cualquier tamaño de parámetro de modelo fijo, y así sucesivamente. $C$ $L$ $D_{opt}(C),N_{opt}(C)$ $C$ $N_{opt}(C)=G\left({\frac {C}{6}}\right)^{a},\quad D_{opt}(C)=G^{-1}\left({\frac {C}{6}}\right)^{b},\quad {\text{ where }}\quad G=\left({\frac {\alpha A}{\beta B}}\right)^{\frac {1}{\alpha +\beta }},\quad a={\frac {\beta }{\alpha +\beta }}{\text{, and }}b={\frac {\alpha }{\alpha +\beta }}{\text{. }}$ ${\begin{cases}N_{opt}(C)=0.6\;C^{0.45}\\D_{opt}(C)=0.3\;C^{0.55}\\L_{opt}(C)=1070\;C^{-0.154}+1.7\end{cases}}$

Existen otras estimaciones del tamaño del modelo "eficiente para Chinchilla" y del tamaño del conjunto de datos de entrenamiento. La anterior se basa en un modelo estadístico de . También se puede ajustar directamente una ley estadística para sin pasar por el desvío, para lo cual se obtiene: o como se tabula: $L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}$ $D_{opt}(C),N_{opt}(C)$ ${\begin{cases}N_{opt}(C)=0.1\;C^{0.5}\\D_{opt}(C)=1.7\;C^{0.5}\end{cases}}$

En términos más simples, la ley de escala de Chinchilla para el entrenamiento de modelos de lenguaje de transformadores sugiere que cuando se da un presupuesto mayor (en FLOP ), para lograr un cálculo óptimo, la cantidad de parámetros del modelo (N) y la cantidad de tokens para entrenar el modelo (D) deben escalar en proporciones aproximadamente iguales. Esta conclusión difiere de la ley de escala anterior para modelos de lenguaje neuronal, ^[13] que establece que N debe escalarse más rápido que D. La discrepancia surge de establecer diferentes longitudes de ciclo para los programadores de tasa de aprendizaje de coseno . Al estimar la escala de Chinchilla, los autores establecen la longitud del ciclo para que sea la misma que los pasos de entrenamiento, ya que los resultados experimentales indican que los ciclos más grandes sobreestiman la pérdida de los modelos.

Más allá de la escala de Chinchilla

Como el escalamiento de Chinchilla ha sido el punto de referencia para muchas ejecuciones de entrenamiento de gran escala, ha habido un esfuerzo simultáneo para ir "más allá del escalamiento de Chinchilla", es decir, modificar parte del proceso de entrenamiento para obtener la misma pérdida con menos esfuerzo, o entrenar deliberadamente durante más tiempo que lo que es "óptimo para Chinchilla".

Por lo general, el objetivo es hacer que el exponente de la ley de escala sea más grande, lo que significa que la misma pérdida se puede entrenar con mucho menos cálculo. Por ejemplo, filtrar datos puede hacer que el exponente de la ley de escala sea más grande. ^[15]

Otra línea de investigación estudia cómo manejar datos limitados, ya que según las leyes de escala de Chinchilla, el tamaño del conjunto de datos de entrenamiento para los modelos de lenguaje más grandes ya se acerca a lo que está disponible en Internet. ^[16] descubrió que aumentar el conjunto de datos con una combinación de "objetivos de eliminación de ruido" construidos a partir del conjunto de datos mejora el rendimiento. ^[17] estudia el escalamiento óptimo cuando ya se han agotado todos los datos disponibles (como en idiomas poco comunes), por lo que se deben entrenar múltiples épocas sobre el mismo conjunto de datos (mientras que el escalamiento de Chinchilla requiere solo una época). La serie Phi de modelos de lenguaje pequeños se entrenó con datos similares a los de los libros de texto generados por modelos de lenguaje grandes, para los cuales los datos solo están limitados por la cantidad de cómputo disponible. ^[18]

La optimalidad de Chinchilla se definió como "óptima para el cómputo de entrenamiento", mientras que en los modelos de calidad de producción reales, habrá mucha inferencia después de que se complete el entrenamiento. El "sobreentrenamiento" durante el entrenamiento significa un mejor rendimiento durante la inferencia. ^{[19] Los modelos} LLaMA fueron sobreentrenados por esta razón. Estudios posteriores descubrieron leyes de escalamiento en el régimen de sobreentrenamiento, para tamaños de conjuntos de datos hasta 32 veces más que el óptimo de Chinchilla. ^[20]

Leyes de escalamiento neuronal rotas (BNSL)

Un análisis de 2022 ^[21] descubrió que muchos comportamientos de escalamiento de redes neuronales artificiales siguen una forma funcional de ley de potencia suavemente rota :

$y=a+{\bigg (}bx^{-c_{0}}{\bigg )}\prod _{i=1}^{n}\left(1+\left({\frac {x}{d_{i}}}\right)^{1/f_{i}}\right)^{-c_{i}*f_{i}}$

en el que se refiere a la cantidad que se está escalando (es decir , , , , número de pasos de entrenamiento, número de pasos de inferencia o tamaño de entrada del modelo) y se refiere a la métrica de evaluación de rendimiento descendente (o ascendente) de interés (por ejemplo, error de predicción , entropía cruzada , error de calibración, AUROC , porcentaje de puntuación BLEU , puntuación F1 , recompensa, calificación Elo , tasa de resolución o puntuación FID ) en configuraciones de disparo cero , solicitadas o ajustadas . Los parámetros se encuentran mediante ajuste estadístico. $x$ $C$ $N$ $D$ $y$ $a,b,c_{0},c_{1}...c_{n},d_{1}...d_{n},f_{1}...f_{n}$

En un gráfico logarítmico-logarítmico , cuando no es demasiado grande y se resta del eje y, esta forma funcional parece una serie de segmentos lineales conectados por arcos; las transiciones entre los segmentos se denominan "rupturas", de ahí el nombre de leyes de escala neuronal rotas (BNSL) . $f_{i}$ $a$ $n$

Los escenarios en los que se encontró que los comportamientos de escalamiento de las redes neuronales artificiales siguen esta forma funcional incluyen visión a gran escala , lenguaje , audio, video, difusión , modelado generativo , aprendizaje multimodal , aprendizaje contrastivo , alineación de IA , capacidades de IA, robótica , generalización fuera de distribución (OOD), aprendizaje continuo, aprendizaje por transferencia , estimación / calibración de incertidumbre , detección fuera de distribución , robustez adversarial , destilación , escasez, recuperación, cuantificación, poda , equidad , moléculas, programación/codificación de computadoras, problemas matemáticos de palabras, aritmética, habilidades emergentes , doble descenso , aprendizaje supervisado , aprendizaje no supervisado / autosupervisado y aprendizaje de refuerzo (agente único y multiagente ).

Las arquitecturas para las cuales se encontró que los comportamientos de escalamiento de las redes neuronales artificiales siguen esta forma funcional incluyen redes neuronales residuales , transformadores , MLP , mezcladores MLP, redes neuronales recurrentes , redes neuronales convolucionales , redes neuronales de grafos , U-nets , modelos de codificador-decodificador ( y solo codificador ) (y solo decodificador), conjuntos (y no conjuntos), modelos MoE (mezcla de expertos) (y no MoE) y modelos dispersos podados (y no dispersos sin podar).

Escalamiento de inferencia

Además de aumentar la capacidad de entrenamiento, también se puede aumentar la capacidad de inferencia. Por ejemplo, la calificación Elo de AlphaGo mejora constantemente a medida que se le permite dedicar más tiempo a su búsqueda de árbol de Monte Carlo por juego. ^[22]^{: Fig. 4} De manera similar, un modelo de lenguaje para resolver desafíos de codificación a nivel de competencia, AlphaCode, mejoró constantemente su rendimiento con más tiempo de búsqueda. ^[23] Para AlphaGo Zero, aumentar el Elo en 120 requiere un tamaño de modelo y entrenamiento de 2x, o una búsqueda de tiempo de prueba de 2x. ^[24]

En el caso de Hex , un tiempo de entrenamiento de 10x se compensa con un tiempo de prueba de 15x. ^[25] En el caso de Libratus para el Texas Hold'em sin límite heads-up , y en el de Cicero para Diplomacy y muchos otros juegos abstractos de información parcial, la búsqueda en el tiempo de inferencia mejora significativamente el rendimiento, con una relación de compensación similar. ^[24]

En 2024, el informe OpenAI o1 documentó que el rendimiento de o1 mejoró constantemente con el aumento del cómputo en tiempo de entrenamiento y el cómputo en tiempo de prueba, y brindó numerosos ejemplos de escalamiento del cómputo en tiempo de prueba en tareas de matemáticas, razonamiento científico y codificación. ^[26]^[27]

Otros ejemplos

Transformadores de visión

Los transformadores de visión , similares a los transformadores de lenguaje, exhiben leyes de escala. Una investigación de 2022 entrenó transformadores de visión, con recuentos de parámetros , en conjuntos de imágenes de tamaños , para realizar cálculos (en unidades de días de núcleo TPUv3). ^[28] $N\in [5\times 10^{6},2\times 10^{9}]$ $D\in [3\times 10^{7},3\times 10^{9}]$ $C\in [0.2,10^{4}]$

Después de entrenar el modelo, se lo ajusta con precisión en el conjunto de entrenamiento de ImageNet . Sea la probabilidad de error del modelo ajustado que clasifica el conjunto de prueba de ImageNet. Encontraron . $L$ $\min _{N,D}L=0.09+{\frac {0.26}{(C+0.01)^{0.35}}}$

Traducción automática neuronal

Ghorbani, Behrooz et al. ^[29] estudiaron leyes de escalamiento para la traducción automática neuronal (específicamente, inglés como fuente y alemán como destino) en modelos de transformadores de codificador-decodificador , entrenados hasta la convergencia en los mismos conjuntos de datos (por lo tanto, no se ajustaron a las leyes de escalamiento para el costo computacional o el tamaño del conjunto de datos ). Variaron. Encontraron tres resultados: $C$ $D$ $N\in [10^{8},3.5\times 10^{9}]$

$L$ es una función de ley de escala de , donde son el recuento de parámetros del codificador y del decodificador. No es simplemente una función del recuento total de parámetros . La función tiene la forma , donde son los parámetros ajustados. Descubrieron que minimiza la pérdida si se mantiene fijo. $N_{E},N_{D}$ $N_{E},N_{D}$ $N=N_{E}+N_{D}$ $L\left(N_{e},N_{d}\right)=\alpha \left({\frac {{\bar {N}}_{e}}{N_{e}}}\right)^{p_{e}}\left({\frac {{\bar {N}}_{d}}{N_{d}}}\right)^{p_{d}}+L_{\infty }$ $\alpha ,p_{e},p_{d},L_{\infty },{\bar {N}}_{e},{\bar {N}}_{d}$ $N_{d}/N\approx 0.55$ $N$
$L$ "satura" (es decir, alcanza ) para modelos más pequeños cuando los conjuntos de datos de entrenamiento y prueba son "naturales de origen" que "naturales de destino". Un punto de datos "natural de origen" significa un par de oraciones inglés-alemán, y se le pide al modelo que traduzca la oración en inglés al alemán, y la oración en inglés está escrita por un escritor inglés natural, mientras que la oración en alemán es traducida de la oración en inglés por un traductor automático. ^[30] Para construir los dos tipos de conjuntos de datos, los autores recopilaron oraciones naturales en inglés y alemán en línea, luego utilizaron la traducción automática para generar sus traducciones. $L_{\infty }$
A medida que los modelos se hacen más grandes, los modelos entrenados en conjuntos de datos originales de origen pueden lograr una pérdida baja pero una puntuación BLEU mala . Por el contrario, los modelos entrenados en conjuntos de datos originales de destino logran una pérdida baja y una puntuación BLEU buena al mismo tiempo (Figura 10, 11 ^[29] ).

Los autores plantean la hipótesis de que los conjuntos de datos naturales de origen tienen oraciones objetivo uniformes y aburridas, por lo que un modelo entrenado para predecir las oraciones objetivo se sobreajustaría rápidamente.

^[31] Entrenaron transformadores para traducciones automáticas con tamaños en tamaños de conjuntos de datos . Encontraron la ley de escala de Kaplan et al (2020) ^[13] aplicada a la traducción automática: . También encontraron que la escala de puntuación BLEU era . $N\in [4\times 10^{5},5.6\times 10^{7}]$ $D\in [6\times 10^{5},6\times 10^{9}]$ $L(N,D)=\left[\left({\frac {N_{C}}{N}}\right)^{\frac {\alpha _{N}}{\alpha _{D}}}+{\frac {D_{C}}{D}}\right]^{\alpha _{D}}$ $BLEU\approx Ce^{-kL}$

Aprendizaje por transferencia

Hernández, Danny et al. ^[32] estudiaron leyes de escalamiento para el aprendizaje por transferencia en modelos de lenguaje. Entrenaron una familia de Transformers de tres maneras:

Preentrenamiento en inglés, ajuste fino en Python
preentrenamiento en una combinación equitativa de inglés y Python, ajuste fino en Python
Entrenamiento en Python

La idea es que el preentrenamiento en inglés debería ayudar al modelo a lograr una pérdida baja en un conjunto de prueba de texto de Python. Supongamos que el modelo tiene un parámetro count y, después de ajustarlo con tokens de Python, logra cierta pérdida . Decimos que su "número de tokens transferidos" es , si otro modelo con el mismo logra lo mismo después del entrenamiento con tokens de Python. $N$ $D_{F}$ $L$ $D_{T}$ $N$ $L$ $D_{F}+D_{T}$

Lo encontraron para preentrenamiento en texto en inglés y para preentrenamiento en código en inglés y no Python. $D_{T}=1.9e4\left(D_{F}\right)^{.18}(N)^{.38}$ $D_{T}=2.1e5\left(D_{F}\right)^{.096}(N)^{.38}$

Véase también

Referencias

^ Bahri, Yasaman; Dyer, Ethan; Kaplan, Jared; Lee, Jaehoon; Sharma, Utkarsh (2024). "Explicación de las leyes de escalamiento neuronal". Actas de la Academia Nacional de Ciencias . 121 (27): e2311878121. arXiv : 2102.06701 . Bibcode :2024PNAS..12111878B. doi : 10.1073/pnas.2311878121 . PMC 11228526 . PMID 38913889.
^ ab Hestness, Joel; Narang, Sharan; Ardalani, Newsha; Diamos, Gregory; Jun, Heewoo; Kianinejad, Hassan; Patwary, Md Mostofa Ali; Yang, Yang; Zhou, Yanqi (1 de diciembre de 2017). "El escalamiento del aprendizaje profundo es predecible, empíricamente". arXiv : 1712.00409 [cs.LG].
^ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (28 de junio de 2022). "DeepSpeed-MoE: avances en la inferencia y el entrenamiento de mezcla de expertos para potenciar la escala de IA de próxima generación". Actas de la 39.ª Conferencia internacional sobre aprendizaje automático . PMLR: 18332–18346. arXiv : 2201.05596 .
^ abc Goodfellow, I., Bengio, Y., y Courville, A. (2016). Aprendizaje profundo. MIT Press.
^ ab Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sol, Jiao; Mao, Yuning; Mamá, Xuezhe; Efrat, Avia; Yu, Ping; Yu, Lili; Zhang, Susan; Ghosh, Gargi; Lewis, Mike; Zettlemoyer, Lucas; Levy, Omer (1 de mayo de 2023). "LIMA: Menos es más para la alineación". arXiv : 2305.11206 [cs.CL].
^ "google/BIG-bench". Google. 24 de septiembre de 2024. Consultado el 25 de septiembre de 2024 .
^ Jones, Andy L. (2021). "Escalado de leyes de escala con juegos de mesa". arXiv : 2104.03113 [cs.LG].
^ Tabla de clasificación de chatbots de LMSYS
^ abc Sam, Henighan, Tom Kaplan, Jared Katz, Mor Chen, Mark Hesse, Christopher Jackson, Jacob Jun, Heewoo Brown, Tom B. Dhariwal, Prafulla Gray, Scott Hallacy, Chris Mann, Benjamin Radford, Alec Ramesh, Aditya Ryder, Nick Ziegler, Daniel M. Schulman, John Amodei, Dario McCandlish (27 de octubre de 2020). Leyes de escala para modelado generativo autorregresivo. OCLC 1228442047.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, J.; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, T.; Child, Rewon (28 de mayo de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". arXiv : 2005.14165 [cs.CL].
^ Besiroglu, Tamay (17 de abril de 2024). "Escalamiento de chinchillas: un intento de replicación". Epoch AI . Consultado el 24 de septiembre de 2024 .
^ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29 de marzo de 2022). "Entrenamiento de modelos de lenguaje grandes con computación óptima". arXiv : 2203.15556 [cs.CL].
^ abc Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Leyes de escala para modelos de lenguaje neuronal". CoRR . abs/2001.08361. arXiv : 2001.08361 .
^ Besiroglu, Tamay; Erdil, Ege; Barnett, Matthew; You, Josh (15 de abril de 2024). "Escalamiento de chinchillas: un intento de replicación". arXiv : 2404.10102 [cs.AI].
^ Sorscher, Ben; Geirhos, Robert; Shekhar, Shashank; Ganguli, Surya; Morcos, Ari S. (21 de abril de 2023). "Más allá de las leyes de escalado neuronal: superando el escalado de la ley de potencia mediante la poda de datos". arXiv : 2206.14486 [cs.LG].
^ Tay, Yi; Wei, Jason; Chung, Hyung Won; Tran, Vinh Q.; So, David R.; Shakeri, Siamak; Garcia, Xavier; Zheng, Huaixiu Steven; Rao, Jinfeng (16 de noviembre de 2022). "Trascendiendo las leyes de escala con un 0,1 % de cómputo adicional". arXiv : 2210.11399 [cs.CL].
^ Muennighoff, Niklas; Rush, Alexander; Barak, Boaz; Le Scao, Teven; Tazi, Nouamane; Piktus, Aleksandra; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin A. (15 de diciembre de 2023). "Escalado de modelos de lenguaje con restricciones de datos". Avances en sistemas de procesamiento de información neuronal . 36 : 50358–50376. arXiv : 2305.16264 .
^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (11 de septiembre de 2023). "Los libros de texto son todo lo que necesita II: informe técnico de phi-1.5". arXiv : 2309.05463 [cs.CL].
^ Sardana, Nikhil; Frankle, Jonathan (31 de diciembre de 2023). "Más allá de Chinchilla-Optimal: explicación de la inferencia en las leyes de escalamiento de modelos de lenguaje". arXiv : 2401.00448 [cs.LG].
^ Gadre, Samir Yitzhak; Smyrnis, Georgios; Shankar, Vaishaal; Gururangan, Suchin; Wortsman, Mitchell; Shao, Rulin; Mercat, Jean; Fang, Alex; Li, Jeffrey (13 de marzo de 2024). "Los modelos de lenguaje escalan de manera confiable con sobreentrenamiento y en tareas posteriores". arXiv : 2403.08540 [cs.CL].
^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escala neuronal infringidas". arXiv : 2210.14891 [cs.LG].
^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; van den Driessche, George; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya (enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Nature . 529 (7587): 484–489. Bibcode :2016Natur.529..484S. doi :10.1038/nature16961. ISSN 1476-4687. PMID 26819042.
^ Li, Yujia; Choi, David; Chung, Junyoung; Kushman, Nate; Schrittwieser, Julian; Leblond, Rémi; Eccles, Tom; Keeling, James; Gimeno, Felix; Dal Lago, Agustin; Hubert, Thomas; Choy, Peter; de Masson d'Autume, Cyprien; Babuschkin, Igor; Chen, Xinyun (9 de diciembre de 2022). "Generación de código a nivel de competencia con AlphaCode". Science . 378 (6624): 1092–1097. arXiv : 2203.07814 . Bibcode :2022Sci...378.1092L. doi :10.1126/science.abq1158. ISSN 0036-8075. PMID 36480631.
^ de Noam, Brown (17 de septiembre de 2024). Parábolas sobre el poder de la planificación en IA: del póquer a la diplomacia: Noam Brown (OpenAI) (vídeo) . Consultado el 24 de septiembre de 2024 en YouTube.Conferencia en la Escuela Paul G. Allen el jueves 23 de mayo de 2024 a las 15:30 horas
^ Jones, Andy L. (15 de abril de 2021). "Escalado de leyes de escala con juegos de mesa". arXiv : 2104.03113 [cs.LG].
^ Villalobos, Pablo (28 de julio de 2023). "Compensación de la computación en el entrenamiento y la inferencia". Epoch AI . Consultado el 24 de septiembre de 2024 .
^ "Aprender a razonar con LLM". OpenAI . Consultado el 16 de septiembre de 2024 .
^ Zhai, Xiaohua; Kolesnikov, Alexander; Houlsby, Neil; Beyer, Lucas (2022). "Transformadores de visión a escala". CVPR : 12104–12113.
^ ab Ghorbani, Behrooz; Firat, Orhan; Freitag, Markus; Bapna, Ankur; Krikun, Maxim; Garcia, Xavier; Chelba, Ciprian; Cherry, Colin (1 de septiembre de 2021). "Leyes de escala para la traducción automática neuronal". arXiv : 2109.07740 [cs.LG].
^ Chen, Mia Xu; Firat, Orhan; Bapna, Ankur; Johnson, Melvin; Macherey, Wolfgang; Foster, George; Jones, Llion; Schuster, Mike; Shazeer, Noam; Parmar, Niki; Vaswani, Ashish; Uszkoreit, Jakob; Kaiser, Lukasz; Chen, Zhifeng; Wu, Yonghui (julio de 2018). "Lo mejor de ambos mundos: combinación de avances recientes en traducción automática neuronal". Actas de la 56.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Melbourne, Australia: Asociación de Lingüística Computacional: 76–86. arXiv : 1804.09849 . doi :10.18653/v1/P18-1008.
^ Gordon, Mitchell A; Duh, Kevin; Kaplan, Jared (2021). "Leyes de escalado de datos y parámetros para la traducción automática neuronal". Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural . Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional. págs. 5915–5922. doi : 10.18653/v1/2021.emnlp-main.478 .
^ Hernandez, Danny; Kaplan, Jared; Henighan, Tom; McCandlish, Sam (1 de febrero de 2021). "Leyes de escalamiento para transferencia". arXiv : 2102.01293 [cs.LG].