En general, un modelo de aprendizaje profundo se puede caracterizar por cuatro parámetros: tamaño del modelo, tamaño del conjunto de datos de entrenamiento, costo de entrenamiento y tasa de error posterior al entrenamiento (por ejemplo, la tasa de error del conjunto de prueba). Cada una de estas variables se puede definir como un número real, generalmente escrito como (respectivamente: recuento de parámetros, tamaño del conjunto de datos, costo computacional y pérdida ).
Una ley de escala neuronal es una ley estadística teórica o empírica entre estos parámetros. También existen otros parámetros con otras leyes de escala.
Tamaño del modelo
En la mayoría de los casos, el tamaño del modelo es simplemente el número de parámetros. Sin embargo, surge una complicación con el uso de modelos dispersos, como los modelos de mezcla de expertos . [3] Con los modelos dispersos, durante la inferencia, solo se utiliza una fracción de sus parámetros. En comparación, la mayoría de los otros tipos de redes neuronales, como los modelos de transformadores , siempre utilizan todos sus parámetros durante la inferencia.
Tamaño del conjunto de datos de entrenamiento
El tamaño del conjunto de datos de entrenamiento se cuantifica generalmente por la cantidad de puntos de datos que contiene. Por lo general, se prefieren conjuntos de datos de entrenamiento más grandes, ya que brindan una fuente de información más rica y diversa de la que el modelo puede aprender. Esto puede generar un mejor rendimiento de generalización cuando el modelo se aplica a datos nuevos e inéditos. [4] Sin embargo, aumentar el tamaño del conjunto de datos de entrenamiento también aumenta los recursos computacionales y el tiempo necesarios para el entrenamiento del modelo.
Con el método de "preentrenamiento, luego ajuste" utilizado para la mayoría de los modelos de lenguaje grandes , hay dos tipos de conjuntos de datos de entrenamiento: el conjunto de datos de preentrenamiento y el conjunto de datos de ajuste fino . Sus tamaños tienen diferentes efectos en el rendimiento del modelo. Generalmente, el conjunto de datos de ajuste fino tiene un tamaño menor al 1 % del conjunto de datos de preentrenamiento. [5]
En algunos casos, una pequeña cantidad de datos de alta calidad es suficiente para realizar ajustes, y más datos no necesariamente mejoran el rendimiento. [5]
Costo de la capacitación
El costo de entrenamiento se mide generalmente en términos de tiempo (cuánto tiempo lleva entrenar el modelo) y recursos computacionales (cuánta potencia de procesamiento y memoria se requieren). Es importante señalar que el costo de entrenamiento se puede reducir significativamente con algoritmos de entrenamiento eficientes, bibliotecas de software optimizadas y computación paralela en hardware especializado, como GPU o TPU .
El costo de entrenar un modelo de red neuronal es una función de varios factores, incluyendo el tamaño del modelo, el tamaño del conjunto de datos de entrenamiento, la complejidad del algoritmo de entrenamiento y los recursos computacionales disponibles. [4] En particular, duplicar el tamaño del conjunto de datos de entrenamiento no necesariamente duplica el costo del entrenamiento, porque uno puede entrenar el modelo varias veces sobre el mismo conjunto de datos (cada vez siendo una " época ").
Actuación
El rendimiento de un modelo de red neuronal se evalúa en función de su capacidad para predecir con precisión el resultado dados algunos datos de entrada. Las métricas comunes para evaluar el rendimiento del modelo incluyen: [4]
El rendimiento se puede mejorar utilizando más datos, modelos más grandes, diferentes algoritmos de entrenamiento, regularizando el modelo para evitar el sobreajuste y deteniendo anticipadamente el uso de un conjunto de validación.
Ejemplos
(Hestness, Narang, et al, 2017)
El artículo de 2017 [2] es un punto de referencia común para las leyes de escalamiento neuronal ajustadas mediante análisis estadístico de datos experimentales. Los trabajos anteriores a la década de 2000, citados en el artículo, eran teóricos o de órdenes de magnitud más pequeños en escala. Mientras que los trabajos anteriores generalmente encontraron que el exponente de escalamiento escalaba como , con , el artículo encontró que .
De los factores que variaron, solo la tarea puede cambiar el exponente . Cambiar los optimizadores de la arquitectura, los regularizadores y las funciones de pérdida solo cambiaría el factor de proporcionalidad, no el exponente. Por ejemplo, para la misma tarea, una arquitectura podría tener mientras que otra podría tener . También descubrieron que para una arquitectura dada, la cantidad de parámetros necesarios para alcanzar los niveles más bajos de pérdida, dado un tamaño de conjunto de datos fijo, crece como para otro exponente .
Estudiaron la traducción automática con LSTM ( ), el modelado generativo del lenguaje con LSTM ( ), la clasificación ImageNet con ResNet ( ) y el reconocimiento de voz ( ).
(Henighan, Kaplan y otros, 2020)
Un análisis de 2020 [9] estudió las relaciones estadísticas entre en un amplio rango de valores y encontró leyes de escala similares, en el rango de , y en múltiples modalidades (texto, video, imagen, texto a imagen, etc.). [9]
En particular, las leyes de escala que encontró son (Tabla 1 de [9] ):
Para cada modalidad, fijaron una de las dos y, al variar la otra ( se varía junto con ), la pérdida de prueba alcanzable satisface donde es la variable variada y son parámetros que se deben encontrar mediante ajuste estadístico. El parámetro es el más importante.
Cuando la variable es variada, varía de a dependiendo de la modalidad del modelo. Esto corresponde al del documento de escalamiento de Chinchilla.
Cuando la variable es variada, varía de a dependiendo de la modalidad del modelo. Esto corresponde al del documento de escalamiento de Chinchilla.
Dado un presupuesto computacional fijo, el recuento óptimo de parámetros del modelo se encuentra constantemente alrededor de El parámetro varía en un factor de hasta 10 para diferentes modalidades. El parámetro exponencial varía de a para diferentes modalidades. Este exponente corresponde al del artículo de escalamiento de Chinchilla.
Se "sugiere firmemente" (pero no se ha comprobado estadísticamente) que . Este exponente corresponde al del artículo sobre escalamiento de Chinchilla.
La ley de escala de se confirmó durante el entrenamiento de GPT-3 (Figura 3.1 [10] ).
Descamación de la chinchilla (Hoffmann, et al, 2022)
es el costo de entrenamiento del modelo, en FLOPS .
es el número de parámetros en el modelo.
es el número de tokens en el conjunto de entrenamiento.
es la pérdida de verosimilitud negativa promedio por token ( nats /token), lograda por el LLM entrenado en el conjunto de datos de prueba.
Representa la pérdida de un proceso generativo ideal en los datos de prueba.
Capta el hecho de que un modelo de lenguaje Transformer con parámetros tiene un rendimiento inferior al del proceso generativo ideal.
Capta el hecho de que el modelo entrenado con tokens tiene un rendimiento inferior al del proceso generativo ideal.
y los parámetros estadísticos son
, lo que significa que cuesta 6 FLOP por parámetro entrenar en un token. Esto es estimado por Kaplan et al. [13] Tenga en cuenta que el costo de entrenamiento es mucho más alto que el costo de inferencia, ya que el entrenamiento implica pases hacia adelante y hacia atrás , mientras que la inferencia cuesta de 1 a 2 FLOP por parámetro para inferir en un token.
.
Aunque Besiroglu et. al. [14] afirma que la estimación estadística está ligeramente desfasada y debería ser .
Las leyes estadísticas se ajustaron a los datos experimentales con .
Dado que hay 4 variables relacionadas por 2 ecuaciones, imponer 1 restricción adicional y 1 objetivo de optimización adicional nos permite resolver las cuatro variables. En particular, para cualquier fijo , podemos resolver de forma única las 4 variables que minimizan . Esto nos proporciona el óptimo para cualquier fijo : Al introducir los valores numéricos, obtenemos el tamaño del modelo "eficiente de Chinchilla" y el tamaño del conjunto de datos de entrenamiento, así como la pérdida de prueba alcanzable: De manera similar, podemos encontrar el tamaño del conjunto de datos de entrenamiento óptimo y el presupuesto de cómputo de entrenamiento para cualquier tamaño de parámetro de modelo fijo, y así sucesivamente.
Existen otras estimaciones del tamaño del modelo "eficiente para Chinchilla" y del tamaño del conjunto de datos de entrenamiento. La anterior se basa en un modelo estadístico de . También se puede ajustar directamente una ley estadística para sin pasar por el desvío, para lo cual se obtiene: o como se tabula:
Discrepancia
La ley de escala de Chinchilla para el entrenamiento de modelos de lenguaje de transformadores sugiere que, cuando se le da un presupuesto mayor (en FLOP ), para lograr un cálculo óptimo, la cantidad de parámetros del modelo (N) y la cantidad de tokens para entrenar el modelo (D) deben escalar en proporciones aproximadamente iguales. Esta conclusión difiere de (Henighan, Kaplan, et al, 2020), que afirma que N debe escalarse más rápido que D.
La fuente de esta discrepancia no está completamente aclarada, pero posiblemente se deba al ajuste de hiperparámetros y a los programas de velocidad de aprendizaje. [15] [16]
Más allá de la escala de Chinchilla
Como el escalamiento de Chinchilla ha sido el punto de referencia para muchas ejecuciones de entrenamiento de gran escala, ha habido un esfuerzo simultáneo para ir "más allá del escalamiento de Chinchilla", es decir, modificar parte del proceso de entrenamiento para obtener la misma pérdida con menos esfuerzo, o entrenar deliberadamente durante más tiempo que lo que es "óptimo para Chinchilla".
Por lo general, el objetivo es hacer que el exponente de la ley de escala sea más grande, lo que significa que la misma pérdida se puede entrenar con mucho menos cálculo. Por ejemplo, filtrar datos puede hacer que el exponente de la ley de escala sea más grande. [17]
Otra línea de investigación estudia cómo manejar datos limitados, ya que según las leyes de escala de Chinchilla, el tamaño del conjunto de datos de entrenamiento para los modelos de lenguaje más grandes ya se acerca a lo que está disponible en Internet. [18] descubrió que aumentar el conjunto de datos con una combinación de "objetivos de eliminación de ruido" construidos a partir del conjunto de datos mejora el rendimiento. [19] estudia el escalamiento óptimo cuando ya se han agotado todos los datos disponibles (como en idiomas poco comunes), por lo que se deben entrenar múltiples épocas sobre el mismo conjunto de datos (mientras que el escalamiento de Chinchilla requiere solo una época). La serie Phi de modelos de lenguaje pequeños se entrenó con datos similares a los de los libros de texto generados por modelos de lenguaje grandes, para los cuales los datos solo están limitados por la cantidad de cómputo disponible. [20]
La optimalidad de Chinchilla se definió como "óptima para el cómputo de entrenamiento", mientras que en los modelos de calidad de producción reales, habrá mucha inferencia después de que se complete el entrenamiento. El "sobreentrenamiento" durante el entrenamiento significa un mejor rendimiento durante la inferencia. [21] Los modelos LLaMA fueron sobreentrenados por esta razón. Estudios posteriores descubrieron leyes de escalamiento en el régimen de sobreentrenamiento, para tamaños de conjuntos de datos hasta 32 veces más que el óptimo de Chinchilla. [22]
Leyes de escalamiento neuronal rotas (BNSL)
Un análisis de 2022 [23] descubrió que muchos comportamientos de escalamiento de redes neuronales artificiales siguen una forma funcional de ley de potencia suavemente rota :
en el que se refiere a la cantidad que se está escalando (es decir , , , , número de pasos de entrenamiento, número de pasos de inferencia o tamaño de entrada del modelo) y se refiere a la métrica de evaluación de rendimiento descendente (o ascendente) de interés (por ejemplo, error de predicción , entropía cruzada , error de calibración, AUROC , porcentaje de puntuación BLEU , puntuación F1 , recompensa, calificación Elo , tasa de resolución o puntuación FID ) en configuraciones de disparo cero , solicitadas o ajustadas . Los parámetros se encuentran mediante ajuste estadístico.
En un gráfico logarítmico-logarítmico , cuando no es demasiado grande y se resta del eje y, esta forma funcional parece una serie de segmentos lineales conectados por arcos; las transiciones entre los segmentos se denominan "rupturas", de ahí el nombre de leyes de escala neuronal rotas (BNSL) .
Además de aumentar la capacidad de entrenamiento, también se puede aumentar la capacidad de inferencia. Por ejemplo, la calificación Elo de AlphaGo mejora constantemente a medida que se le permite dedicar más tiempo a su búsqueda de árbol de Monte Carlo por juego. [24] : Fig. 4 Para AlphaGo Zero , aumentar Elo en 120 requiere un tamaño de modelo y entrenamiento de 2x, o una búsqueda de tiempo de prueba de 2x. [25] De manera similar, un modelo de lenguaje para resolver desafíos de codificación a nivel de competencia, AlphaCode, mejoró constantemente en rendimiento con más tiempo de búsqueda. [26]
En el caso de Hex , un tiempo de entrenamiento de 10x se compensa con un tiempo de prueba de 15x. [27] En el caso de Libratus para el Texas Hold'em sin límite heads-up , y en el de Cicero para Diplomacy y muchos otros juegos abstractos de información parcial, la búsqueda en el tiempo de inferencia mejora el rendimiento en una relación de compensación similar, hasta un aumento efectivo de 100 000x en el tiempo de entrenamiento. [25]
En 2024, el informe OpenAI o1 documentó que el rendimiento de o1 mejoró constantemente con el aumento del cómputo en tiempo de entrenamiento y el cómputo en tiempo de prueba, y brindó numerosos ejemplos de escalamiento del cómputo en tiempo de prueba en tareas de matemáticas, razonamiento científico y codificación. [28] [29]
Otros ejemplos
Transformadores de visión
Los transformadores de visión , similares a los transformadores de lenguaje, exhiben leyes de escala. Una investigación de 2022 entrenó transformadores de visión, con recuentos de parámetros , en conjuntos de imágenes de tamaños , para realizar cálculos (en unidades de días de núcleo TPUv3). [30]
Después de entrenar el modelo, se lo ajusta con precisión en el conjunto de entrenamiento de ImageNet . Sea la probabilidad de error del modelo ajustado que clasifica el conjunto de prueba de ImageNet. Encontraron .
Traducción automática neuronal
Ghorbani, Behrooz et al. [31] estudiaron leyes de escalamiento para la traducción automática neuronal (específicamente, inglés como fuente y alemán como destino) en modelos de transformadores de codificador-decodificador , entrenados hasta la convergencia en los mismos conjuntos de datos (por lo tanto, no se ajustaron a las leyes de escalamiento para el costo computacional o el tamaño del conjunto de datos ). Variaron. Encontraron tres resultados:
es una función de ley de escala de , donde son el recuento de parámetros del codificador y del decodificador. No es simplemente una función del recuento total de parámetros . La función tiene la forma , donde son los parámetros ajustados. Descubrieron que minimiza la pérdida si se mantiene fijo.
"satura" (es decir, alcanza ) para modelos más pequeños cuando los conjuntos de datos de entrenamiento y prueba son "naturales de origen" que "naturales de destino". Un punto de datos "natural de origen" significa un par de oraciones inglés-alemán, y se le pide al modelo que traduzca la oración en inglés al alemán, y la oración en inglés está escrita por un escritor inglés natural, mientras que la oración en alemán es traducida de la oración en inglés por un traductor automático. [32] Para construir los dos tipos de conjuntos de datos, los autores recopilaron oraciones naturales en inglés y alemán en línea, luego utilizaron la traducción automática para generar sus traducciones.
A medida que los modelos se hacen más grandes, los modelos entrenados en conjuntos de datos originales de origen pueden lograr una pérdida baja pero una puntuación BLEU mala . Por el contrario, los modelos entrenados en conjuntos de datos originales de destino logran una pérdida baja y una puntuación BLEU buena al mismo tiempo (Figura 10, 11 [31] ).
Los autores plantean la hipótesis de que los conjuntos de datos naturales de origen tienen oraciones objetivo uniformes y aburridas, por lo que un modelo entrenado para predecir las oraciones objetivo se sobreajustaría rápidamente.
[33] Entrenaron transformadores para traducciones automáticas con tamaños en tamaños de conjuntos de datos . Encontraron la ley de escala de Kaplan et al (2020) [13] aplicada a la traducción automática: . También encontraron que la escala de puntuación BLEU era .
Aprendizaje por transferencia
Hernández, Danny et al. [34] estudiaron leyes de escalamiento para el aprendizaje por transferencia en modelos de lenguaje. Entrenaron una familia de Transformers de tres maneras:
Preentrenamiento en inglés, ajuste fino en Python
preentrenamiento en una combinación equitativa de inglés y Python, ajuste fino en Python
Entrenamiento en Python
La idea es que el preentrenamiento en inglés debería ayudar al modelo a lograr una pérdida baja en un conjunto de prueba de texto de Python. Supongamos que el modelo tiene un parámetro count y, después de ajustarlo con tokens de Python, logra cierta pérdida . Decimos que su "número de tokens transferidos" es , si otro modelo con el mismo logra lo mismo después del entrenamiento con tokens de Python.
Lo encontraron para preentrenamiento en texto en inglés y para preentrenamiento en código en inglés y no Python.
^ Bahri, Yasaman; Dyer, Ethan; Kaplan, Jared; Lee, Jaehoon; Sharma, Utkarsh (2024). "Explicación de las leyes de escalamiento neuronal". Actas de la Academia Nacional de Ciencias . 121 (27): e2311878121. arXiv : 2102.06701 . Código Bibliográfico : 2024PNAS..12111878B. doi : 10.1073/pnas.2311878121 . PMC 11228526. PMID 38913889 .
^ ab Hestness, Joel; Narang, Sharan; Ardalani, Newsha; Diamos, Gregorio; Jun, Heewoo; Kianinejad, Hassan; Patwary, doctor Mostofa Ali; Yang, Yang; Zhou, Yanqi (1 de diciembre de 2017). "La escala del aprendizaje profundo es predecible, empíricamente". arXiv : 1712.00409 [cs.LG].
^ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (28 de junio de 2022). "DeepSpeed-MoE: Avanzando en la inferencia y el entrenamiento de mezcla de expertos para potenciar la escala de IA de próxima generación". Actas de la 39.ª Conferencia internacional sobre aprendizaje automático . PMLR: 18332–18346. arXiv : 2201.05596 .
^ abc Goodfellow, I., Bengio, Y., y Courville, A. (2016). Aprendizaje profundo. MIT Press.
^ ab Zhou, Chunting; Liu, Pengfei; Xu, Puxin; Iyer, Srini; Sol, Jiao; Mao, Yuning; Mamá, Xuezhe; Efrat, Avia; Yu, Ping; Yu, Lili; Zhang, Susan; Ghosh, Gargi; Lewis, Mike; Zettlemoyer, Lucas; Levy, Omer (1 de mayo de 2023). "LIMA: Menos es más para la alineación". arXiv : 2305.11206 [cs.CL].
^ "google/BIG-bench". Google. 24 de septiembre de 2024. Consultado el 25 de septiembre de 2024 .
^ Jones, Andy L. (2021). "Escalado de leyes de escala con juegos de mesa". arXiv : 2104.03113 [cs.LG].
^ Tabla de clasificación de chatbots de LMSYS
^ abc Sam, Henighan, Tom Kaplan, Jared Katz, Mor Chen, Mark Hesse, Christopher Jackson, Jacob Jun, Heewoo Brown, Tom B. Dhariwal, Prafulla Gray, Scott Hallacy, Chris Mann, Benjamin Radford, Alec Ramesh, Aditya Ryder, Nick Ziegler, Daniel M. Schulman, John Amodei, Dario McCandlish (27 de octubre de 2020). Leyes de escala para modelado generativo autorregresivo. OCLC 1228442047.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, J.; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, T.; Child, Rewon (28 de mayo de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". arXiv : 2005.14165 [cs.CL].
^ Besiroglu, Tamay (17 de abril de 2024). "Escalamiento de chinchillas: un intento de replicación". Epoch AI . Consultado el 24 de septiembre de 2024 .
^ Hoffmann, Jordania; Borgeaud, Sebastián; Mensch, Arturo; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29 de marzo de 2022). "Entrenamiento de modelos de lenguajes grandes óptimos para la computación". arXiv : 2203.15556 [cs.CL].
^ ab Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Leyes de escala para modelos de lenguaje neuronal". CoRR . abs/2001.08361. arXiv : 2001.08361 .
^ Besiroglu, Tamay; Erdil, Ege; Barnett, Matthew; You, Josh (15 de abril de 2024). "Escalamiento de chinchillas: un intento de replicación". arXiv : 2404.10102 [cs.AI].
^ Porian, Tomer; Wortsman, Mitchell; Jitsev, Jenia; Schmidt, Ludwig; Carmon, Yair (25 de julio de 2024), Resolución de discrepancias en el escalamiento computacional óptimo de modelos de lenguaje, arXiv : 2406.19146 , consultado el 22 de octubre de 2024
^ Pearce, Tim; Song, Jinyeop (2024), Reconciliación de las leyes de escala de Kaplan y Chinchilla, arXiv : 2406.12907 , consultado el 10 de noviembre de 2024
^ Sorscher, Ben; Geirhos, Robert; Shekhar, Shashank; Ganguli, Surya; Morcos, Ari S. (21 de abril de 2023). "Más allá de las leyes de escala neuronal: superar la escala de la ley de potencia mediante la poda de datos". arXiv : 2206.14486 [cs.LG].
^ Tay, Yi; Wei, Jason; Chung, Hyung Won; Tran, Vinh Q.; Entonces, David R.; Shakeri, Siamak; García, Xavier; Zheng, Huaixiu Steven; Rao, Jinfeng (16 de noviembre de 2022). "Trascendiendo las leyes de escala con un 0,1% de cálculo adicional". arXiv : 2210.11399 [cs.CL].
^ Muennighoff, Niklas; Rush, Alexander; Barak, Boaz; Le Scao, Teven; Tazi, Nouamane; Piktus, Aleksandra; Pyysalo, Sampo; Wolf, Thomas; Raffel, Colin A. (15 de diciembre de 2023). "Escalado de modelos de lenguaje con restricciones de datos". Avances en sistemas de procesamiento de información neuronal . 36 : 50358–50376. arXiv : 2305.16264 .
^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (11 de septiembre de 2023). "Los libros de texto son todo lo que necesita II: informe técnico de phi-1.5". arXiv : 2309.05463 [cs.CL].
^ Sardana, Nikhil; Frankle, Jonathan (31 de diciembre de 2023). "Más allá de Chinchilla-Optimal: explicación de la inferencia en las leyes de escalamiento de modelos de lenguaje". arXiv : 2401.00448 [cs.LG].
^ Gadre, Samir Yitzhak; Smyrnis, Georgios; Shankar, Vaishaal; Gururangan, Suchin; Wortsman, Mitchell; Shao, Rulin; Mercat, Jean; Fang, Alex; Li, Jeffrey (13 de marzo de 2024). "Los modelos de lenguaje escalan de manera confiable con sobreentrenamiento y en tareas posteriores". arXiv : 2403.08540 [cs.CL].
^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escala neuronal infringidas". arXiv : 2210.14891 [cs.LG].
^ Plata, David; Huang, Aja; Maddison, Chris J.; Guez, Arturo; Sifré, Laurent; van den Driessche, George; Schrittwieser, Julián; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, Juan; Kalchbrenner, Nal; Sutskever, Ilya (enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib :2016Natur.529..484S. doi : 10.1038/naturaleza16961. ISSN 1476-4687. PMID 26819042.
^ de Noam, Brown (17 de septiembre de 2024). Parábolas sobre el poder de la planificación en IA: del póquer a la diplomacia: Noam Brown (OpenAI) (vídeo) . Consultado el 24 de septiembre de 2024 en YouTube.Conferencia en la Escuela Paul G. Allen el jueves 23 de mayo de 2024 a las 15:30 horas
^ Li, Yujia; Choi, David; Chung, Junyoung; Kushman, Nate; Schrittwieser, Julian; Leblond, Rémi; Eccles, Tom; Keeling, James; Gimeno, Felix; Dal Lago, Agustin; Hubert, Thomas; Choy, Peter; de Masson d'Autume, Cyprien; Babuschkin, Igor; Chen, Xinyun (9 de diciembre de 2022). "Generación de código a nivel de competencia con AlphaCode". Science . 378 (6624): 1092–1097. arXiv : 2203.07814 . Bibcode :2022Sci...378.1092L. doi :10.1126/science.abq1158. ISSN 0036-8075. PMID 36480631.
^ Jones, Andy L. (15 de abril de 2021). "Escalado de leyes de escala con juegos de mesa". arXiv : 2104.03113 [cs.LG].
^ Villalobos, Pablo (28 de julio de 2023). "Compensación de la computación en el entrenamiento y la inferencia". Epoch AI . Consultado el 24 de septiembre de 2024 .
^ "Aprender a razonar con LLM". OpenAI . Consultado el 16 de septiembre de 2024 .
^ Zhai, Xiaohua; Kolesnikov, Alexander; Houlsby, Neil; Beyer, Lucas (2022). "Transformadores de visión a escala". CVPR : 12104–12113.
^ ab Ghorbani, Behrooz; Firat, Orhan; Freitag, Markus; Bapna, Ankur; Krikun, Maxim; Garcia, Xavier; Chelba, Ciprian; Cherry, Colin (1 de septiembre de 2021). "Leyes de escala para la traducción automática neuronal". arXiv : 2109.07740 [cs.LG].
^ Chen, Mia Xu; Firat, Orhan; Bapna, Ankur; Johnson, Melvin; Macherey, Wolfgang; Foster, George; Jones, Llion; Schuster, Mike; Shazeer, Noam; Parmar, Niki; Vaswani, Ashish; Uszkoreit, Jakob; Kaiser, Lukasz; Chen, Zhifeng; Wu, Yonghui (julio de 2018). "Lo mejor de ambos mundos: combinación de avances recientes en traducción automática neuronal". Actas de la 56.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos) . Melbourne, Australia: Asociación de Lingüística Computacional: 76–86. arXiv : 1804.09849 . doi :10.18653/v1/P18-1008.
^ Gordon, Mitchell A; Duh, Kevin; Kaplan, Jared (2021). "Leyes de escalado de datos y parámetros para la traducción automática neuronal". Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural . Stroudsburg, PA, EE. UU.: Asociación de Lingüística Computacional. págs. 5915–5922. doi : 10.18653/v1/2021.emnlp-main.478 .
^ Hernandez, Danny; Kaplan, Jared; Henighan, Tom; McCandlish, Sam (1 de febrero de 2021). "Leyes de escala para transferencia". arXiv : 2102.01293 [cs.LG].