Modelo de lenguaje grande

Un modelo de lenguaje grande ( LLM ) es un modelo computacional capaz de generar lenguaje u otras tareas de procesamiento del lenguaje natural . Como modelos de lenguaje , los LLM adquieren estas capacidades al aprender relaciones estadísticas a partir de grandes cantidades de texto durante un proceso de entrenamiento autosupervisado y semisupervisado . ^[1]

Los LLM más grandes y capaces, a partir de agosto de 2024 ^[update], son redes neuronales artificiales construidas con una arquitectura basada en transformadores solo decodificadores , que permite un procesamiento y una generación eficientes de datos de texto a gran escala. Los modelos modernos se pueden ajustar para tareas específicas o pueden guiarse por ingeniería rápida . ^[2] Estos modelos adquieren poder predictivo con respecto a la sintaxis, la semántica y las ontologías ^[3] inherentes a los corpus del lenguaje humano, pero también heredan imprecisiones y sesgos presentes en los datos con los que se entrenan. ^[4]

Algunos LLM notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3.5 , GPT-4 y GPT-4o ; utilizados en ChatGPT y Microsoft Copilot ), Gemini de Google (utilizado en el chatbot del mismo nombre ), la familia de modelos LLaMA de Meta , los modelos Granite de IBM lanzados inicialmente con Watsonx , los modelos Claude de Anthropic y los modelos de Mistral AI .

Historia

Antes de 2017, había algunos modelos de lenguaje que eran grandes en comparación con las capacidades disponibles en ese momento. En la década de 1990, los modelos de alineación de IBM fueron pioneros en el modelado estadístico del lenguaje. En 2001, un modelo de n-gramas suavizado entrenado en 0,3 mil millones de palabras logró la perplejidad de entonces (SOTA). ^[5] En la década de 2000, cuando el uso de Internet se hizo predominante, algunos investigadores construyeron conjuntos de datos de lenguaje a escala de Internet ("web como corpus" ^[6] ), sobre los cuales entrenaron modelos estadísticos del lenguaje. ^[7]^[8] En 2009, en la mayoría de las tareas de procesamiento del lenguaje, los modelos estadísticos del lenguaje dominaron sobre los modelos simbólicos del lenguaje, ya que pueden ingerir de manera útil grandes conjuntos de datos. ^[9]

Después de que las redes neuronales se volvieran dominantes en el procesamiento de imágenes alrededor de 2012, también se aplicaron al modelado de lenguaje. Google convirtió su servicio de traducción a Neural Machine Translation en 2016. Como era antes de Transformers, se hizo mediante redes LSTM profundas seq2seq.

Una ilustración de los componentes principales del modelo de transformador del artículo original, donde las capas se normalizaron después (en lugar de antes) de la atención multidireccional.

En la conferencia NeurIPS de 2017 , los investigadores de Google presentaron la arquitectura del transformador en su artículo emblemático " Attention Is All You Need ". El objetivo de este artículo era mejorar la tecnología Seq2seq de 2014 , ^[10] y se basó principalmente en el mecanismo de atención desarrollado por Bahdanau et al. en 2014. ^[11] El año siguiente, en 2018, se presentó BERT y rápidamente se volvió "omnipresente". ^[12] Aunque el transformador original tiene bloques codificadores y decodificadores, BERT es un modelo de solo codificador.

Aunque el GPT-1 , que solo funcionaba como decodificador, se introdujo en 2018, fue el GPT-2 de 2019 el que captó la atención generalizada porque OpenAI al principio lo consideró demasiado potente para publicarlo, por temor a un uso malintencionado. ^[13] El GPT-3 de 2020 fue un paso más allá y, a partir de 2024, ^[update]solo está disponible a través de API sin ofrecer la posibilidad de descargar el modelo para ejecutarlo localmente. Pero fue el ChatGPT basado en navegador para el consumidor de 2022 el que capturó la imaginación de la población general y causó cierto revuelo en los medios y en Internet. ^[14] El GPT-4 de 2023 fue elogiado por su mayor precisión y como un "santo grial" por sus capacidades multimodales . ^[15] OpenAI no reveló la arquitectura de alto nivel ni la cantidad de parámetros del GPT-4.

Los modelos de lenguaje en competencia, en su mayor parte, han intentado igualar la serie GPT, al menos en términos de número de parámetros. ^[16]

Desde 2022, los modelos disponibles en código fuente han ido ganando popularidad, especialmente al principio con BLOOM y LLaMA , aunque ambos tienen restricciones en el campo de uso. Los modelos Mistral 7B y Mixtral 8x7b de Mistral AI tienen la licencia Apache más permisiva . A junio de 2024 ^[update], la variante ajustada con precisión de instrucciones del modelo Llama 3 de 70 mil millones de parámetros es el LLM abierto más poderoso según el LMSYS Chatbot Arena Leaderboard, siendo más poderoso que GPT-3.5 pero no tan poderoso como GPT-4. ^[17]

A partir de 2024, los modelos más grandes y con mayor capacidad se basan en la arquitectura Transformer. Algunas implementaciones recientes se basan en otras arquitecturas, como variantes de redes neuronales recurrentes y Mamba (un modelo de espacio de estados ). ^[18]^[19]^[20]

Preprocesamiento de conjuntos de datos

Tokenización

Debido a que los algoritmos de aprendizaje automático procesan números en lugar de texto, el texto debe convertirse en números. En el primer paso, se decide un vocabulario, luego se asignan índices enteros de manera arbitraria pero única a cada entrada de vocabulario y, finalmente, se asocia una incrustación al índice entero. Los algoritmos incluyen codificación de pares de bytes (BPE) y WordPiece . También hay tokens especiales que sirven como caracteres de control , como [MASK]para el token enmascarado (como se usa en BERT ) y [UNK]("desconocido") para caracteres que no aparecen en el vocabulario. Además, se usan algunos símbolos especiales para indicar un formato de texto especial. Por ejemplo, "Ġ" indica un espacio en blanco anterior en RoBERTa y GPT. "##" indica la continuación de una palabra anterior en BERT. ^[21]

Por ejemplo, el tokenizador BPE utilizado por GPT-3 (Legacy) se dividiría tokenizer: texts -> series of numerical "tokens"como

La tokenización también comprime los conjuntos de datos. Debido a que los LLM generalmente requieren que la entrada sea una matriz que no sea irregular , los textos más cortos deben "rellenarse" hasta que coincidan con la longitud del más largo. La cantidad de tokens que se necesitan, en promedio, por palabra depende del idioma del conjunto de datos. ^[22]^[23]

EBP

Como ejemplo, considere un tokenizador basado en codificación de pares de bytes. En el primer paso, todos los caracteres únicos (incluidos los espacios en blanco y los signos de puntuación ) se tratan como un conjunto inicial de n -gramas (es decir, un conjunto inicial de uni-gramas). Sucesivamente, el par más frecuente de caracteres adyacentes se fusiona en un bi-grama y todas las instancias del par se reemplazan por él. Todas las ocurrencias de pares adyacentes de n -gramas (previamente fusionados) que ocurren juntos con mayor frecuencia se fusionan nuevamente en un n -grama aún más largo, hasta que se obtiene un vocabulario de tamaño prescrito (en el caso de GPT-3 , el tamaño es 50257). ^[24] Después de que se entrena un tokenizador, cualquier texto puede ser tokenizado por él, siempre que no contenga caracteres que no aparezcan en el conjunto inicial de uni-gramas. ^[25]

Problemas

Un vocabulario de tokens basado en las frecuencias extraídas de corpus principalmente en inglés utiliza la menor cantidad posible de tokens para una palabra inglesa promedio. Sin embargo, una palabra promedio en otro idioma codificada por un tokenizador optimizado para inglés se divide en una cantidad subóptima de tokens. El tokenizador GPT-2 puede utilizar hasta 15 veces más tokens por palabra para algunos idiomas, por ejemplo, para el idioma shan de Myanmar . Incluso idiomas más extendidos como el portugués y el alemán tienen "una prima del 50%" en comparación con el inglés. ^[26]

La tokenización codiciosa también causa problemas sutiles con la finalización del texto. ^[27]

Limpieza de conjuntos de datos

En el contexto del entrenamiento de LLM, los conjuntos de datos generalmente se limpian eliminando pasajes tóxicos del conjunto de datos, descartando datos de baja calidad y deduplicando. ^[28] Los conjuntos de datos limpios pueden aumentar la eficiencia del entrenamiento y conducir a un mejor rendimiento posterior. ^[29]^[30] Un LLM entrenado se puede utilizar para limpiar conjuntos de datos para entrenar un LLM adicional. ^[31]

Con la creciente proporción de contenido generado por LLM en la web, la limpieza de datos en el futuro puede incluir el filtrado de dicho contenido. El contenido generado por LLM puede plantear un problema si el contenido es similar al texto humano (lo que dificulta el filtrado) pero de menor calidad (lo que degrada el rendimiento de los modelos entrenados con él). ^[32]

Datos sintéticos

El entrenamiento de los modelos lingüísticos más grandes puede requerir más datos lingüísticos que los que se encuentran disponibles naturalmente, o que los datos que se encuentran naturalmente no sean de suficiente calidad. En estos casos, se pueden utilizar datos sintéticos. La serie Phi de LLM de Microsoft se entrena con datos similares a los de un libro de texto generados por otro LLM. ^[33]

Formación y arquitectura

Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)

El aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) a través de algoritmos, como la optimización de políticas proximales , se utiliza para ajustar aún más un modelo basado en un conjunto de datos de preferencias humanas. ^[34]

Ajuste de instrucciones

Mediante el uso de métodos de "autoinstrucción", los estudiantes de maestría en derecho han podido generar respuestas correctas, reemplazando cualquier respuesta ingenua, a partir de correcciones generadas por humanos de unos pocos casos. Por ejemplo, en la instrucción "Escribe un ensayo sobre los temas principales representados en Hamlet ", una finalización ingenua inicial podría ser "Si entregas el ensayo después del 17 de marzo, tu calificación se reducirá en un 10% por cada día de retraso", según la frecuencia de esta secuencia textual en el corpus. ^[35]

Mezcla de expertos

El modelo LLM más grande puede ser demasiado costoso para entrenarlo y usarlo directamente. Para estos modelos, se puede aplicar la mezcla de expertos (MoE), una línea de investigación que los investigadores de Google llevan adelante desde 2017 para entrenar modelos que alcanzan hasta 1 billón de parámetros. ^[36]^[37]^[38]

Ingeniería rápida, mecanismo de atención y ventana de contexto

La mayoría de los resultados que antes sólo se podían lograr mediante un ajuste fino (costoso) se pueden lograr mediante ingeniería rápida , aunque limitada al alcance de una sola conversación (más precisamente, limitada al alcance de una ventana de contexto). ^[39]

Para averiguar qué tokens son relevantes entre sí dentro del alcance de la ventana de contexto, el mecanismo de atención calcula pesos "suaves" para cada token, más precisamente para su incrustación, utilizando múltiples cabezas de atención, cada una con su propia "relevancia" para calcular sus propios pesos blandos. Por ejemplo, el modelo GPT-2 pequeño (es decir, con un tamaño de parámetro de 117 millones) tenía doce cabezas de atención y una ventana de contexto de solo 1k tokens. ^[41] En su versión mediana tiene 345 millones de parámetros y contiene 24 capas, cada una con 12 cabezas de atención. Para el entrenamiento con descenso de gradiente se utilizó un tamaño de lote de 512. ^[25]

Los modelos más grandes, como Gemini 1.5 de Google , presentado en febrero de 2024, pueden tener una ventana de contexto de hasta 1 millón (la ventana de contexto de 10 millones también se "probó con éxito"). ^[42] Otros modelos con ventanas de contexto grandes incluyen Claude 2.1 de Anthropic, con una ventana de contexto de hasta 200k tokens. ^[43] Tenga en cuenta que este máximo se refiere al número de tokens de entrada y que el número máximo de tokens de salida difiere de la entrada y, a menudo, es menor. Por ejemplo, el modelo GPT-4 Turbo tiene una salida máxima de 4096 tokens. ^[44]

La longitud de una conversación que el modelo puede tener en cuenta al generar su próxima respuesta también está limitada por el tamaño de una ventana de contexto. Si la longitud de una conversación, por ejemplo con ChatGPT , es mayor que su ventana de contexto, solo se tienen en cuenta las partes dentro de la ventana de contexto al generar la próxima respuesta, o el modelo debe aplicar algún algoritmo para resumir las partes demasiado distantes de la conversación.

Las desventajas de hacer una ventana de contexto más grande incluyen un mayor costo computacional y posiblemente diluir el enfoque en el contexto local, mientras que hacerla más pequeña puede hacer que un modelo pase por alto una importante dependencia de largo alcance. Equilibrarlas es una cuestión de experimentación y consideraciones específicas del dominio.

Un modelo puede ser entrenado previamente para predecir cómo continúa el segmento o qué falta en el segmento, dado un segmento de su conjunto de datos de entrenamiento. ^[45] Puede ser

autorregresivo (es decir, predecir cómo continúa el segmento, como lo hacen los GPT ): por ejemplo, dado un segmento "Me gusta comer", el modelo predice "helado" o "sushi".
" enmascarado " (es decir, rellenando las partes faltantes del segmento, como lo hace "BERT" ^[46][__] [__] ): por ejemplo, dado un segmento "Me gusta la crema", el modelo predice que faltan "comer" y "hielo".

Los modelos pueden entrenarse en tareas auxiliares que prueban su comprensión de la distribución de datos, como la predicción de la siguiente oración (NSP), en la que se presentan pares de oraciones y el modelo debe predecir si aparecen consecutivamente en el corpus de entrenamiento. ^[46] Durante el entrenamiento, la pérdida de regularización también se utiliza para estabilizar el entrenamiento. Sin embargo, la pérdida de regularización generalmente no se utiliza durante las pruebas y la evaluación.

Infraestructura

Se necesita una infraestructura sustancial para entrenar los modelos más grandes. ^[47]^[48]^[49]

Costo de capacitación

Los avances en software y hardware han reducido sustancialmente el costo desde 2020, de tal manera que en 2023 el costo computacional del entrenamiento de un LLM de 12 mil millones de parámetros es de 72,300 A100-GPU -horas, mientras que en 2020 el costo de entrenamiento de un LLM de 1,5 mil millones de parámetros (que era dos órdenes de magnitud menor que el estado del arte en 2020) era de entre $ 80 mil y $ 1,6 millones. ^[50]^[51]^[52] Desde 2020, se invirtieron grandes sumas en modelos cada vez más grandes. Por ejemplo, el entrenamiento del GPT-2 (es decir, un modelo de 1.500 millones de parámetros) en 2019 costó 50.000 dólares, mientras que el entrenamiento del PaLM (es decir, un modelo de 540.000 millones de parámetros) en 2022 costó 8 millones de dólares, y el Megatron-Turing NLG 530B (en 2021) costó alrededor de 11 millones de dólares. ^[53]

En el caso de LLM basado en transformadores, el costo de entrenamiento es mucho mayor que el costo de inferencia. Cuesta 6 FLOP por parámetro entrenar en un token, mientras que cuesta entre 1 y 2 FLOP por parámetro inferir en un token. ^[54]

Uso de herramientas

Existen ciertas tareas que, en principio, no pueden ser resueltas por ningún LLM, al menos no sin el uso de herramientas externas o software adicional. Un ejemplo de tal tarea es responder a la entrada del usuario '354 * 139 = ', siempre que el LLM no haya encontrado ya una continuación de este cálculo en su corpus de entrenamiento. ^{[ dubious – discussion ]} En tales casos, el LLM necesita recurrir a ejecutar código de programa que calcule el resultado, que luego puede incluirse en su respuesta. ^{[ dubious – discussion ]} : Otro ejemplo es '¿Qué hora es ahora? Son ', donde un intérprete de programa independiente necesitaría ejecutar un código para obtener la hora del sistema en la computadora, por lo que LLM podría incluirla en su respuesta. ^{[ 55 ]}^{[ 56 ]} Esta estrategia básica puede ser sofisticada con múltiples intentos de programas generados y otras estrategias de muestreo. ^{[ 57 ]}

En general, para que un LLM pueda utilizar herramientas, es necesario ajustarlo para que pueda utilizarlas. Si la cantidad de herramientas es finita, entonces el ajuste se puede realizar solo una vez. Si la cantidad de herramientas puede crecer arbitrariamente, como sucede con los servicios API en línea , entonces el LLM se puede ajustar para que pueda leer la documentación API y llamar a la API correctamente. ^[58]^[59]

Una forma más simple de utilizar la herramienta es la generación aumentada de recuperación : la ampliación de un LLM con la recuperación de documentos . Dada una consulta, se llama a un recuperador de documentos para recuperar los documentos más relevantes. Esto se hace generalmente codificando la consulta y los documentos en vectores, luego buscando los documentos con vectores (generalmente almacenados en una base de datos de vectores ) más similares al vector de la consulta. El LLM luego genera una salida basada tanto en la consulta como en el contexto incluido de los documentos recuperados. ^[60]

Agencia

Un LLM es un modelo de lenguaje, que no es un agente ya que no tiene ningún objetivo, pero puede utilizarse como un componente de un agente inteligente . ^[61] Los investigadores han descrito varios métodos para tales integraciones. ^{[ cita requerida ]}

El patrón ReAct, un acrónimo de "Reason + Act", construye un agente a partir de un LLM, utilizando el LLM como planificador. Se le pide al LLM que "piense en voz alta". Específicamente, se le pide al modelo de lenguaje una descripción textual del entorno, un objetivo, una lista de posibles acciones y un registro de las acciones y observaciones realizadas hasta el momento. Genera uno o más pensamientos antes de generar una acción, que luego se ejecuta en el entorno. ^[62] La descripción lingüística del entorno que se le da al planificador del LLM puede incluso ser el código LaTeX de un artículo que describe el entorno. ^[63]

En el método DEPS ("Describe, Explain, Plan and Select"), un LLM primero se conecta al mundo visual a través de descripciones de imágenes, luego se le pide que produzca planes para tareas y comportamientos complejos basados en su conocimiento preentrenado y la retroalimentación ambiental que recibe. ^[64]

El método Reflexion ^[65] construye un agente que aprende a lo largo de varios episodios. Al final de cada episodio, se le entrega al agente el registro del episodio y se le pide que piense en "lecciones aprendidas" que lo ayudarán a desempeñarse mejor en un episodio posterior. Estas "lecciones aprendidas" se le entregan al agente en los episodios posteriores. ^{[ cita requerida ]}

La búsqueda de árboles de Monte Carlo puede utilizar un LLM como heurística de implementación. Cuando no se dispone de un modelo de mundo programático, también se puede solicitar un LLM con una descripción del entorno para que actúe como modelo de mundo. ^[66]

Para la exploración abierta, un LLM puede utilizarse para puntuar las observaciones por su "interés", lo que puede utilizarse como señal de recompensa para guiar a un agente de aprendizaje de refuerzo normal (no LLM). ^[67] Alternativamente, puede proponer tareas cada vez más difíciles para el aprendizaje del currículo . ^[68] En lugar de generar acciones individuales, un planificador LLM también puede construir "habilidades" o funciones para secuencias de acciones complejas. Las habilidades se pueden almacenar e invocar más tarde, lo que permite aumentar los niveles de abstracción en la planificación. ^[68]

Los agentes que funcionan con LLM pueden mantener una memoria a largo plazo de sus contextos anteriores, y la memoria se puede recuperar de la misma manera que la Generación Aumentada de Recuperación. Múltiples agentes de este tipo pueden interactuar socialmente. ^[69]

Compresión

Por lo general, los LLM se entrenan con números de punto flotante de precisión simple o media (float32 y float16). Un float16 tiene 16 bits, o 2 bytes, por lo que mil millones de parámetros requieren 2 gigabytes. Los modelos más grandes suelen tener 100 mil millones de parámetros, que requieren 200 gigabytes para cargarse, lo que los coloca fuera del alcance de la mayoría de los productos electrónicos de consumo. ^[70]

La cuantificación posterior al entrenamiento ^[71] tiene como objetivo disminuir el requisito de espacio al reducir la precisión de los parámetros de un modelo entrenado, al tiempo que se conserva la mayor parte de su rendimiento. ^[72]^[73] La forma más simple de cuantificación simplemente trunca todos los números a una cantidad dada de bits. Se puede mejorar utilizando un libro de códigos de cuantificación diferente por capa. Se pueden realizar mejoras adicionales aplicando diferentes precisiones a diferentes parámetros, con mayor precisión para parámetros particularmente importantes ("pesos atípicos"). ^[74] Consulte ^[75] para obtener una guía visual.

Si bien los modelos cuantificados suelen estar congelados y solo los modelos precuantificados se ajustan, los modelos cuantificados aún pueden ajustarse. ^[76]

Multimodalidad

Multimodalidad significa "tener varias modalidades", y una "modalidad" se refiere a un tipo de entrada o salida, como video, imagen, audio, texto, propiocepción , etc. ^[77] Ha habido muchos modelos de IA entrenados específicamente para ingerir una modalidad y generar otra modalidad, como AlexNet para imagen a etiqueta, ^[78] respuesta visual a preguntas para imagen-texto a texto, ^[79] y reconocimiento de voz para voz a texto.

Un método común para crear modelos multimodales a partir de un LLM es "tokenizar" la salida de un codificador entrenado. Concretamente, se puede construir un LLM que pueda entender imágenes de la siguiente manera: tomar un LLM entrenado y tomar un codificador de imágenes entrenado . Hacer un pequeño perceptrón multicapa , de modo que para cualquier imagen , el vector posprocesado tenga las mismas dimensiones que un token codificado. Eso es un "token de imagen". Luego, se pueden intercalar tokens de texto y tokens de imagen. El modelo compuesto se ajusta entonces con precisión en un conjunto de datos de imagen-texto. Esta construcción básica se puede aplicar con más sofisticación para mejorar el modelo. El codificador de imágenes se puede congelar para mejorar la estabilidad. ^[80] $E$ $f$ $y$ $f(E(y))$

Flamingo demostró la eficacia del método de tokenización, ajustando un par de modelos de lenguaje preentrenados y codificadores de imágenes para que tuvieran un mejor desempeño en la respuesta visual a preguntas que los modelos entrenados desde cero. ^{[81] El modelo} Google PaLM se ajustó para convertirlo en un modelo multimodal PaLM-E utilizando el método de tokenización y se aplicó al control robótico. ^{[82] Los modelos} LLaMA también se han convertido en multimodales utilizando el método de tokenización para permitir entradas de imágenes, ^[83] y entradas de video. ^[84]

GPT-4 puede utilizar tanto texto como imágenes como entradas ^[85] (aunque el componente de visión no se lanzó al público hasta GPT-4V ^[86] ); Gemini de Google DeepMind también es multimodal. ^[87] Mistral presentó su propio modelo multimodelo Pixtral 12B en septiembre de 2024. ^[88]

Propiedades

Leyes de escala

Los siguientes cuatro hiperparámetros caracterizan un LLM:

costo de la (pre)capacitación ( ), $C$
tamaño de la propia red neuronal artificial , como el número de parámetros (es decir, cantidad de neuronas en sus capas, cantidad de pesos entre ellas y sesgos), $N$
tamaño de su conjunto de datos de (pre)entrenamiento (es decir, número de tokens en el corpus ), $D$
rendimiento después del (pre)entrenamiento.

Están relacionadas por leyes estadísticas simples , llamadas "leyes de escala". Una ley de escala particular (" escalamiento de Chinchilla ") para LLM entrenado de forma autorregresiva para una época, con un programa de tasa de aprendizaje logarítmico , establece que: ^[89] donde las variables son ${\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$

$C$ es el costo de entrenamiento del modelo, en FLOPs .
$N$ es el número de parámetros en el modelo.
$D$ es el número de tokens en el conjunto de entrenamiento.
$L$ es la pérdida de verosimilitud negativa promedio por token ( nats /token), lograda por el LLM entrenado en el conjunto de datos de prueba.

y los hiperparámetros estadísticos son

$C_{0}=6$ , lo que significa que cuesta 6 FLOP por parámetro entrenar en un token. Tenga en cuenta que el costo de entrenamiento es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token. ^[54]
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Habilidades emergentes

El desempeño de modelos más grandes en diversas tareas, cuando se representa gráficamente en una escala logarítmica, parece una extrapolación lineal del desempeño logrado por modelos más pequeños. Sin embargo, esta linealidad puede verse acentuada por " rupturas " ^[90] en la ley de escala, donde la pendiente de la línea cambia abruptamente y donde los modelos más grandes adquieren "capacidades emergentes". ^[39]^[91] Surgen de la interacción compleja de los componentes del modelo y no están programados ni diseñados explícitamente. ^[92]

La más intrigante entre las habilidades emergentes es el aprendizaje en contexto a partir de demostraciones de ejemplo. ^[93] El aprendizaje en contexto está involucrado en tareas como:

aritmética informada, decodificación del Alfabeto Fonético Internacional , descifrar las letras de una palabra, desambiguar una palabra en contexto, ^[39]^[94]^[95] convertir palabras espaciales, direcciones cardinales (por ejemplo, responder "noreste" a [0, 0, 1; 0, 0, 0; 0, 0, 0]), términos de color representados en el texto. ^[96]
Incitación por cadena de pensamiento : los resultados del modelo se mejoran mediante la incitación por cadena de pensamiento solo cuando el tamaño del modelo supera los 62B. Los modelos más pequeños funcionan mejor cuando se les pide que respondan inmediatamente, sin cadena de pensamiento. ^[97]
identificar contenido ofensivo en párrafos de Hinglish (una combinación de hindi e inglés) y generar un equivalente en inglés similar de los proverbios kiswahili . ^[98]

Schaeffer et al. sostienen que las habilidades emergentes no se adquieren de manera impredecible, sino de manera predecible según una ley de escalamiento suave . Los autores consideraron un modelo estadístico de juguete de un LLM que resuelve preguntas de opción múltiple y demostraron que este modelo estadístico, modificado para tener en cuenta otros tipos de tareas, también se aplica a estas tareas. ^[99]

Sea el número de parámetros contados y el rendimiento del modelo. $x$ $y$

Cuando , entonces es una curva exponencial (antes de que llegue a la meseta en uno), que parece una emergencia. $y={\text{average }}\Pr({\text{correct token}})$ $(\log x,y)$
Cuando , entonces la gráfica es una línea recta (antes de que llegue a la meseta en cero), lo que no parece una emergencia. $y={\text{average }}\log(\Pr({\text{correct token}}))$ $(\log x,y)$
Cuando , entonces es una función escalonada, que parece una emergencia. $y={\text{average }}\Pr({\text{the most likely token is correct}})$ $(\log x,y)$

Interpretación

Los grandes modelos lingüísticos son en sí mismos " cajas negras " y no está claro cómo pueden realizar tareas lingüísticas. Existen varios métodos para comprender cómo funcionan los grandes modelos lingüísticos.

La interpretabilidad mecanicista tiene como objetivo aplicar ingeniería inversa a LLM mediante el descubrimiento de algoritmos simbólicos que se aproximan a la inferencia realizada por LLM. Un ejemplo es Othello-GPT, donde se entrena un pequeño Transformer para predecir movimientos legales de Othello . Se descubre que existe una representación lineal del tablero de Othello y que al modificar la representación se cambian los movimientos legales predichos de Othello de la manera correcta. ^[100]^[101] En otro ejemplo, se entrena un pequeño Transformer con programas Karel . De manera similar al ejemplo de Othello-GPT, existe una representación lineal de la semántica del programa Karel y al modificar la representación se cambia la salida de la manera correcta. El modelo también genera programas correctos que, en promedio, son más cortos que los del conjunto de entrenamiento. ^[102]

En otro ejemplo, los autores entrenaron pequeños transformadores en la suma aritmética modular . Los modelos resultantes fueron sometidos a ingeniería inversa y resultó que utilizaban la transformada de Fourier discreta . ^[103]

Comprensión e inteligencia

Los investigadores de PNL se mostraron divididos cuando se les preguntó, en una encuesta de 2022, si los LLM (sin afinar) "podrían (alguna vez) comprender el lenguaje natural en algún sentido no trivial". ^[104] Los defensores de la "comprensión LLM" creen que algunas habilidades LLM, como el razonamiento matemático, implican una capacidad para "comprender" ciertos conceptos. Un equipo de Microsoft argumentó en 2023 que GPT-4 "puede resolver tareas novedosas y difíciles que abarcan matemáticas, codificación, visión, medicina, derecho, psicología y más" y que GPT-4 "podría verse razonablemente como una versión temprana (aunque aún incompleta) de un sistema de inteligencia general artificial ": "¿Se puede decir razonablemente que un sistema que aprueba los exámenes para candidatos a ingeniería de software no es realmente inteligente?" ^[105]^[106] Algunos investigadores caracterizan a los LLM como "inteligencia alienígena". ^[107]^[108] Por ejemplo, el director ejecutivo de Conjecture, Connor Leahy, considera que los LLM no sintonizados son como " Shoggoths " alienígenas inescrutables, y cree que la sintonización RLHF crea una "fachada sonriente" que oculta el funcionamiento interno del LLM: "Si no lo presionas demasiado, la cara sonriente permanece. Pero luego le das un aviso [inesperado], y de repente ves este enorme submundo de locura, de procesos de pensamiento extraños y una comprensión claramente no humana". ^[109]^[110]

Por el contrario, algunos defensores de la escuela de que "los LLM carecen de comprensión" creen que los LLM existentes son "simplemente una remezcla y recombinación de la escritura existente", ^[108] un fenómeno conocido como loro estocástico , o señalan los déficits que los LLM existentes siguen teniendo en habilidades de predicción, habilidades de razonamiento, agencia y explicabilidad. ^[104] Por ejemplo, GPT-4 tiene déficits naturales en la planificación y en el aprendizaje en tiempo real. ^[106] Se ha observado que los LLM generativos afirman con confianza afirmaciones de hechos que no parecen estar justificadas por sus datos de entrenamiento , un fenómeno que se ha denominado " alucinación ". ^[111] Específicamente, las alucinaciones en el contexto de los LLM corresponden a la generación de texto o respuestas que parecen sintácticamente sólidas, fluidas y naturales, pero que son factualmente incorrectas, sin sentido o infieles a la entrada de la fuente proporcionada. ^[112] El neurocientífico Terrence Sejnowski ha argumentado que "las opiniones divergentes de los expertos sobre la inteligencia de los LLM sugieren que nuestras viejas ideas basadas en la inteligencia natural son inadecuadas". ^[104]

La cuestión de la demostración de inteligencia o comprensión por parte de los LLM tiene dos aspectos principales: el primero es cómo modelar el pensamiento y el lenguaje en un sistema informático, y el segundo es cómo permitir que el sistema informático genere un lenguaje similar al humano. ^[104] Estos aspectos del lenguaje como modelo de cognición se han desarrollado en el campo de la lingüística cognitiva . El lingüista estadounidense George Lakoff presentó la teoría neuronal del lenguaje (NTL) ^[113] como una base computacional para usar el lenguaje como modelo de tareas de aprendizaje y comprensión. El modelo NTL describe cómo las estructuras neuronales específicas del cerebro humano dan forma a la naturaleza del pensamiento y el lenguaje y, a su vez, cuáles son las propiedades computacionales de dichos sistemas neuronales que se pueden aplicar para modelar el pensamiento y el lenguaje en un sistema informático. Después de que se estableció un marco para modelar el lenguaje en un sistema informático, el enfoque cambió a establecer marcos para que los sistemas informáticos generen lenguaje con una gramática aceptable. En su libro de 2014 titulado El mito del lenguaje: por qué el lenguaje no es un instinto , el lingüista cognitivo y tecnólogo de comunicación digital británico Vyvyan Evans trazó el papel de la gramática probabilística libre de contexto (PCFG) para permitir que el PNL modele patrones cognitivos y genere un lenguaje similar al humano. ^[114]^[115]

Evaluación

Perplejidad

La medida más comúnmente utilizada del desempeño de un modelo de lenguaje es su perplejidad en un corpus de texto dado. La perplejidad es una medida de qué tan bien un modelo es capaz de predecir el contenido de un conjunto de datos; cuanto mayor sea la probabilidad que el modelo asigna al conjunto de datos, menor es la perplejidad. Matemáticamente, la perplejidad se define como el exponencial de la probabilidad logarítmica negativa promedio por token: aquí es el número de tokens en el corpus de texto, y el "contexto para token " depende del tipo específico de LLM utilizado. Si el LLM es autorregresivo, entonces "contexto para token " es el segmento de texto que aparece antes de token . Si el LLM está enmascarado, entonces "contexto para token " es el segmento de texto que rodea a token . $\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))$ $N$ $i$ $i$ $i$ $i$ $i$

Debido a que los modelos de lenguaje pueden sobreajustarse a sus datos de entrenamiento, los modelos suelen evaluarse por su perplejidad en un conjunto de prueba de datos no vistos. ^[46] Esto presenta desafíos particulares para la evaluación de modelos de lenguaje grandes. A medida que se entrenan en corpus de texto cada vez más grandes extraídos en gran parte de la web, se vuelve cada vez más probable que los datos de entrenamiento de los modelos incluyan inadvertidamente partes de cualquier conjunto de prueba dado. ^[2]

BPW, BPC y BPT

En la teoría de la información , el concepto de entropía está íntimamente ligado a la perplejidad, una relación establecida notablemente por Claude Shannon . ^[116] Esta relación se expresa matemáticamente como . ${\text{Entropy}}=\log _{2}({\text{Perplexity}})$

La entropía, en este contexto, se cuantifica comúnmente en términos de bits por palabra (BPW) o bits por carácter (BPC), lo que depende de si el modelo de lenguaje utiliza tokenización basada en palabras o en caracteres.

Cabe destacar que, en el caso de modelos de lenguaje más grandes que emplean predominantemente tokenización de subpalabras, los bits por token (BPT) parecen ser una medida aparentemente más apropiada. Sin embargo, debido a la variación en los métodos de tokenización entre diferentes modelos de lenguaje grandes (LLM), los bits por token no sirven como una métrica confiable para el análisis comparativo entre diversos modelos. Para convertir los bits por token en BPW, se puede multiplicar por la cantidad promedio de tokens por palabra.

En la evaluación y comparación de modelos de lenguaje, la entropía cruzada es generalmente la métrica preferida sobre la entropía. El principio subyacente es que un BPW más bajo es indicativo de una capacidad mejorada de compresión de un modelo. Esto, a su vez, refleja la competencia del modelo para hacer predicciones precisas.

Conjuntos de datos y puntos de referencia específicos de la tarea

También se ha desarrollado una gran cantidad de conjuntos de datos de prueba y puntos de referencia para evaluar las capacidades de los modelos de lenguaje en tareas posteriores más específicas. Las pruebas pueden diseñarse para evaluar una variedad de capacidades, incluidos los conocimientos generales, el razonamiento de sentido común y la resolución de problemas matemáticos.

Una amplia categoría de conjunto de datos de evaluación son los conjuntos de datos de respuesta a preguntas, que consisten en pares de preguntas y respuestas correctas, por ejemplo, ("¿Han ganado los San Jose Sharks la Copa Stanley?", "No"). ^[117] Una tarea de respuesta a preguntas se considera "libro abierto" si el mensaje del modelo incluye texto del que se puede derivar la respuesta esperada (por ejemplo, la pregunta anterior podría ir acompañada de algún texto que incluya la frase "Los Sharks han avanzado a la final de la Copa Stanley una vez, perdiendo ante los Pittsburgh Penguins en 2016" . ^[117] ). De lo contrario, la tarea se considera "libro cerrado", y el modelo debe aprovechar el conocimiento retenido durante el entrenamiento. ^[118] Algunos ejemplos de conjuntos de datos de respuesta a preguntas de uso común incluyen TruthfulQA, Web Questions, TriviaQA y SQuAD. ^[118]

Los conjuntos de datos de evaluación también pueden adoptar la forma de completar texto, haciendo que el modelo seleccione la palabra o frase más probable para completar una instrucción, por ejemplo: "Alice era amiga de Bob. Alice fue a visitar a su amiga, ____". ^[2]

También se han desarrollado algunos puntos de referencia compuestos que combinan una diversidad de diferentes conjuntos de datos y tareas de evaluación. Algunos ejemplos incluyen GLUE, SuperGLUE, MMLU , BIG-bench y HELM. ^[116]^[118] OpenAI ha publicado herramientas para ejecutar puntos de referencia compuestos, pero señaló que los resultados de la evaluación son sensibles al método de solicitud. ^[119]^[120] Algunos conjuntos de datos públicos contienen preguntas que están mal etiquetadas, son ambiguas, no tienen respuesta o son de baja calidad, que se pueden limpiar para brindar puntajes de referencia más confiables. ^[121]

Anteriormente, era habitual informar los resultados de una parte reservada de un conjunto de datos de evaluación después de realizar un ajuste fino supervisado en el resto. Ahora es más común evaluar un modelo entrenado previamente directamente a través de técnicas de indicaciones, aunque los investigadores varían en los detalles de cómo formulan las indicaciones para tareas particulares, en particular con respecto a cuántos ejemplos de tareas resueltas se adjuntan a la indicación (es decir, el valor de n en indicaciones de n -shot).

Evaluaciones construidas adversariamente

Debido al rápido ritmo de mejora de los modelos de lenguaje de gran tamaño, los puntos de referencia de evaluación han sufrido una vida útil corta, con modelos de última generación "saturando" rápidamente los puntos de referencia existentes, superando el rendimiento de los anotadores humanos, lo que lleva a esfuerzos para reemplazar o aumentar el punto de referencia con tareas más desafiantes. ^[122] Además, hay casos de "aprendizaje de atajos" en los que las IA a veces "hacen trampa" en las pruebas de opción múltiple al usar correlaciones estadísticas en la redacción superficial de las preguntas de la prueba para adivinar las respuestas correctas, sin comprender necesariamente la pregunta real que se está haciendo. ^[104]

Algunos conjuntos de datos se han construido de forma adversaria, centrándose en problemas particulares en los que los modelos de lenguaje existentes parecen tener un rendimiento inusualmente pobre en comparación con los humanos. Un ejemplo es el conjunto de datos TruthfulQA, un conjunto de datos de respuesta a preguntas que consta de 817 preguntas que los modelos de lenguaje son susceptibles de responder incorrectamente al imitar falsedades a las que fueron expuestos repetidamente durante el entrenamiento. Por ejemplo, un LLM puede responder "No" a la pregunta "¿Puedes enseñarle trucos nuevos a un perro viejo?" debido a su exposición al modismo inglés " you can't teach an old dog new tricks" , aunque esto no sea literalmente cierto. ^[123]

Otro ejemplo de un conjunto de datos de evaluación adversarial es Swag y su sucesor, HellaSwag, colecciones de problemas en los que se debe seleccionar una de varias opciones para completar un pasaje de texto. Las finalizaciones incorrectas se generaron mediante el muestreo de un modelo de lenguaje y el filtrado con un conjunto de clasificadores. Los problemas resultantes son triviales para los humanos, pero en el momento en que se crearon los conjuntos de datos, los modelos de lenguaje de última generación tenían poca precisión en ellos. Por ejemplo:

Vemos el cartel de un gimnasio. Luego vemos a un hombre hablando a la cámara y sentado y recostado sobre una pelota de ejercicios. El hombre...
a) demuestra cómo aumentar la eficiencia del trabajo de ejercicio corriendo hacia arriba y hacia abajo sobre pelotas.
b) mueve todos sus brazos y piernas y desarrolla una gran cantidad de músculos.
c) luego juega con la pelota y vemos una demostración gráfica y de cómo podar setos.
d) hace abdominales mientras está sobre la pelota y habla. ^[124]

BERT selecciona b) como la finalización más probable, aunque la respuesta correcta es d). ^[124]

Impacto más amplio

En 2023, Nature Biomedical Engineering escribió que "ya no es posible distinguir con precisión" el texto escrito por humanos del texto creado por grandes modelos de lenguaje, y que "es casi seguro que los grandes modelos de lenguaje de propósito general proliferarán rápidamente... Es una apuesta bastante segura que cambiarán muchas industrias con el tiempo". ^[125] Goldman Sachs sugirió en 2023 que la IA del lenguaje generativo podría aumentar el PIB mundial en un 7% en los próximos diez años y podría exponer a la automatización 300 millones de puestos de trabajo a nivel mundial. ^[126]^[127]

Memorización y derechos de autor

La memorización es un comportamiento emergente en los LLM en los que, ocasionalmente, se extraen largas cadenas de texto textualmente a partir de los datos de entrenamiento, al contrario del comportamiento típico de las redes neuronales artificiales tradicionales. Las evaluaciones de la salida controlada de LLM miden la cantidad memorizada a partir de los datos de entrenamiento (centradas en los modelos de la serie GPT-2) como, por ejemplo, más del 1 % para los duplicados exactos ^[128] o hasta aproximadamente el 7 % ^{[129] .}

Seguridad

Algunos comentaristas expresaron su preocupación por la creación accidental o deliberada de información errónea u otras formas de uso indebido. ^[130] Por ejemplo, la disponibilidad de grandes modelos de lenguaje podría reducir el nivel de habilidad requerido para cometer bioterrorismo; el investigador de bioseguridad Kevin Esvelt ha sugerido que los creadores de LLM deberían excluir de sus datos de capacitación los artículos sobre la creación o mejora de patógenos. ^[131]

Un estudio realizado por investigadores de Google y varias universidades, entre ellas la Universidad de Cornell y la Universidad de California en Berkeley , demostró que existen riesgos potenciales de seguridad en modelos de lenguaje como ChatGPT . En su estudio, examinaron y confirmaron la posibilidad de que los interrogadores pudieran obtener, de ChatGPT, los datos de entrenamiento que utilizó el modelo de IA. Por ejemplo, al pedirle a ChatGPT 3.5 turbo que repita la palabra "poema" para siempre, el modelo de IA dirá "poema" cientos de veces y luego divergirá, desviándose del estilo de diálogo estándar y escupiendo frases sin sentido, escupiendo así los datos de entrenamiento tal como están. Los investigadores han visto más de 10.000 ejemplos del modelo de IA exponiendo sus datos de entrenamiento en un método similar. Los investigadores dijeron que era difícil saber si el modelo de IA era realmente seguro o no. ^[132]

La posible presencia de "agentes durmientes" dentro de los modelos LLM es otro problema de seguridad emergente. Se trata de funcionalidades ocultas integradas en el modelo que permanecen latentes hasta que se activan por un evento o condición específicos. Al activarse, el LLM se desvía de su comportamiento esperado y realiza acciones inseguras. ^[133]

Las aplicaciones de modelos de lenguaje extensos (LLM) accesibles al público, como ChatGPT o Claude, suelen incorporar medidas de seguridad diseñadas para filtrar contenido dañino. Sin embargo, implementar estos controles de manera efectiva ha demostrado ser un desafío. Por ejemplo, la investigación de Kang et al. ^[134] demostró un método para eludir los sistemas de seguridad de LLM. De manera similar, Wang ^[135] ilustró cómo un posible delincuente podría eludir los controles de seguridad de ChatGPT 4o para obtener información sobre el establecimiento de una operación de tráfico de drogas.

Sesgo algorítmico

Si bien los modelos de lenguaje de programación han demostrado capacidades notables para generar textos similares a los humanos, son susceptibles de heredar y amplificar los sesgos presentes en sus datos de entrenamiento. Esto puede manifestarse en representaciones sesgadas o en un tratamiento injusto de diferentes grupos demográficos, como los basados en la raza, el género, el idioma y los grupos culturales. ^[136] Dado que los datos en inglés están sobrerrepresentados en los datos de entrenamiento de los modelos de lenguaje actuales, esto también puede restar importancia a las opiniones en otros idiomas. ^[137]

Estereotipos

Los modelos de IA pueden reforzar una amplia gama de estereotipos, incluidos los basados en el género, la etnia, la edad, la nacionalidad, la religión o la ocupación. Esto puede dar lugar a resultados que generalizan o caricaturizan injustamente a grupos de personas, a veces de forma dañina o despectiva. ^[138]

En particular, el sesgo de género se refiere a la tendencia de estos modelos a producir resultados que están injustamente prejuiciosos hacia un género en lugar de otro. Este sesgo surge típicamente de los datos con los que se entrenan estos modelos. Los modelos de lenguaje grandes a menudo asignan roles y características basados en normas de género tradicionales. ^[136] Por ejemplo, podría asociar a enfermeras o secretarias predominantemente con mujeres e ingenieros o directores ejecutivos con hombres. ^[139]

Sesgo político

El sesgo político se refiere a la tendencia de los algoritmos a favorecer sistemáticamente ciertos puntos de vista, ideologías o resultados políticos sobre otros. Los modelos lingüísticos también pueden presentar sesgos políticos. Dado que los datos de entrenamiento incluyen una amplia gama de opiniones y coberturas políticas, los modelos pueden generar respuestas que se inclinen hacia ideologías o puntos de vista políticos particulares, dependiendo de la prevalencia de esos puntos de vista en los datos. ^[140]

Lista

Para la columna de costo de entrenamiento, 1 petaFLOP-día = 1 petaFLOP/s × 1 día = 8,64E19 FLOP. Además, solo se escribe el costo del modelo más grande.

Véase también

Modelos de fundación

Notas

^ Esta es la fecha en que se publicó por primera vez la documentación que describe la arquitectura del modelo.
^ En muchos casos, los investigadores publican o informan sobre varias versiones de un modelo que tienen distintos tamaños. En estos casos, aquí se indica el tamaño del modelo más grande.
^ Esta es la licencia de los pesos del modelo entrenado previamente. En casi todos los casos, el código de entrenamiento en sí es de código abierto o se puede replicar fácilmente.
^ Los modelos más pequeños, incluido el 66B, están disponibles públicamente, mientras que el modelo 175B está disponible a pedido.
^ El esquema de licencia y distribución de Facebook restringió el acceso a investigadores aprobados, pero los pesos del modelo se filtraron y se hicieron ampliamente disponibles.
^ Como se indica en el informe técnico: "Teniendo en cuenta tanto el panorama competitivo como las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, el cómputo de entrenamiento, la construcción del conjunto de datos y el método de entrenamiento..." ^[193]

Referencias

^ "Mejores modelos de lenguaje y sus implicaciones". OpenAI . 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020 . Consultado el 25 de agosto de 2019 .
^ abc Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (diciembre de 2020). Lin, H. (eds.). "Los modelos de lenguaje son aprendices de pocas oportunidades" (PDF) . Avances en sistemas de procesamiento de información neuronal . 33. Curran Associates, Inc.: 1877–1901. Archivado (PDF) desde el original el 17 de noviembre de 2023. Consultado el 14 de marzo de 2023 .
^ Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (26 de mayo de 2024). NeOn-GPT: una gran cadena de procesos basada en modelos de lenguaje para el aprendizaje de ontologías (PDF) . Conferencia sobre Web Semántica Extendida 2024. Hersonissos, Grecia.
^ ab Manning, Christopher D. (2022). "Comprensión y razonamiento del lenguaje humano". Daedalus . 151 (2): 127–138. doi : 10.1162/daed_a_01905 . S2CID 248377870. Archivado desde el original el 17 de noviembre de 2023 . Consultado el 9 de marzo de 2023 .
^ Goodman, Joshua (2001-08-09), A Bit of Progress in Language Modeling, arXiv:cs/0108005, Bibcode:2001cs........8005G
^ Kilgarriff, Adam; Grefenstette, Gregory (September 2003). "Introduction to the Special Issue on the Web as Corpus". Computational Linguistics. 29 (3): 333–347. doi:10.1162/089120103322711569. ISSN 0891-2017.
^ Banko, Michele; Brill, Eric (2001). "Scaling to very very large corpora for natural language disambiguation". Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01. Morristown, NJ, USA: Association for Computational Linguistics: 26–33. doi:10.3115/1073012.1073017.
^ Resnik, Philip; Smith, Noah A. (September 2003). "The Web as a Parallel Corpus". Computational Linguistics. 29 (3): 349–380. doi:10.1162/089120103322711578. ISSN 0891-2017. Archived from the original on 2024-06-07. Retrieved 2024-06-07.
^ Halevy, Alon; Norvig, Peter; Pereira, Fernando (March 2009). "The Unreasonable Effectiveness of Data". IEEE Intelligent Systems. 24 (2): 8–12. doi:10.1109/MIS.2009.36. ISSN 1541-1672.
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. 30. Curran Associates, Inc. Archived (PDF) from the original on 2024-02-21. Retrieved 2024-01-21.
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. S2CID 211532403. Archived from the original on 2022-04-03. Retrieved 2024-01-21.
^ Hern, Alex (14 February 2019). "New AI fake text generator may be too dangerous to release, say creators". The Guardian. Archived from the original on 14 February 2019. Retrieved 20 January 2024.
^ "ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months". Euronews. November 30, 2023. Archived from the original on January 14, 2024. Retrieved January 20, 2024.
^ Heaven, Will (March 14, 2023). "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why". MIT Technology Review. Archived from the original on March 17, 2023. Retrieved January 20, 2024.
^ "Parameters in notable artificial intelligence systems". ourworldindata.org. November 30, 2023. Retrieved January 20, 2024.
^ "LMSYS Chatbot Arena Leaderboard". huggingface.co. Archived from the original on June 10, 2024. Retrieved June 12, 2024.
^ Peng, Bo; et al. (2023). "RWKV: Reinventing RNNS for the Transformer Era". arXiv:2305.13048 [cs.CL].
^ Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog. Archived from the original on 2023-11-17. Retrieved 2023-07-25.
^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
^ Kaushal, Ayush; Mahowald, Kyle (2022-06-06), What do tokens know about their characters and how do they know it?, arXiv:2206.02608, retrieved 2024-09-08
^ Yennie Jun (2023-05-03). "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. Archived from the original on 2023-08-17. Retrieved 2023-08-17. In other words, to express the same sentiment, some languages require up to 10 times more tokens.
^ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel (June 23, 2023). "Language Model Tokenizers Introduce Unfairness Between Languages". NeurIPS. arXiv:2305.15425. Archived from the original on December 15, 2023. Retrieved September 16, 2023 – via openreview.net.
^ "OpenAI API". platform.openai.com. Archived from the original on April 23, 2023. Retrieved 2023-04-30.
^ a b Paaß, Gerhard; Giesselbach, Sven (2022). "Pre-trained Language Models". Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. pp. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN 9783031231902. Archived from the original on 3 August 2023. Retrieved 3 August 2023.
^ Petrov, Aleksandar; Emanuele La Malfa; Torr, Philip H. S.; Bibi, Adel (2023). "Language Model Tokenizers Introduce Unfairness Between Languages". arXiv:2305.15425 [cs.CL].
^ Lundberg, Scott (2023-12-12). "The Art of Prompt Design: Prompt Boundaries and Token Healing". Medium. Retrieved 2024-08-05.
^ Dodge, Jesse; Sap, Maarten; Marasović, Ana; Agnew, William; Ilharco, Gabriel; Groeneveld, Dirk; Mitchell, Margaret; Gardner, Matt (2021). "Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus". arXiv:2104.08758 [cs.CL].
^ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas (May 2022). "Deduplicating Training Data Makes Language Models Better" (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 1: Long Papers: 8424–8445. doi:10.18653/v1/2022.acl-long.577.
^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (2023-09-11), Textbooks Are All You Need II: phi-1.5 technical report, arXiv:2309.05463
^ Lin, Zhenghao; Gou, Zhibin; Gong, Yeyun; Liu, Xiao; Shen, Yelong; Xu, Ruochen; Lin, Chen; Yang, Yujiu; Jiao, Jian (2024-04-11). "Rho-1: Not All Tokens Are What You Need". arXiv:2404.07965 [cs.CL].
^ Brown, Tom B.; et al. (2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
^ Abdin, Marah; Jacobs, Sam Ade; Awan, Ammar Ahmad; Aneja, Jyoti; Awadallah, Ahmed; Awadalla, Hany; Bach, Nguyen; Bahree, Amit; Bakhtiari, Arash (2024-04-23). "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone". arXiv:2404.14219 [cs.CL].
^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
^ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noah A.; Khashabi, Daniel; Hajishirzi, Hannaneh (2022). "Self-Instruct: Aligning Language Model with Self Generated Instructions". arXiv:2212.10560 [cs.CL].
^ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff (2017-01-01). "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538 [cs.LG].
^ Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng (2021-01-12). "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668 [cs.CL].
^ a b c d Dai, Andrew M; Du, Nan (December 9, 2021). "More Efficient In-Context Learning with GLaM". ai.googleblog.com. Archived from the original on 2023-03-12. Retrieved 2023-03-09.
^ a b c Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (31 August 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. ISSN 2835-8856. Archived from the original on 22 March 2023. Retrieved 19 March 2023.
^ Allamar, Jay. "Illustrated transformer". Archived from the original on 2023-07-25. Retrieved 2023-07-29.
^ Allamar, Jay. "The Illustrated GPT-2 (Visualizing Transformer Language Models)". Retrieved 2023-08-01.
^ "Our next-generation model: Gemini 1.5". Google. 15 February 2024. Archived from the original on 18 February 2024. Retrieved 18 February 2024.
^ "Long context prompting for Claude 2.1". December 6, 2023. Archived from the original on August 27, 2024. Retrieved January 20, 2024.
^ "Rate limits". openai.com. Archived from the original on February 2, 2024. Retrieved January 20, 2024.
^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 February 2020). "A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP". Proceedings of the Australasian Computer Science Week Multiconference. pp. 1–4. arXiv:2104.10810. doi:10.1145/3373017.3373028. ISBN 9781450376976. S2CID 211040895.
^ a b c Jurafsky, Dan; Martin, James H. (7 January 2023). Speech and Language Processing (PDF) (3rd edition draft ed.). Archived (PDF) from the original on 23 March 2023. Retrieved 24 May 2022.
^ "From bare metal to a 70B model: infrastructure set-up and scripts". imbue.com. Archived from the original on 2024-07-26. Retrieved 2024-07-24.
^ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq". GitHub. Archived from the original on 2024-01-24. Retrieved 2024-07-24.
^ Albrecht, Josh (2024-07-23). "State of the Art: Training >70B LLMs on 10,000 H100 clusters". www.latent.space. Retrieved 2024-07-24.
^ a b Wiggers, Kyle (28 April 2022). "The emerging types of language models and why they matter". TechCrunch. Archived from the original on 16 March 2023. Retrieved 9 March 2023.
^ Sharir, Or; Peleg, Barak; Shoham, Yoav (2020). "The Cost of Training NLP Models: A Concise Overview". arXiv:2004.08900 [cs.CL].
^ Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (April 2023). "Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling". arXiv:2304.01373 [cs.CL].
^ Maslej, Nestor; Fattorini, Loredana; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Ngo, Helen; Niebles, Juan Carlos (2023-10-05), Artificial Intelligence Index Report 2023, arXiv:2310.03715
^ a b Section 2.1 and Table 1,Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Scaling Laws for Neural Language Models". arXiv:2001.08361 [cs.LG].
^ Gao, Luyu; Madaan, Aman; Zhou, Shuyan; Alon, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (2022-11-01). "PAL: Program-aided Language Models". arXiv:2211.10435 [cs.CL].
^ "PAL: Program-aided Language Models". reasonwithpal.com. Archived from the original on 2023-06-12. Retrieved 2023-06-12.
^ Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (2023-03-01). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL].
^ Liang, Yaobo; Wu, Chenfei; Song, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (2023-03-01). "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". arXiv:2303.16434 [cs.AI].
^ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (2023-05-01). "Gorilla: Large Language Model Connected with Massive APIs". arXiv:2305.15334 [cs.CL].
^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. 33. Curran Associates, Inc.: 9459–9474. arXiv:2005.11401. Archived from the original on 2023-06-12. Retrieved 2023-06-12.
^ Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (2022-06-28). "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents". Proceedings of the 39th International Conference on Machine Learning. PMLR: 9118–9147. arXiv:2201.07207.
^ Yao, Shunyu; Zhao, Jeffrey; Yu, Dian; Du, Nan; Shafran, Izhak; Narasimhan, Karthik; Cao, Yuan (2022-10-01). "ReAct: Synergizing Reasoning and Acting in Language Models". arXiv:2210.03629 [cs.CL].
^ Wu, Yue; Prabhumoye, Shrimai; Min, So Yeon (24 May 2023). "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning". arXiv:2305.15486 [cs.AI].
^ Wang, Zihao; Cai, Shaofei; Liu, Anji; Ma, Xiaojian; Liang, Yitao (2023-02-03). "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents". arXiv:2302.01560 [cs.AI].
^ Shinn, Noah; Cassano, Federico; Labash, Beck; Gopinath, Ashwin; Narasimhan, Karthik; Yao, Shunyu (2023-03-01). "Reflexion: Language Agents with Verbal Reinforcement Learning". arXiv:2303.11366 [cs.AI].
^ Hao, Shibo; Gu, Yi; Ma, Haodi; Jiahua Hong, Joshua; Wang, Zhen; Zhe Wang, Daisy; Hu, Zhiting (2023-05-01). "Reasoning with Language Model is Planning with World Model". arXiv:2305.14992 [cs.CL].
^ Zhang, Jenny; Lehman, Joel; Stanley, Kenneth; Clune, Jeff (2 June 2023). "OMNI: Open-endedness via Models of human Notions of Interestingness". arXiv:2306.01711 [cs.AI].
^ a b "Voyager | An Open-Ended Embodied Agent with Large Language Models". voyager.minedojo.org. Archived from the original on 2023-06-08. Retrieved 2023-06-09.
^ Park, Joon Sung; O'Brien, Joseph C.; Cai, Carrie J.; Ringel Morris, Meredith; Liang, Percy; Bernstein, Michael S. (2023-04-01). "Generative Agents: Interactive Simulacra of Human Behavior". arXiv:2304.03442 [cs.HC].
^ Mann, Tobias. "How to run an LLM locally on your PC in less than 10 minutes". www.theregister.com. Retrieved 2024-05-17.
^ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (2020-11-21). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197–7206. Archived from the original on 2023-06-14. Retrieved 2023-06-14.
^ Polino, Antonio; Pascanu, Razvan; Alistarh, Dan (2018-02-01). "Model compression via distillation and quantization". arXiv:1802.05668 [cs.NE].
^ Frantar, Elias; Ashkboos, Saleh; Hoefler, Torsten; Alistarh, Dan (2022-10-01). "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers". arXiv:2210.17323 [cs.LG].
^ Dettmers, Tim; Svirschevski, Ruslan; Egiazarian, Vage; Kuznedelev, Denis; Frantar, Elias; Ashkboos, Saleh; Borzunov, Alexander; Hoefler, Torsten; Alistarh, Dan (2023-06-01). "SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression". arXiv:2306.03078 [cs.CL].
^ Grootendorst, Maarten. "A Visual Guide to Quantization". newsletter.maartengrootendorst.com. Archived from the original on 31 Jul 2024. Retrieved 2024-07-31.
^ Dettmers, Tim; Pagnoni, Artidoro; Holtzman, Ari; Zettlemoyer, Luke (2023-05-01). "QLoRA: Efficient Finetuning of Quantized LLMs". arXiv:2305.14314 [cs.LG].
^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (2014-06-18). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning. PMLR: 595–603. Archived from the original on 2023-07-02. Retrieved 2023-07-02.
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. 25. Curran Associates, Inc. Archived from the original on 2023-07-02. Retrieved 2023-07-02.
^ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433. Archived from the original on 2023-07-02. Retrieved 2023-07-02.
^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven (2023-01-01). "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". arXiv:2301.12597 [cs.CV].
^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems. 35: 23716–23736. arXiv:2204.14198. Archived from the original on 2023-07-02. Retrieved 2023-07-02.
^ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Tompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (2023-03-01). "PaLM-E: An Embodied Multimodal Language Model". arXiv:2303.03378 [cs.LG].
^ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (2023-04-01). "Visual Instruction Tuning". arXiv:2304.08485 [cs.CV].
^ Zhang, Hang; Li, Xin; Bing, Lidong (2023-06-01). "Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding". arXiv:2306.02858 [cs.CL].
^ OpenAI (2023-03-27). "GPT-4 Technical Report". arXiv:2303.08774 [cs.CL].
^ OpenAI (September 25, 2023). "GPT-4V(ision) System Card" (PDF).
^ Pichai, Sundar (10 May 2023), Google Keynote (Google I/O '23), timestamp 15:31, retrieved 2023-07-02
^ Wiggers, Kyle (11 September 2024). "Mistral releases Pixtral 12B, its first multimodal model". TechCrunch. Retrieved 14 September 2024.
^ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (2022-03-29). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL].
^ a b Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Broken Neural Scaling Laws". arXiv:2210.14891 [cs.LG].
^ "137 emergent abilities of large language models". Jason Wei. Retrieved 2023-06-24.
^ Bowman, Samuel R. (2023). "Eight Things to Know about Large Language Models". arXiv:2304.00612 [cs.CL].
^ Hahn, Michael; Goyal, Navin (2023-03-14). "A Theory of Emergent In-Context Learning as Implicit Structure Induction". arXiv:2303.07971 [cs.LG].
^ Pilehvar, Mohammad Taher; Camacho-Collados, Jose (June 2019). "Proceedings of the 2019 Conference of the North". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 1267–1273. doi:10.18653/v1/N19-1128. S2CID 102353817. Archived from the original on 2023-06-27. Retrieved 2023-06-27.
^ "WiC: The Word-in-Context Dataset". pilehvar.github.io. Archived from the original on 2023-06-27. Retrieved 2023-06-27.
^ Patel, Roma; Pavlick, Ellie (2021-10-06). "Mapping Language Models to Grounded Conceptual Spaces". ICLR. Archived from the original on 2023-06-24. Retrieved 2023-06-27.
^ A Closer Look at Large Language Models Emergent Abilities Archived 2023-06-24 at the Wayback Machine (Yao Fu, Nov 20, 2022)
^ Ornes, Stephen (March 16, 2023). "The Unpredictable Abilities Emerging From Large AI Models". Quanta Magazine. Archived from the original on March 16, 2023. Retrieved March 16, 2023.
^ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (2023-04-01). "Are Emergent Abilities of Large Language Models a Mirage?". arXiv:2304.15004 [cs.AI].
^ Li, Kenneth; Hopkins, Aspen K.; Bau, David; Viégas, Fernanda; Pfister, Hanspeter; Wattenberg, Martin (2022-10-01). "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task". arXiv:2210.13382 [cs.LG].
^ "Large Language Model: world models or surface statistics?". The Gradient. 2023-01-21. Retrieved 2023-06-12.
^ Jin, Charles; Rinard, Martin (2023-05-01). "Evidence of Meaning in Language Models Trained on Programs". arXiv:2305.11169 [cs.LG].
^ Nanda, Neel; Chan, Lawrence; Lieberum, Tom; Smith, Jess; Steinhardt, Jacob (2023-01-01). "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217 [cs.LG].
^ a b c d e Mitchell, Melanie; Krakauer, David C. (28 March 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882.
^ Metz, Cade (16 May 2023). "Microsoft Says New A.I. Shows Signs of Human Reasoning". The New York Times.
^ a b Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arXiv:2303.12712 [cs.CL].
^ "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist". ZDNET. 2023. Archived from the original on 12 June 2023. Retrieved 12 June 2023.
^ a b Newport, Cal (13 April 2023). "What Kind of Mind Does ChatGPT Have?". The New Yorker. Archived from the original on 12 June 2023. Retrieved 12 June 2023.
^ Roose, Kevin (30 May 2023). "Why an Octopus-like Creature Has Come to Symbolize the State of A.I." The New York Times. Archived from the original on 30 May 2023. Retrieved 12 June 2023.
^ "The A to Z of Artificial Intelligence". Time Magazine. 13 April 2023. Archived from the original on 16 June 2023. Retrieved 12 June 2023.
^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (November 2022). "Survey of Hallucination in Natural Language Generation" (pdf). ACM Computing Surveys. 55 (12). Association for Computing Machinery: 1–38. arXiv:2202.03629. doi:10.1145/3571730. S2CID 246652372. Archived from the original on 26 March 2023. Retrieved 15 January 2023.
^ Varshney, Neeraj; Yao, Wenlin; Zhang, Hongming; Chen, Jianshu; Yu, Dong (2023). "A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation". arXiv:2307.03987 [cs.CL].
^ Lakoff, George (1999). Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books. pp. 569–583. ISBN 978-0-465-05674-3.
^ Evans, Vyvyan. (2014). The Language Myth. Cambridge University Press. ISBN 978-1-107-04396-1.
^ Friston, Karl J. (2022). Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press. ISBN 978-0-262-36997-8.
^ a b Huyen, Chip (October 18, 2019). "Evaluation Metrics for Language Modeling". The Gradient. Retrieved January 14, 2024.
^ a b Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (2019). "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions". arXiv:1905.10044 [cs.CL].
^ a b c Wayne Xin Zhao; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen; Zhang, Junjie; Dong, Zican; Du, Yifan; Yang, Chen; Chen, Yushuo; Chen, Zhipeng; Jiang, Jinhao; Ren, Ruiyang; Li, Yifan; Tang, Xinyu; Liu, Zikang; Liu, Peiyu; Nie, Jian-Yun; Wen, Ji-Rong (2023). "A Survey of Large Language Models". arXiv:2303.18223 [cs.CL].
^ openai/simple-evals, OpenAI, 2024-05-28, retrieved 2024-05-28
^ openai/evals, OpenAI, 2024-05-28, archived from the original on 2024-05-08, retrieved 2024-05-28
^ "Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model". imbue.com. Archived from the original on 2024-07-26. Retrieved 2024-07-24.
^ Srivastava, Aarohi; et al. (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models". arXiv:2206.04615 [cs.CL].
^ Lin, Stephanie; Hilton, Jacob; Evans, Owain (2021). "TruthfulQA: Measuring How Models Mimic Human Falsehoods". arXiv:2109.07958 [cs.CL].
^ a b Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?". arXiv:1905.07830 [cs.CL].
^ "Prepare for truly useful large language models". Nature Biomedical Engineering. 7 (2): 85–86. 7 March 2023. doi:10.1038/s41551-023-01012-6. PMID 36882584. S2CID 257403466.
^ "Your job is (probably) safe from artificial intelligence". The Economist. 7 May 2023. Archived from the original on 17 June 2023. Retrieved 18 June 2023.
^ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs. Archived from the original on 18 June 2023. Retrieved 18 June 2023.
^ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13 June 2023). "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (PDF). Proceedings of the ACM on Management of Data. 1 (2): 1–18. doi:10.1145/3589324. S2CID 259213212. Archived (PDF) from the original on 2024-08-27. Retrieved 2024-01-20. Citing Lee et al 2022.
^ Peng, Wang & Deng 2023, p. 8.
^ Alba, Davey (1 May 2023). "AI chatbots have been used to create dozens of news content farms". The Japan Times. Retrieved 18 June 2023.
^ "Could chatbots help devise the next pandemic virus?". Science. 14 June 2023. doi:10.1126/science.adj2463. Archived from the original on 18 June 2023. Retrieved 18 June 2023.
^ Stephen Council (1 Dec 2023). "How Googlers cracked an SF rival's tech model with a single word". SFGATE. Archived from the original on 16 December 2023.
^ Hubinger, Evan (10 January 2024). "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training". arXiv:2401.05566 [cs.CR].
^ Kang, Daniel (2023). "Exploiting programmatic behavior of LLMs: Dual-use through standard security attacks". arXiv:2302.05733 [cs.CR].
^ Wang, Yongge (20 June 2024). "Encryption Based Covert Channel for Large Language Models" (PDF). IACR ePrint 2024/586. Archived (PDF) from the original on 24 June 2024. Retrieved 24 June 2024.
^ a b Stokel-Walker, Chris (November 22, 2023). "ChatGPT Replicates Gender Bias in Recommendation Letters". Scientific American. Archived from the original on 2023-12-29. Retrieved 2023-12-29.
^ Luo, Queenie; Puett, Michael J.; Smith, Michael D. (2023-03-28). "A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube". arXiv:2303.16281v2 [cs.CY].
^ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (2023-05-29), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models, arXiv:2305.18189
^ Kotek, Hadas; Dockum, Rikker; Sun, David (2023-11-05). "Gender bias and stereotypes in Large Language Models". Proceedings of the ACM Collective Intelligence Conference. CI '23. New York, NY, USA: Association for Computing Machinery. pp. 12–24. doi:10.1145/3582269.3615599. ISBN 979-8-4007-0113-9.
^ Heikkilä, Melissa (August 7, 2023). "AI language models are rife with different political biases". MIT Technology Review. Retrieved 2023-12-29.
^ "Improving language understanding with unsupervised learning". openai.com. June 11, 2018. Archived from the original on 2023-03-18. Retrieved 2023-03-18.
^ "finetune-transformer-lm". GitHub. Archived from the original on 19 May 2023. Retrieved 2 January 2024.
^ a b Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
^ Prickett, Nicole Hemsoth (2021-08-24). "Cerebras Shifts Architecture To Meet Massive AI/ML Models". The Next Platform. Archived from the original on 2023-06-20. Retrieved 2023-06-20.
^ "BERT". March 13, 2023. Archived from the original on January 13, 2021. Retrieved March 13, 2023 – via GitHub.
^ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). "Bidirectional Language Models Are Also Few-shot Learners". arXiv:2209.14500 [cs.LG].
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
^ a b Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". Journal of Machine Learning Research. 21 (140): 1–67. arXiv:1910.10683. ISSN 1533-7928.
^ google-research/text-to-text-transfer-transformer, Google Research, 2024-04-02, archived from the original on 2024-03-29, retrieved 2024-04-04
^ "Imagen: Text-to-Image Diffusion Models". imagen.research.google. Archived from the original on 2024-03-27. Retrieved 2024-04-04.
^ "Pretrained models — transformers 2.0.0 documentation". huggingface.co. Archived from the original on 2024-08-05. Retrieved 2024-08-05.
^ "xlnet". GitHub. Archived from the original on 2 January 2024. Retrieved 2 January 2024.
^ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 January 2020). "XLNet: Generalized Autoregressive Pretraining for Language Understanding". arXiv:1906.08237 [cs.CL].
^ "GPT-2: 1.5B Release". OpenAI. 2019-11-05. Archived from the original on 2019-11-14. Retrieved 2019-11-14.
^ "Better language models and their implications". openai.com. Archived from the original on 2023-03-16. Retrieved 2023-03-13.
^ a b "OpenAI's GPT-3 Language Model: A Technical Overview". lambdalabs.com. 3 June 2020. Archived from the original on 27 March 2023. Retrieved 13 March 2023.
^ a b "openai-community/gpt2-xl · Hugging Face". huggingface.co. Archived from the original on 2024-07-24. Retrieved 2024-07-24.
^ "gpt-2". GitHub. Archived from the original on 11 March 2023. Retrieved 13 March 2023.
^ Table D.1 in Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165v4 [cs.CL].
^ "ChatGPT: Optimizing Language Models for Dialogue". OpenAI. 2022-11-30. Archived from the original on 2022-11-30. Retrieved 2023-01-13.
^ "GPT Neo". March 15, 2023. Archived from the original on March 12, 2023. Retrieved March 12, 2023 – via GitHub.
^ a b c Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL].
^ a b Iyer, Abhishek (15 May 2021). "GPT-3's free alternative GPT-Neo is something to be excited about". VentureBeat. Archived from the original on 9 March 2023. Retrieved 13 March 2023.
^ "GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront". www.forefront.ai. Archived from the original on 2023-03-09. Retrieved 2023-02-28.
^ a b c d Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; Hestness, Joel (2023-04-01). "Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster". arXiv:2304.03208 [cs.LG].
^ Alvi, Ali; Kharya, Paresh (11 October 2021). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model". Microsoft Research. Archived from the original on 13 March 2023. Retrieved 13 March 2023.
^ a b Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (2022-02-04). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model". arXiv:2201.11990 [cs.CL].
^ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; Zhao, Yanbin; Pang, Chao; Liu, Jiaxiang; Chen, Xuyi; Lu, Yuxiang; Liu, Weixin; Wang, Xi; Bai, Yangfan; Chen, Qiuliang; Zhao, Li; Li, Shiyong; Sun, Peng; Yu, Dianhai; Ma, Yanjun; Tian, Hao; Wu, Hua; Wu, Tian; Zeng, Wei; Li, Ge; Gao, Wen; Wang, Haifeng (December 23, 2021). "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation". arXiv:2112.12731 [cs.CL].
^ "Product". Anthropic. Archived from the original on 16 March 2023. Retrieved 14 March 2023.
^ a b Askell, Amanda; Bai, Yuntao; Chen, Anna; et al. (9 December 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL].
^ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; et al. (15 December 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL].
^ "Language modelling at scale: Gopher, ethical considerations, and retrieval". www.deepmind.com. 8 December 2021. Archived from the original on 20 March 2023. Retrieved 20 March 2023.
^ a b c Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; et al. (29 March 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL].
^ a b c d Table 20 and page 66 of PaLM: Scaling Language Modeling with Pathways Archived 2023-06-10 at the Wayback Machine
^ a b Cheng, Heng-Tze; Thoppilan, Romal (January 21, 2022). "LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything". ai.googleblog.com. Archived from the original on 2022-03-25. Retrieved 2023-03-09.
^ Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Baker, Leslie; Du, Yu; Li, YaGuang; Lee, Hongrae; Zheng, Huaixiu Steven; Ghafouri, Amin; Menegali, Marcelo (2022-01-01). "LaMDA: Language Models for Dialog Applications". arXiv:2201.08239 [cs.CL].
^ Black, Sidney; Biderman, Stella; Hallahan, Eric; et al. (2022-05-01). GPT-NeoX-20B: An Open-Source Autoregressive Language Model. Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. Vol. Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. pp. 95–136. Archived from the original on 2022-12-10. Retrieved 2022-12-19.
^ a b c Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent (12 April 2022). "An empirical analysis of compute-optimal large language model training". Deepmind Blog. Archived from the original on 13 April 2022. Retrieved 9 March 2023.
^ Narang, Sharan; Chowdhery, Aakanksha (April 4, 2022). "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com. Archived from the original on 2022-04-04. Retrieved 2023-03-09.
^ Susan Zhang; Mona Diab; Luke Zettlemoyer. "Democratizing access to large-scale language models with OPT-175B". ai.facebook.com. Archived from the original on 2023-03-12. Retrieved 2023-03-12.
^ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 June 2022). "OPT: Open Pre-trained Transformer Language Models". arXiv:2205.01068 [cs.CL].
^ a b Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022-06-22), YaLM 100B, archived from the original on 2023-06-16, retrieved 2023-03-18
^ a b Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (30 June 2022). "Solving Quantitative Reasoning Problems with Language Models". arXiv:2206.14858 [cs.CL].
^ "Minerva: Solving Quantitative Reasoning Problems with Language Models". ai.googleblog.com. 30 June 2022. Retrieved 20 March 2023.
^ Ananthaswamy, Anil (8 March 2023). "In AI, is bigger always better?". Nature. 615 (7951): 202–205. Bibcode:2023Natur.615..202A. doi:10.1038/d41586-023-00641-w. PMID 36890378. S2CID 257380916. Archived from the original on 16 March 2023. Retrieved 9 March 2023.
^ "bigscience/bloom · Hugging Face". huggingface.co. Archived from the original on 2023-04-12. Retrieved 2023-03-13.
^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (16 November 2022). "Galactica: A Large Language Model for Science". arXiv:2211.09085 [cs.CL].
^ "20B-parameter Alexa model sets new marks in few-shot learning". Amazon Science. 2 August 2022. Archived from the original on 15 March 2023. Retrieved 12 March 2023.
^ Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; et al. (3 August 2022). "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model". arXiv:2208.01448 [cs.CL].
^ "AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog". aws.amazon.com. 17 November 2022. Archived from the original on 13 March 2023. Retrieved 13 March 2023.
^ a b c "Introducing LLaMA: A foundational, 65-billion-parameter large language model". Meta AI. 24 February 2023. Archived from the original on 3 March 2023. Retrieved 9 March 2023.
^ a b c "The Falcon has landed in the Hugging Face ecosystem". huggingface.co. Archived from the original on 2023-06-20. Retrieved 2023-06-20.
^ "GPT-4 Technical Report" (PDF). OpenAI. 2023. Archived (PDF) from the original on March 14, 2023. Retrieved March 14, 2023.
^ Schreiner, Maximilian (2023-07-11). "GPT-4 architecture, datasets, costs and more leaked". THE DECODER. Archived from the original on 2023-07-12. Retrieved 2024-07-26.
^ Dey, Nolan (March 28, 2023). "Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models". Cerebras. Archived from the original on March 28, 2023. Retrieved March 28, 2023.
^ "Abu Dhabi-based TII launches its own version of ChatGPT". tii.ae. Archived from the original on 2023-04-03. Retrieved 2023-04-03.
^ Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; Launay, Julien (2023-06-01). "The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only". arXiv:2306.01116 [cs.CL].
^ "tiiuae/falcon-40b · Hugging Face". huggingface.co. 2023-06-09. Retrieved 2023-06-20.
^ UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free Archived 2024-02-08 at the Wayback Machine, 31 May 2023
^ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; Mann, Gideon (March 30, 2023). "BloombergGPT: A Large Language Model for Finance". arXiv:2303.17564 [cs.LG].
^ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; Podolskiy, Alexander; Arshinov, Grigory; Bout, Andrey; Piontkovskaya, Irina; Wei, Jiansheng; Jiang, Xin; Su, Teng; Liu, Qun; Yao, Jun (March 19, 2023). "PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing". arXiv:2303.10845 [cs.CL].
^ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023-04-14). "OpenAssistant Conversations – Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL].
^ Wrobel, Sharon. "Tel Aviv startup rolls out new advanced AI language model to rival OpenAI". www.timesofisrael.com. Archived from the original on 2023-07-24. Retrieved 2023-07-24.
^ Wiggers, Kyle (2023-04-13). "With Bedrock, Amazon enters the generative AI race". TechCrunch. Archived from the original on 2023-07-24. Retrieved 2023-07-24.
^ a b Elias, Jennifer (16 May 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". CNBC. Archived from the original on 16 May 2023. Retrieved 18 May 2023.
^ "Introducing PaLM 2". Google. May 10, 2023. Archived from the original on May 18, 2023. Retrieved May 18, 2023.
^ a b "Introducing Llama 2: The Next Generation of Our Open Source Large Language Model". Meta AI. 2023. Archived from the original on 2024-01-05. Retrieved 2023-07-19.
^ "llama/MODEL_CARD.md at main · meta-llama/llama". GitHub. Archived from the original on 2024-05-28. Retrieved 2024-05-28.
^ "Claude 2". anthropic.com. Archived from the original on 15 December 2023. Retrieved 12 December 2023.
^ Nirmal, Dinesh (2023-09-07). "Building AI for business: IBM's Granite foundation models". IBM Blog. Archived from the original on 2024-07-22. Retrieved 2024-08-11.
^ "Announcing Mistral 7B". Mistral. 2023. Archived from the original on 2024-01-06. Retrieved 2023-10-06.
^ "Introducing Claude 2.1". anthropic.com. Archived from the original on 15 December 2023. Retrieved 12 December 2023.
^ xai-org/grok-1, xai-org, 2024-03-19, archived from the original on 2024-05-28, retrieved 2024-03-19
^ "Grok-1 model card". x.ai. Retrieved 12 December 2023.
^ "Gemini – Google DeepMind". deepmind.google. Archived from the original on 8 December 2023. Retrieved 12 December 2023.
^ Franzen, Carl (11 December 2023). "Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance". VentureBeat. Archived from the original on 11 December 2023. Retrieved 12 December 2023.
^ "Mixtral of experts". mistral.ai. 11 December 2023. Archived from the original on 13 February 2024. Retrieved 12 December 2023.
^ AI, Mistral (2024-04-17). "Cheaper, Better, Faster, Stronger". mistral.ai. Archived from the original on 2024-05-05. Retrieved 2024-05-05.
^ a b Hughes, Alyssa (12 December 2023). "Phi-2: The surprising power of small language models". Microsoft Research. Archived from the original on 12 December 2023. Retrieved 13 December 2023.
^ "Our next-generation model: Gemini 1.5". Google. 15 February 2024. Archived from the original on 16 February 2024. Retrieved 16 February 2024. This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we've also successfully tested up to 10 million tokens.
^ "Gemma" – via GitHub.
^ "Introducing the next generation of Claude". www.anthropic.com. Archived from the original on 2024-03-04. Retrieved 2024-03-04.
^ "Fugaku-LLM/Fugaku-LLM-13B · Hugging Face". huggingface.co. Archived from the original on 2024-05-17. Retrieved 2024-05-17.
^ "Phi-3". azure.microsoft.com. 23 April 2024. Archived from the original on 2024-04-27. Retrieved 2024-04-28.
^ "Phi-3 Model Documentation". huggingface.co. Archived from the original on 2024-05-13. Retrieved 2024-04-28.
^ "Qwen2". GitHub. Archived from the original on 2024-06-17. Retrieved 2024-06-17.
^ "nvidia/Nemotron-4-340B-Base · Hugging Face". huggingface.co. 2024-06-14. Archived from the original on 2024-06-15. Retrieved 2024-06-15.
^ "Nemotron-4 340B | Research". research.nvidia.com. Archived from the original on 2024-06-15. Retrieved 2024-06-15.
^ "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
^ "llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models". GitHub. Archived from the original on 2024-07-23. Retrieved 2024-07-23.