Modelo de lenguaje grande

Un modelo de lenguaje grande ( LLM ) es un modelo computacional capaz de generar lenguaje u otras tareas de procesamiento del lenguaje natural . Como modelos de lenguaje , los LLM adquieren estas capacidades al aprender relaciones estadísticas a partir de grandes cantidades de texto durante un proceso de entrenamiento autosupervisado y semisupervisado . ^[1]

Los LLM más grandes y capaces, a partir de agosto de 2024 ^[update], son redes neuronales artificiales construidas con una arquitectura basada en transformadores solo decodificadores , que permite un procesamiento y una generación eficientes de datos de texto a gran escala. Los modelos modernos se pueden ajustar para tareas específicas o pueden guiarse por ingeniería rápida . ^[2] Estos modelos adquieren poder predictivo con respecto a la sintaxis, la semántica y las ontologías ^[3] inherentes a los corpus del lenguaje humano, pero también heredan imprecisiones y sesgos presentes en los datos con los que se entrenan. ^[4]

Algunos LLM notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3.5 , GPT-4 y GPT-4o ; utilizados en ChatGPT y Microsoft Copilot ), Gemini de Google (utilizado en el chatbot del mismo nombre ), la familia de modelos LLaMA de Meta , los modelos Granite de IBM lanzados inicialmente con Watsonx , los modelos Claude de Anthropic y los modelos de Mistral AI .

Historia

Antes de 2017, había algunos modelos de lenguaje que eran grandes en comparación con las capacidades disponibles en ese momento. En la década de 1990, los modelos de alineación de IBM fueron pioneros en el modelado estadístico del lenguaje. En 2001, un modelo de n-gramas suavizado entrenado en 0,3 mil millones de palabras logró la perplejidad de entonces (SOTA, por sus siglas en inglés). ^[5] En la década de 2000, cuando el uso de Internet se hizo más común, algunos investigadores construyeron conjuntos de datos de lenguaje a escala de Internet ("web como corpus" ^[6] ), sobre los cuales entrenaron modelos estadísticos del lenguaje. ^[7]^[8] En 2009, en la mayoría de las tareas de procesamiento del lenguaje, los modelos estadísticos del lenguaje dominaron sobre los modelos simbólicos del lenguaje, ya que pueden ingerir de manera útil grandes conjuntos de datos. ^[9]

Después de que las redes neuronales se volvieran dominantes en el procesamiento de imágenes alrededor de 2012, también se aplicaron al modelado de lenguaje. Google convirtió su servicio de traducción a Neural Machine Translation en 2016. Como era antes de Transformers, se hizo mediante redes LSTM profundas seq2seq.

Una ilustración de los componentes principales del modelo de transformador del artículo original, donde las capas se normalizaron después (en lugar de antes) de la atención multidireccional.

En la conferencia NeurIPS de 2017 , los investigadores de Google presentaron la arquitectura del transformador en su artículo emblemático " Attention Is All You Need ". El objetivo de este artículo era mejorar la tecnología Seq2seq de 2014 , ^[10] y se basó principalmente en el mecanismo de atención desarrollado por Bahdanau et al. en 2014. ^[11] El año siguiente, en 2018, se presentó BERT y rápidamente se volvió "omnipresente". ^[12] Aunque el transformador original tiene bloques codificadores y decodificadores, BERT es un modelo de solo codificador.

Aunque el GPT-1 , que solo funcionaba como decodificador, se introdujo en 2018, fue el GPT-2 de 2019 el que captó la atención generalizada porque OpenAI al principio lo consideró demasiado potente para publicarlo, por temor a un uso malintencionado. ^[13] El GPT-3 de 2020 fue un paso más allá y, a partir de 2024, ^[update]solo está disponible a través de API sin ofrecer la posibilidad de descargar el modelo para ejecutarlo localmente. Pero fue el ChatGPT basado en navegador para el consumidor de 2022 el que capturó la imaginación de la población general y causó cierto revuelo en los medios y en Internet. ^[14] El GPT-4 de 2023 fue elogiado por su mayor precisión y como un "santo grial" por sus capacidades multimodales . ^[15] OpenAI no reveló la arquitectura de alto nivel ni la cantidad de parámetros del GPT-4.

Los modelos de lenguaje en competencia, en su mayor parte, han intentado igualar la serie GPT, al menos en términos de número de parámetros. ^[16]

Desde 2022, los modelos disponibles en código fuente han ido ganando popularidad, especialmente al principio con BLOOM y LLaMA , aunque ambos tienen restricciones en el campo de uso. Los modelos Mistral 7B y Mixtral 8x7b de Mistral AI tienen la licencia Apache más permisiva . A junio de 2024 ^[update], la variante ajustada con precisión de instrucciones del modelo Llama 3 de 70 mil millones de parámetros es el LLM abierto más poderoso según el LMSYS Chatbot Arena Leaderboard, siendo más poderoso que GPT-3.5 pero no tanto como GPT-4. ^[17]

A partir de 2024, los modelos más grandes y con mayor capacidad se basan en la arquitectura Transformer. Algunas implementaciones recientes se basan en otras arquitecturas, como variantes de redes neuronales recurrentes y Mamba (un modelo de espacio de estados ). ^[18]^[19]^[20]

Preprocesamiento de conjuntos de datos

Tokenización

Debido a que los algoritmos de aprendizaje automático procesan números en lugar de texto, el texto debe convertirse en números. En el primer paso, se decide un vocabulario, luego se asignan índices enteros de manera arbitraria pero única a cada entrada de vocabulario y, finalmente, se asocia una incrustación al índice entero. Los algoritmos incluyen codificación de pares de bytes (BPE) y WordPiece . También hay tokens especiales que sirven como caracteres de control , como [MASK]para token enmascarado (como se usa en BERT ) y [UNK]("desconocido") para caracteres que no aparecen en el vocabulario. Además, se usan algunos símbolos especiales para indicar un formato de texto especial. Por ejemplo, "Ġ" indica un espacio en blanco anterior en RoBERTa y GPT. "##" indica la continuación de una palabra anterior en BERT. ^[21]

Por ejemplo, el tokenizador BPE utilizado por GPT-3 (Legacy) se dividiría tokenizer: texts -> series of numerical "tokens"como

La tokenización también comprime los conjuntos de datos. Debido a que los LLM generalmente requieren que la entrada sea una matriz que no sea irregular , los textos más cortos deben "rellenarse" hasta que coincidan con la longitud del más largo. La cantidad de tokens que se necesitan, en promedio, por palabra depende del idioma del conjunto de datos. ^[22]^[23]

EBP

Como ejemplo, considere un tokenizador basado en codificación de pares de bytes. En el primer paso, todos los caracteres únicos (incluidos los espacios en blanco y los signos de puntuación ) se tratan como un conjunto inicial de n -gramas (es decir, un conjunto inicial de uni-gramas). Sucesivamente, el par más frecuente de caracteres adyacentes se fusiona en un bi-grama y todas las instancias del par se reemplazan por él. Todas las ocurrencias de pares adyacentes de n -gramas (previamente fusionados) que ocurren juntos con mayor frecuencia se fusionan nuevamente en un n -grama aún más largo, hasta que se obtiene un vocabulario de tamaño prescrito (en el caso de GPT-3 , el tamaño es 50257). ^[24] Después de que se entrena un tokenizador, cualquier texto puede ser tokenizado por él, siempre que no contenga caracteres que no aparezcan en el conjunto inicial de uni-gramas. ^[25]

Problemas

Un vocabulario de tokens basado en las frecuencias extraídas de corpus principalmente en inglés utiliza la menor cantidad posible de tokens para una palabra inglesa promedio. Sin embargo, una palabra promedio en otro idioma codificada por un tokenizador optimizado para inglés se divide en una cantidad subóptima de tokens. El tokenizador GPT-2 puede utilizar hasta 15 veces más tokens por palabra para algunos idiomas, por ejemplo, para el idioma shan de Myanmar . Incluso idiomas más extendidos como el portugués y el alemán tienen "una prima del 50%" en comparación con el inglés. ^[26]

La tokenización codiciosa también causa problemas sutiles con la finalización del texto. ^[27]

Limpieza de conjuntos de datos

En el contexto del entrenamiento de LLM, los conjuntos de datos generalmente se limpian eliminando pasajes tóxicos del conjunto de datos, descartando datos de baja calidad y deduplicando. ^[28] Los conjuntos de datos limpios pueden aumentar la eficiencia del entrenamiento y conducir a un mejor rendimiento posterior. ^[29]^[30] Un LLM entrenado se puede utilizar para limpiar conjuntos de datos para entrenar un LLM adicional. ^[31]

Con la creciente proporción de contenido generado por LLM en la web, la limpieza de datos en el futuro puede incluir el filtrado de dicho contenido. El contenido generado por LLM puede plantear un problema si el contenido es similar al texto humano (lo que dificulta el filtrado) pero de menor calidad (lo que degrada el rendimiento de los modelos entrenados con él). ^[32]

Datos sintéticos

El entrenamiento de los modelos lingüísticos más grandes puede requerir más datos lingüísticos que los que se encuentran disponibles naturalmente, o que los datos que se encuentran naturalmente no sean de suficiente calidad. En estos casos, se pueden utilizar datos sintéticos. La serie Phi de LLM de Microsoft se entrena con datos similares a los de un libro de texto generados por otro LLM. ^[33]

Formación y arquitectura

Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)

El aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) a través de algoritmos, como la optimización de políticas proximales , se utiliza para ajustar aún más un modelo basado en un conjunto de datos de preferencias humanas. ^[34]

Ajuste de instrucciones

Mediante el uso de métodos de "autoinstrucción", los estudiantes de maestría en derecho han podido generar respuestas correctas, reemplazando cualquier respuesta ingenua, a partir de correcciones generadas por humanos de unos pocos casos. Por ejemplo, en la instrucción "Escribe un ensayo sobre los temas principales representados en Hamlet ", una finalización ingenua inicial podría ser "Si entregas el ensayo después del 17 de marzo, tu calificación se reducirá en un 10% por cada día de retraso", según la frecuencia de esta secuencia textual en el corpus. ^[35]

Mezcla de expertos

El modelo LLM más grande puede ser demasiado costoso para entrenarlo y usarlo directamente. Para estos modelos, se puede aplicar la mezcla de expertos (MoE), una línea de investigación que los investigadores de Google llevan adelante desde 2017 para entrenar modelos que alcanzan hasta 1 billón de parámetros. ^[36]^[37]^[38]

Ingeniería rápida, mecanismo de atención y ventana de contexto

La mayoría de los resultados que antes sólo se podían lograr mediante un ajuste fino (costoso) se pueden lograr mediante ingeniería rápida , aunque limitada al alcance de una sola conversación (más precisamente, limitada al alcance de una ventana de contexto). ^[39]

Para averiguar qué tokens son relevantes entre sí dentro del alcance de la ventana de contexto, el mecanismo de atención calcula pesos "suaves" para cada token, más precisamente para su incrustación, utilizando múltiples cabezas de atención, cada una con su propia "relevancia" para calcular sus propios pesos blandos. Por ejemplo, el modelo GPT-2 pequeño (es decir, con un tamaño de parámetro de 117 millones) tenía doce cabezas de atención y una ventana de contexto de solo 1k tokens. ^[41] En su versión mediana tiene 345 millones de parámetros y contiene 24 capas, cada una con 12 cabezas de atención. Para el entrenamiento con descenso de gradiente se utilizó un tamaño de lote de 512. ^[25]

Los modelos más grandes, como Gemini 1.5 de Google , presentado en febrero de 2024, pueden tener una ventana de contexto de hasta 1 millón (la ventana de contexto de 10 millones también fue "probada con éxito"). ^[42] Otros modelos con ventanas de contexto grandes incluyen Claude 2.1 de Anthropic, con una ventana de contexto de hasta 200k tokens. ^[43] Tenga en cuenta que este máximo se refiere al número de tokens de entrada y que el número máximo de tokens de salida difiere de la entrada y, a menudo, es menor. Por ejemplo, el modelo GPT-4 Turbo tiene una salida máxima de 4096 tokens. ^[44]

La longitud de una conversación que el modelo puede tener en cuenta al generar su próxima respuesta también está limitada por el tamaño de una ventana de contexto. Si la longitud de una conversación, por ejemplo con ChatGPT , es mayor que su ventana de contexto, solo se tienen en cuenta las partes dentro de la ventana de contexto al generar la próxima respuesta, o el modelo debe aplicar algún algoritmo para resumir las partes demasiado distantes de la conversación.

Las desventajas de hacer una ventana de contexto más grande incluyen un mayor costo computacional y posiblemente diluir el enfoque en el contexto local, mientras que hacerla más pequeña puede hacer que un modelo pase por alto una importante dependencia de largo alcance. Equilibrarlas es una cuestión de experimentación y consideraciones específicas del dominio.

Un modelo puede ser entrenado previamente para predecir cómo continúa el segmento o qué falta en el segmento, dado un segmento de su conjunto de datos de entrenamiento. ^[45] Puede ser

autorregresivo (es decir, predecir cómo continúa el segmento, como lo hacen los GPT ): por ejemplo, dado un segmento "Me gusta comer", el modelo predice "helado" o "sushi".
" enmascarado " (es decir, rellenando las partes faltantes del segmento, como lo hace "BERT" ^[46][__] [__] ): por ejemplo, dado un segmento "Me gusta la crema", el modelo predice que faltan "comer" y "hielo".

Los modelos pueden entrenarse en tareas auxiliares que prueban su comprensión de la distribución de datos, como la predicción de la siguiente oración (NSP), en la que se presentan pares de oraciones y el modelo debe predecir si aparecen consecutivamente en el corpus de entrenamiento. ^[46] Durante el entrenamiento, la pérdida de regularización también se utiliza para estabilizar el entrenamiento. Sin embargo, la pérdida de regularización generalmente no se utiliza durante las pruebas y la evaluación.

Infraestructura

Se necesita una infraestructura sustancial para entrenar los modelos más grandes. ^[47]^[48]^[49]

Costo de capacitación

Los avances en software y hardware han reducido sustancialmente el costo desde 2020, de tal manera que en 2023 el costo computacional del entrenamiento de un LLM de 12 mil millones de parámetros es de 72,300 A100-GPU -horas, mientras que en 2020 el costo de entrenamiento de un LLM de 1,5 mil millones de parámetros (que era dos órdenes de magnitud menor que el estado del arte en 2020) era de entre $ 80 mil y $ 1,6 millones. ^[50]^[51]^[52] Desde 2020, se invirtieron grandes sumas en modelos cada vez más grandes. Por ejemplo, el entrenamiento del GPT-2 (es decir, un modelo de 1.500 millones de parámetros) en 2019 costó 50.000 dólares, mientras que el entrenamiento del PaLM (es decir, un modelo de 540.000 millones de parámetros) en 2022 costó 8 millones de dólares, y el Megatron-Turing NLG 530B (en 2021) costó alrededor de 11 millones de dólares. ^[53]

En el caso de LLM basado en transformadores, el costo de entrenamiento es mucho mayor que el costo de inferencia. Cuesta 6 FLOP por parámetro entrenar en un token, mientras que cuesta entre 1 y 2 FLOP por parámetro inferir en un token. ^[54]

Uso de herramientas

Existen ciertas tareas que, en principio, no pueden ser resueltas por ningún LLM, al menos no sin el uso de herramientas externas o software adicional. Un ejemplo de tal tarea es responder a la entrada del usuario '354 * 139 = ', siempre que el LLM no haya encontrado ya una continuación de este cálculo en su corpus de entrenamiento. ^{[ dubious – discussion ]} En tales casos, el LLM necesita recurrir a ejecutar código de programa que calcule el resultado, que luego puede incluirse en su respuesta. ^{[ dubious – discussion ]} : Otro ejemplo es '¿Qué hora es ahora? Son ', donde un intérprete de programa independiente necesitaría ejecutar un código para obtener la hora del sistema en la computadora, por lo que LLM podría incluirla en su respuesta. ^{[ 55 ]}^{[ 56 ]} Esta estrategia básica puede ser sofisticada con múltiples intentos de programas generados y otras estrategias de muestreo. ^{[ 57 ]}

En general, para que un LLM pueda utilizar herramientas, es necesario ajustarlo para que pueda utilizarlas. Si la cantidad de herramientas es finita, entonces el ajuste se puede realizar solo una vez. Si la cantidad de herramientas puede crecer arbitrariamente, como sucede con los servicios API en línea , entonces el LLM se puede ajustar para que pueda leer la documentación API y llamar a la API correctamente. ^[58]^[59]

Una forma más simple de utilizar la herramienta es la generación aumentada de recuperación : la ampliación de un LLM con la recuperación de documentos . Dada una consulta, se llama a un recuperador de documentos para recuperar los documentos más relevantes. Esto se hace generalmente codificando la consulta y los documentos en vectores, luego buscando los documentos con vectores (generalmente almacenados en una base de datos de vectores ) más similares al vector de la consulta. El LLM luego genera una salida basada tanto en la consulta como en el contexto incluido de los documentos recuperados. ^[60]

Agencia

Un LLM es un modelo de lenguaje, que no es un agente ya que no tiene ningún objetivo, pero puede utilizarse como un componente de un agente inteligente . ^[61] Los investigadores han descrito varios métodos para tales integraciones. ^{[ cita requerida ]}

El patrón ReAct, un acrónimo de "Reason + Act", construye un agente a partir de un LLM, utilizando el LLM como planificador. Se le pide al LLM que "piense en voz alta". Específicamente, se le pide al modelo de lenguaje una descripción textual del entorno, un objetivo, una lista de posibles acciones y un registro de las acciones y observaciones realizadas hasta el momento. Genera uno o más pensamientos antes de generar una acción, que luego se ejecuta en el entorno. ^[62] La descripción lingüística del entorno que se le da al planificador del LLM puede incluso ser el código LaTeX de un artículo que describe el entorno. ^[63]

En el método DEPS ("Describe, Explain, Plan and Select"), un LLM primero se conecta al mundo visual a través de descripciones de imágenes, luego se le pide que produzca planes para tareas y comportamientos complejos basados en su conocimiento preentrenado y la retroalimentación ambiental que recibe. ^[64]

El método Reflexion ^[65] construye un agente que aprende a lo largo de varios episodios. Al final de cada episodio, se le entrega al agente el registro del episodio y se le pide que piense en "lecciones aprendidas" que lo ayudarán a desempeñarse mejor en un episodio posterior. Estas "lecciones aprendidas" se le entregan al agente en los episodios posteriores. ^{[ cita requerida ]}

La búsqueda de árboles de Monte Carlo puede utilizar un LLM como heurística de implementación. Cuando no se dispone de un modelo de mundo programático, también se puede solicitar un LLM con una descripción del entorno para que actúe como modelo de mundo. ^[66]

Para la exploración abierta, un LLM puede utilizarse para puntuar las observaciones por su "interés", lo que puede utilizarse como señal de recompensa para guiar a un agente de aprendizaje de refuerzo normal (no LLM). ^[67] Alternativamente, puede proponer tareas cada vez más difíciles para el aprendizaje del currículo . ^[68] En lugar de generar acciones individuales, un planificador LLM también puede construir "habilidades" o funciones para secuencias de acciones complejas. Las habilidades se pueden almacenar e invocar más tarde, lo que permite aumentar los niveles de abstracción en la planificación. ^[68]

Los agentes que funcionan con LLM pueden mantener una memoria a largo plazo de sus contextos anteriores, y la memoria se puede recuperar de la misma manera que la Generación Aumentada de Recuperación. Múltiples agentes de este tipo pueden interactuar socialmente. ^[69]

Compresión

Por lo general, los LLM se entrenan con números de punto flotante de precisión simple o media (float32 y float16). Un float16 tiene 16 bits, o 2 bytes, por lo que mil millones de parámetros requieren 2 gigabytes. Los modelos más grandes suelen tener 100 mil millones de parámetros, que requieren 200 gigabytes para cargarse, lo que los coloca fuera del alcance de la mayoría de los productos electrónicos de consumo. ^[70]

La cuantificación posterior al entrenamiento ^[71] tiene como objetivo disminuir el requisito de espacio al reducir la precisión de los parámetros de un modelo entrenado, al tiempo que se conserva la mayor parte de su rendimiento. ^[72]^[73] La forma más simple de cuantificación simplemente trunca todos los números a una cantidad dada de bits. Se puede mejorar utilizando un libro de códigos de cuantificación diferente por capa. Se pueden realizar mejoras adicionales aplicando diferentes precisiones a diferentes parámetros, con mayor precisión para parámetros particularmente importantes ("pesos atípicos"). ^[74] Consulte ^[75] para obtener una guía visual.

Si bien los modelos cuantificados suelen estar congelados y solo se ajustan los modelos precuantificados, aún es posible ajustarlos. ^[76]

Multimodalidad

Multimodalidad significa "tener varias modalidades", y una "modalidad" se refiere a un tipo de entrada o salida, como video, imagen, audio, texto, propiocepción , etc. ^[77] Ha habido muchos modelos de IA entrenados específicamente para ingerir una modalidad y generar otra modalidad, como AlexNet para imagen a etiqueta, ^[78] respuesta visual a preguntas para imagen-texto a texto, ^[79] y reconocimiento de voz para voz a texto.

Un método común para crear modelos multimodales a partir de un LLM es "tokenizar" la salida de un codificador entrenado. Concretamente, se puede construir un LLM que pueda entender imágenes de la siguiente manera: tomar un LLM entrenado y tomar un codificador de imágenes entrenado . Hacer un pequeño perceptrón multicapa , de modo que para cualquier imagen , el vector posprocesado tenga las mismas dimensiones que un token codificado. Eso es un "token de imagen". Luego, se pueden intercalar tokens de texto y tokens de imagen. El modelo compuesto se ajusta entonces con precisión en un conjunto de datos de imagen-texto. Esta construcción básica se puede aplicar con más sofisticación para mejorar el modelo. El codificador de imágenes se puede congelar para mejorar la estabilidad. ^[80] $E$ $f$ $y$ $f(E(y))$

Flamingo demostró la eficacia del método de tokenización, ajustando un par de modelos de lenguaje preentrenados y codificadores de imágenes para que tuvieran un mejor desempeño en la respuesta visual a preguntas que los modelos entrenados desde cero. ^{[81] El modelo} Google PaLM se ajustó para convertirlo en un modelo multimodal PaLM-E utilizando el método de tokenización y se aplicó al control robótico. ^{[82] Los modelos} LLaMA también se han convertido en multimodales utilizando el método de tokenización para permitir entradas de imágenes, ^[83] y entradas de video. ^[84]

GPT-4 puede utilizar tanto texto como imágenes como entradas ^[85] (aunque el componente de visión no se lanzó al público hasta GPT-4V ^[86] ); Gemini de Google DeepMind también es multimodal. ^[87] Mistral presentó su propio modelo multimodelo Pixtral 12B en septiembre de 2024. ^[88]

Propiedades

Leyes de escala

Los siguientes cuatro hiperparámetros caracterizan un LLM:

costo de la (pre)capacitación ( ), $C$
tamaño de la propia red neuronal artificial , como el número de parámetros (es decir, cantidad de neuronas en sus capas, cantidad de pesos entre ellas y sesgos), $N$
tamaño de su conjunto de datos de (pre)entrenamiento (es decir, número de tokens en el corpus ), $D$
rendimiento después del (pre)entrenamiento.

Están relacionadas por leyes estadísticas simples , llamadas "leyes de escala". Una ley de escala particular (" escalamiento de Chinchilla ") para LLM entrenado de forma autorregresiva para una época, con un programa de tasa de aprendizaje logarítmico , establece que: ^[89] donde las variables son ${\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}$

$C$ es el costo de entrenamiento del modelo, en FLOPs .
$N$ es el número de parámetros en el modelo.
$D$ es el número de tokens en el conjunto de entrenamiento.
$L$ es la pérdida de verosimilitud negativa promedio por token ( nats /token), lograda por el LLM entrenado en el conjunto de datos de prueba.

y los hiperparámetros estadísticos son

$C_{0}=6$ , lo que significa que cuesta 6 FLOP por parámetro entrenar en un token. Tenga en cuenta que el costo de entrenamiento es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token. ^[54]
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Habilidades emergentes

El desempeño de modelos más grandes en diversas tareas, cuando se representa gráficamente en una escala logarítmica, parece una extrapolación lineal del desempeño logrado por modelos más pequeños. Sin embargo, esta linealidad puede verse acentuada por " rupturas " ^[90] en la ley de escala, donde la pendiente de la línea cambia abruptamente y donde los modelos más grandes adquieren "capacidades emergentes". ^[39]^[91] Surgen de la interacción compleja de los componentes del modelo y no están programados ni diseñados explícitamente. ^[92]

La más intrigante entre las habilidades emergentes es el aprendizaje en contexto a partir de demostraciones de ejemplo. ^[93] El aprendizaje en contexto está involucrado en tareas como:

aritmética informada, decodificación del Alfabeto Fonético Internacional , descifrar las letras de una palabra, desambiguar una palabra en contexto, ^[39]^[94]^[95] convertir palabras espaciales, direcciones cardinales (por ejemplo, responder "noreste" a [0, 0, 1; 0, 0, 0; 0, 0, 0]), términos de color representados en el texto. ^[96]
Incitación por cadena de pensamiento : los resultados del modelo se mejoran mediante la incitación por cadena de pensamiento solo cuando el tamaño del modelo supera los 62B. Los modelos más pequeños funcionan mejor cuando se les pide que respondan inmediatamente, sin cadena de pensamiento. ^[97]
identificar contenido ofensivo en párrafos de Hinglish (una combinación de hindi e inglés) y generar un equivalente en inglés similar de los proverbios kiswahili . ^[98]

Schaeffer et al. sostienen que las habilidades emergentes no se adquieren de manera impredecible, sino de manera predecible según una ley de escalamiento suave . Los autores consideraron un modelo estadístico de juguete de un LLM que resuelve preguntas de opción múltiple y demostraron que este modelo estadístico, modificado para tener en cuenta otros tipos de tareas, también se aplica a estas tareas. ^[99]

Sea el número de parámetros contados y el rendimiento del modelo. $x$ $y$

Cuando , entonces es una curva exponencial (antes de que llegue a la meseta en uno), que parece una emergencia. $y={\text{average }}\Pr({\text{correct token}})$ $(\log x,y)$
Cuando , entonces la gráfica es una línea recta (antes de que llegue a la meseta en cero), lo que no parece una emergencia. $y={\text{average }}\log(\Pr({\text{correct token}}))$ $(\log x,y)$
Cuando , entonces es una función escalonada, que parece una emergencia. $y={\text{average }}\Pr({\text{the most likely token is correct}})$ $(\log x,y)$

Interpretación

Los grandes modelos lingüísticos son en sí mismos " cajas negras " y no está claro cómo pueden realizar tareas lingüísticas. Existen varios métodos para comprender cómo funcionan los grandes modelos lingüísticos.

La interpretabilidad mecanicista tiene como objetivo aplicar ingeniería inversa a LLM mediante el descubrimiento de algoritmos simbólicos que se aproximan a la inferencia realizada por LLM. Un ejemplo es Othello-GPT, donde se entrena un pequeño Transformer para predecir movimientos legales de Othello . Se descubre que existe una representación lineal del tablero de Othello y que al modificar la representación se cambian los movimientos legales predichos de Othello de la manera correcta. ^[100]^[101] En otro ejemplo, se entrena un pequeño Transformer con programas Karel . De manera similar al ejemplo de Othello-GPT, existe una representación lineal de la semántica del programa Karel y al modificar la representación se cambia la salida de la manera correcta. El modelo también genera programas correctos que, en promedio, son más cortos que los del conjunto de entrenamiento. ^[102]

En otro ejemplo, los autores entrenaron pequeños transformadores en la suma aritmética modular . Los modelos resultantes fueron sometidos a ingeniería inversa y resultó que utilizaban la transformada de Fourier discreta . ^[103]

Comprensión e inteligencia

Los investigadores de PNL se mostraron divididos cuando se les preguntó, en una encuesta de 2022, si los LLM (sin afinar) "podrían (alguna vez) comprender el lenguaje natural en algún sentido no trivial". ^[104] Los defensores de la "comprensión LLM" creen que algunas habilidades LLM, como el razonamiento matemático, implican una capacidad para "comprender" ciertos conceptos. Un equipo de Microsoft argumentó en 2023 que GPT-4 "puede resolver tareas novedosas y difíciles que abarcan matemáticas, codificación, visión, medicina, derecho, psicología y más" y que GPT-4 "podría verse razonablemente como una versión temprana (aunque aún incompleta) de un sistema de inteligencia general artificial ": "¿Se puede decir razonablemente que un sistema que aprueba los exámenes para candidatos a ingeniería de software no es realmente inteligente?" ^[105]^[106] Algunos investigadores caracterizan a los LLM como "inteligencia alienígena". ^[107]^[108] Por ejemplo, el director ejecutivo de Conjecture, Connor Leahy, considera que los LLM no sintonizados son como " Shoggoths " alienígenas inescrutables, y cree que la sintonización RLHF crea una "fachada sonriente" que oculta el funcionamiento interno del LLM: "Si no lo presionas demasiado, la cara sonriente permanece. Pero luego le das un aviso [inesperado], y de repente ves este enorme submundo de locura, de procesos de pensamiento extraños y una comprensión claramente no humana". ^[109]^[110]

Por el contrario, algunos defensores de la escuela de que "los LLM carecen de comprensión" creen que los LLM existentes son "simplemente una remezcla y recombinación de la escritura existente", ^[108] un fenómeno conocido como loro estocástico , o señalan los déficits que los LLM existentes siguen teniendo en habilidades de predicción, habilidades de razonamiento, agencia y explicabilidad. ^[104] Por ejemplo, GPT-4 tiene déficits naturales en la planificación y en el aprendizaje en tiempo real. ^[106] Se ha observado que los LLM generativos afirman con confianza afirmaciones de hechos que no parecen estar justificadas por sus datos de entrenamiento , un fenómeno que se ha denominado " alucinación ". ^[111] Específicamente, las alucinaciones en el contexto de los LLM corresponden a la generación de texto o respuestas que parecen sintácticamente sólidas, fluidas y naturales, pero que son factualmente incorrectas, sin sentido o infieles a la entrada de la fuente proporcionada. ^[112] El neurocientífico Terrence Sejnowski ha argumentado que "las opiniones divergentes de los expertos sobre la inteligencia de los LLM sugieren que nuestras viejas ideas basadas en la inteligencia natural son inadecuadas". ^[104]

La cuestión de la demostración de inteligencia o comprensión por parte de los LLM tiene dos aspectos principales: el primero es cómo modelar el pensamiento y el lenguaje en un sistema informático, y el segundo es cómo permitir que el sistema informático genere un lenguaje similar al humano. ^[104] Estos aspectos del lenguaje como modelo de cognición se han desarrollado en el campo de la lingüística cognitiva . El lingüista estadounidense George Lakoff presentó la teoría neuronal del lenguaje (NTL) ^[113] como una base computacional para usar el lenguaje como modelo de tareas de aprendizaje y comprensión. El modelo NTL describe cómo las estructuras neuronales específicas del cerebro humano dan forma a la naturaleza del pensamiento y el lenguaje y, a su vez, cuáles son las propiedades computacionales de dichos sistemas neuronales que se pueden aplicar para modelar el pensamiento y el lenguaje en un sistema informático. Después de que se estableció un marco para modelar el lenguaje en un sistema informático, el enfoque cambió a establecer marcos para que los sistemas informáticos generen lenguaje con una gramática aceptable. En su libro de 2014 titulado El mito del lenguaje: por qué el lenguaje no es un instinto , el lingüista cognitivo y tecnólogo de comunicación digital británico Vyvyan Evans trazó el papel de la gramática probabilística libre de contexto (PCFG) para permitir que el PNL modele patrones cognitivos y genere un lenguaje similar al humano. ^[114]^[115]

Evaluación

Perplejidad

La medida más comúnmente utilizada del desempeño de un modelo de lenguaje es su perplejidad en un corpus de texto dado. La perplejidad es una medida de qué tan bien un modelo es capaz de predecir el contenido de un conjunto de datos; cuanto mayor sea la probabilidad que el modelo asigna al conjunto de datos, menor es la perplejidad. Matemáticamente, la perplejidad se define como el exponencial de la probabilidad logarítmica negativa promedio por token: aquí es el número de tokens en el corpus de texto, y el "contexto para token " depende del tipo específico de LLM utilizado. Si el LLM es autorregresivo, entonces "contexto para token " es el segmento de texto que aparece antes de token . Si el LLM está enmascarado, entonces "contexto para token " es el segmento de texto que rodea a token . $\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))$ $N$ $i$ $i$ $i$ $i$ $i$

Debido a que los modelos de lenguaje pueden sobreajustarse a sus datos de entrenamiento, los modelos suelen evaluarse por su perplejidad en un conjunto de prueba de datos no vistos. ^[46] Esto presenta desafíos particulares para la evaluación de modelos de lenguaje grandes. A medida que se entrenan en corpus de texto cada vez más grandes extraídos en gran parte de la web, se vuelve cada vez más probable que los datos de entrenamiento de los modelos incluyan inadvertidamente partes de cualquier conjunto de prueba dado. ^[2]

BPW, BPC y BPT

En la teoría de la información , el concepto de entropía está íntimamente ligado a la perplejidad, una relación establecida notablemente por Claude Shannon . ^[116] Esta relación se expresa matemáticamente como . ${\text{Entropy}}=\log _{2}({\text{Perplexity}})$

La entropía, en este contexto, se cuantifica comúnmente en términos de bits por palabra (BPW) o bits por carácter (BPC), lo que depende de si el modelo de lenguaje utiliza tokenización basada en palabras o en caracteres.

Cabe destacar que, en el caso de modelos de lenguaje más grandes que emplean predominantemente tokenización de subpalabras, los bits por token (BPT) surgen como una medida aparentemente más apropiada. Sin embargo, debido a la variación en los métodos de tokenización en diferentes modelos de lenguaje grandes (LLM), BPT no sirve como una métrica confiable para el análisis comparativo entre diversos modelos. Para convertir BPT en BPW, se puede multiplicar por la cantidad promedio de tokens por palabra.

En la evaluación y comparación de modelos de lenguaje, la entropía cruzada es generalmente la métrica preferida sobre la entropía. El principio subyacente es que un BPW más bajo es indicativo de una capacidad mejorada de compresión de un modelo. Esto, a su vez, refleja la competencia del modelo para hacer predicciones precisas.

Conjuntos de datos y puntos de referencia específicos de la tarea

También se ha desarrollado una gran cantidad de conjuntos de datos de prueba y puntos de referencia para evaluar las capacidades de los modelos de lenguaje en tareas posteriores más específicas. Las pruebas pueden diseñarse para evaluar una variedad de capacidades, incluidos los conocimientos generales, el razonamiento de sentido común y la resolución de problemas matemáticos.

Una amplia categoría de conjunto de datos de evaluación son los conjuntos de datos de respuesta a preguntas, que consisten en pares de preguntas y respuestas correctas, por ejemplo, ("¿Han ganado los San Jose Sharks la Copa Stanley?", "No"). ^[117] Una tarea de respuesta a preguntas se considera "libro abierto" si el mensaje del modelo incluye texto del que se puede derivar la respuesta esperada (por ejemplo, la pregunta anterior podría ir acompañada de algún texto que incluya la frase "Los Sharks han avanzado a la final de la Copa Stanley una vez, perdiendo ante los Pittsburgh Penguins en 2016" . ^[117] ). De lo contrario, la tarea se considera "libro cerrado", y el modelo debe aprovechar el conocimiento retenido durante el entrenamiento. ^[118] Algunos ejemplos de conjuntos de datos de respuesta a preguntas de uso común incluyen TruthfulQA, Web Questions, TriviaQA y SQuAD. ^[118]

Los conjuntos de datos de evaluación también pueden adoptar la forma de completar texto, haciendo que el modelo seleccione la palabra o frase más probable para completar una instrucción, por ejemplo: "Alice era amiga de Bob. Alice fue a visitar a su amiga, ____". ^[2]

También se han desarrollado algunos puntos de referencia compuestos que combinan una diversidad de diferentes conjuntos de datos y tareas de evaluación. Algunos ejemplos incluyen GLUE, SuperGLUE, MMLU , BIG-bench y HELM. ^[116]^[118] OpenAI ha publicado herramientas para ejecutar puntos de referencia compuestos, pero señaló que los resultados de la evaluación son sensibles al método de solicitud. ^[119]^[120] Algunos conjuntos de datos públicos contienen preguntas que están mal etiquetadas, son ambiguas, no tienen respuesta o son de baja calidad, que se pueden limpiar para brindar puntajes de referencia más confiables. ^[121]

Anteriormente, era habitual informar los resultados de una parte reservada de un conjunto de datos de evaluación después de realizar un ajuste fino supervisado en el resto. Ahora es más común evaluar un modelo entrenado previamente directamente a través de técnicas de indicaciones, aunque los investigadores varían en los detalles de cómo formulan las indicaciones para tareas particulares, en particular con respecto a cuántos ejemplos de tareas resueltas se adjuntan a la indicación (es decir, el valor de n en indicaciones de n -shot).

Evaluaciones construidas adversariamente

Debido al rápido ritmo de mejora de los modelos de lenguaje de gran tamaño, los puntos de referencia de evaluación han sufrido una vida útil corta, con modelos de última generación "saturando" rápidamente los puntos de referencia existentes, superando el rendimiento de los anotadores humanos, lo que lleva a esfuerzos para reemplazar o aumentar el punto de referencia con tareas más desafiantes. ^[122] Además, hay casos de "aprendizaje de atajos" en los que las IA a veces "hacen trampa" en pruebas de opción múltiple al usar correlaciones estadísticas en la redacción superficial de las preguntas de la prueba para adivinar las respuestas correctas, sin comprender necesariamente la pregunta real que se está haciendo. ^[104]

Algunos conjuntos de datos se han construido de forma adversaria, centrándose en problemas particulares en los que los modelos de lenguaje existentes parecen tener un rendimiento inusualmente pobre en comparación con los humanos. Un ejemplo es el conjunto de datos TruthfulQA, un conjunto de datos de respuesta a preguntas que consta de 817 preguntas que los modelos de lenguaje son susceptibles de responder incorrectamente al imitar falsedades a las que fueron expuestos repetidamente durante el entrenamiento. Por ejemplo, un LLM puede responder "No" a la pregunta "¿Puedes enseñarle trucos nuevos a un perro viejo?" debido a su exposición al modismo inglés " you can't teach an old dog new tricks" , aunque esto no sea literalmente cierto. ^[123]

Otro ejemplo de un conjunto de datos de evaluación adversarial es Swag y su sucesor, HellaSwag, colecciones de problemas en los que se debe seleccionar una de varias opciones para completar un pasaje de texto. Las finalizaciones incorrectas se generaron mediante el muestreo de un modelo de lenguaje y el filtrado con un conjunto de clasificadores. Los problemas resultantes son triviales para los humanos, pero en el momento en que se crearon los conjuntos de datos, los modelos de lenguaje de última generación tenían poca precisión en ellos. Por ejemplo:

Vemos el cartel de un gimnasio. Luego vemos a un hombre hablando a la cámara y sentado y recostado sobre una pelota de ejercicios. El hombre...
a) demuestra cómo aumentar la eficiencia del trabajo de ejercicio corriendo hacia arriba y hacia abajo sobre pelotas.
b) mueve todos sus brazos y piernas y desarrolla una gran cantidad de músculos.
c) luego juega con la pelota y vemos una demostración gráfica y de cómo podar setos.
d) hace abdominales mientras está sobre la pelota y habla. ^[124]

BERT selecciona b) como la finalización más probable, aunque la respuesta correcta es d). ^[124]

Impacto más amplio

En 2023, Nature Biomedical Engineering escribió que "ya no es posible distinguir con precisión" el texto escrito por humanos del texto creado por grandes modelos de lenguaje, y que "es casi seguro que los grandes modelos de lenguaje de propósito general proliferarán rápidamente... Es una apuesta bastante segura que cambiarán muchas industrias con el tiempo". ^[125] Goldman Sachs sugirió en 2023 que la IA del lenguaje generativo podría aumentar el PIB mundial en un 7% en los próximos diez años y podría exponer a la automatización 300 millones de puestos de trabajo a nivel mundial. ^[126]^[127]

Memorización y derechos de autor

La memorización es un comportamiento emergente en los LLM en los que, ocasionalmente, se extraen largas cadenas de texto textualmente a partir de los datos de entrenamiento, al contrario del comportamiento típico de las redes neuronales artificiales tradicionales. Las evaluaciones de la salida controlada de LLM miden la cantidad memorizada a partir de los datos de entrenamiento (centradas en los modelos de la serie GPT-2) como, por ejemplo, más del 1 % para los duplicados exactos ^[128] o hasta aproximadamente el 7 % ^{[129] .}

Seguridad

Algunos comentaristas expresaron su preocupación por la creación accidental o deliberada de información errónea u otras formas de uso indebido. ^[130] Por ejemplo, la disponibilidad de grandes modelos de lenguaje podría reducir el nivel de habilidad requerido para cometer bioterrorismo; el investigador de bioseguridad Kevin Esvelt ha sugerido que los creadores de LLM deberían excluir de sus datos de capacitación los artículos sobre la creación o mejora de patógenos. ^[131]

Un estudio realizado por investigadores de Google y varias universidades, entre ellas la Universidad de Cornell y la Universidad de California en Berkeley , demostró que existen riesgos potenciales de seguridad en modelos de lenguaje como ChatGPT . En su estudio, examinaron y confirmaron la posibilidad de que los interrogadores pudieran obtener, de ChatGPT, los datos de entrenamiento que utilizó el modelo de IA. Por ejemplo, al pedirle a ChatGPT 3.5 turbo que repita la palabra "poema" para siempre, el modelo de IA dirá "poema" cientos de veces y luego divergirá, desviándose del estilo de diálogo estándar y escupiendo frases sin sentido, escupiendo así los datos de entrenamiento tal como están. Los investigadores han visto más de 10.000 ejemplos del modelo de IA exponiendo sus datos de entrenamiento en un método similar. Los investigadores dijeron que era difícil saber si el modelo de IA era realmente seguro o no. ^[132]

La posible presencia de "agentes durmientes" dentro de los modelos LLM es otro problema de seguridad emergente. Se trata de funcionalidades ocultas integradas en el modelo que permanecen latentes hasta que se activan por un evento o condición específicos. Al activarse, el LLM se desvía de su comportamiento esperado y realiza acciones inseguras. ^[133]

Las aplicaciones de modelos de lenguaje extensos (LLM) accesibles al público, como ChatGPT o Claude, suelen incorporar medidas de seguridad diseñadas para filtrar contenido dañino. Sin embargo, implementar estos controles de manera efectiva ha demostrado ser un desafío. Por ejemplo, la investigación de Kang et al. ^[134] demostró un método para eludir los sistemas de seguridad de LLM. De manera similar, Wang ^[135] ilustró cómo un posible delincuente podría eludir los controles de seguridad de ChatGPT 4o para obtener información sobre el establecimiento de una operación de tráfico de drogas.

Sesgo algorítmico

Si bien los modelos de lenguaje de programación han demostrado capacidades notables para generar textos similares a los humanos, son susceptibles de heredar y amplificar los sesgos presentes en sus datos de entrenamiento. Esto puede manifestarse en representaciones sesgadas o en un tratamiento injusto de diferentes grupos demográficos, como los basados en la raza, el género, el idioma y los grupos culturales. ^[136] Dado que los datos en inglés están sobrerrepresentados en los datos de entrenamiento de los modelos de lenguaje actuales, esto también puede restar importancia a las opiniones en otros idiomas. ^[137]

Estereotipos

Los modelos de IA pueden reforzar una amplia gama de estereotipos, incluidos los basados en el género, la etnia, la edad, la nacionalidad, la religión o la ocupación. Esto puede dar lugar a resultados que generalicen o caricaturen injustamente a grupos de personas, a veces de forma dañina o despectiva. ^[138]

En particular, el sesgo de género se refiere a la tendencia de estos modelos a producir resultados que están injustamente prejuiciosos hacia un género en lugar de otro. Este sesgo surge típicamente de los datos con los que se entrenan estos modelos. Los modelos de lenguaje grandes a menudo asignan roles y características basados en normas de género tradicionales. ^[136] Por ejemplo, podría asociar a enfermeras o secretarias predominantemente con mujeres e ingenieros o directores ejecutivos con hombres. ^[139]

Sesgo político

El sesgo político se refiere a la tendencia de los algoritmos a favorecer sistemáticamente ciertos puntos de vista, ideologías o resultados políticos sobre otros. Los modelos lingüísticos también pueden presentar sesgos políticos. Dado que los datos de entrenamiento incluyen una amplia gama de opiniones y coberturas políticas, los modelos pueden generar respuestas que se inclinen hacia ideologías o puntos de vista políticos particulares, dependiendo de la prevalencia de esos puntos de vista en los datos. ^[140]

Lista

Para la columna de costo de entrenamiento, 1 petaFLOP-día = 1 petaFLOP/s × 1 día = 8,64E19 FLOP. Además, solo se escribe el costo del modelo más grande.

Véase también

Modelos de fundación

Notas

^ Esta es la fecha en que se publicó por primera vez la documentación que describe la arquitectura del modelo.
^ En muchos casos, los investigadores publican o informan sobre varias versiones de un modelo que tienen distintos tamaños. En estos casos, aquí se indica el tamaño del modelo más grande.
^ Esta es la licencia de los pesos del modelo entrenado previamente. En casi todos los casos, el código de entrenamiento en sí es de código abierto o se puede replicar fácilmente.
^ Los modelos más pequeños, incluido el 66B, están disponibles públicamente, mientras que el modelo 175B está disponible a pedido.
^ El esquema de licencia y distribución de Facebook restringió el acceso a investigadores aprobados, pero los pesos del modelo se filtraron y se hicieron ampliamente disponibles.
^ Como se indica en el informe técnico: "Teniendo en cuenta tanto el panorama competitivo como las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, el cómputo de entrenamiento, la construcción del conjunto de datos y el método de entrenamiento..." ^[193]

Referencias

^ "Mejores modelos de lenguaje y sus implicaciones". OpenAI . 14 de febrero de 2019. Archivado desde el original el 19 de diciembre de 2020. Consultado el 25 de agosto de 2019 .
^ abc Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (diciembre de 2020). Lin, H. (eds.). "Los modelos de lenguaje son aprendices de pocas oportunidades" (PDF) . Avances en sistemas de procesamiento de información neuronal . 33. Curran Associates, Inc.: 1877–1901. Archivado (PDF) desde el original el 17 de noviembre de 2023. Consultado el 14 de marzo de 2023 .
^ Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (26 de mayo de 2024). NeOn-GPT: una gran cadena de procesos basada en modelos de lenguaje para el aprendizaje de ontologías (PDF) . Conferencia sobre Web Semántica Extendida 2024. Hersonissos, Grecia.
^ ab Manning, Christopher D. (2022). "Comprensión y razonamiento del lenguaje humano". Daedalus . 151 (2): 127–138. doi : 10.1162/daed_a_01905 . S2CID 248377870. Archivado desde el original el 17 de noviembre de 2023 . Consultado el 9 de marzo de 2023 .
^ Goodman, Joshua (9 de agosto de 2001), Un poco de progreso en el modelado del lenguaje , arXiv : cs/0108005 , Bibcode :2001cs........8005G
^ Kilgarriff, Adam; Grefenstette, Gregory (septiembre de 2003). "Introducción al número especial sobre la Web como corpus". Computational Linguistics . 29 (3): 333–347. doi :10.1162/089120103322711569. ISSN 0891-2017.
^ Banko, Michele; Brill, Eric (2001). "Escalamiento a corpus muy grandes para la desambiguación del lenguaje natural". Actas de la 39.ª Reunión Anual de la Asociación de Lingüística Computacional - ACL '01 . Morristown, NJ, EE. UU.: Asociación de Lingüística Computacional: 26–33. doi :10.3115/1073012.1073017.
^ Resnik, Philip; Smith, Noah A. (septiembre de 2003). "La Web como un corpus paralelo". Computational Linguistics . 29 (3): 349–380. doi : 10.1162/089120103322711578 . ISSN 0891-2017. Archivado desde el original el 2024-06-07 . Consultado el 2024-06-07 .
^ Halevy, Alon; Norvig, Peter; Pereira, Fernando (marzo de 2009). "La efectividad irrazonable de los datos". IEEE Intelligent Systems . 24 (2): 8–12. doi :10.1109/MIS.2009.36. ISSN 1541-1672.
^ Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N ; Kaiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesitas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates, Inc. Archivado (PDF) del original el 2024-02-21 . Consultado el 2024-01-21 .
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alineación y traducción". arXiv : 1409.0473 [cs.CL].
^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "Una introducción a BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics . 8 : 842–866. arXiv : 2002.12327 . doi :10.1162/tacl_a_00349. S2CID 211532403. Archivado desde el original el 2022-04-03 . Consultado el 2024-01-21 .
^ Hern, Alex (14 de febrero de 2019). «El nuevo generador de texto falso creado con inteligencia artificial puede ser demasiado peligroso para publicarse, dicen los creadores». The Guardian . Archivado desde el original el 14 de febrero de 2019. Consultado el 20 de enero de 2024 .
^ "ChatGPT un año después: 3 formas en las que el chatbot de IA ha cambiado por completo el mundo en 12 meses". Euronews . 30 de noviembre de 2023. Archivado desde el original el 14 de enero de 2024 . Consultado el 20 de enero de 2024 .
^ Heaven, Will (14 de marzo de 2023). «GPT-4 es más grande y mejor que ChatGPT, pero OpenAI no dice por qué». MIT Technology Review . Archivado desde el original el 17 de marzo de 2023. Consultado el 20 de enero de 2024 .
^ "Parámetros en sistemas de inteligencia artificial notables". ourworldindata.org . 30 de noviembre de 2023 . Consultado el 20 de enero de 2024 .
^ "Tabla de clasificación de LMSYS Chatbot Arena". huggingface.co . Archivado desde el original el 10 de junio de 2024 . Consultado el 12 de junio de 2024 .
^ Peng, Bo; et al. (2023). "RWKV: Reinventando RNNS para la era de los transformadores". arXiv : 2305.13048 [cs.CL].
^ Merritt, Rick (25 de marzo de 2022). "¿Qué es un modelo de transformador?". Blog de NVIDIA . Archivado desde el original el 17 de noviembre de 2023. Consultado el 25 de julio de 2023 .
^ Gu, Albert; Dao, Tri (1 de diciembre de 2023), Mamba: modelado de secuencias de tiempo lineal con espacios de estados selectivos , arXiv : 2312.00752
^ Kaushal, Ayush; Mahowald, Kyle (6 de junio de 2022), ¿Qué saben los tokens sobre sus personajes y cómo lo saben?, arXiv : 2206.02608 , consultado el 8 de septiembre de 2024
^ Yennie Jun (3 de mayo de 2023). "No todos los idiomas son creados (tokenizados) de la misma manera". Los modelos de lenguaje cuestan mucho más en algunos idiomas que en otros . Archivado desde el original el 17 de agosto de 2023. Consultado el 17 de agosto de 2023. En otras palabras, para expresar el mismo sentimiento, algunos idiomas requieren hasta 10 veces más tokens.
^ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel (23 de junio de 2023). «Los tokenizadores de modelos de lenguaje introducen injusticia entre lenguajes». NeurIPS . arXiv : 2305.15425 . Archivado desde el original el 15 de diciembre de 2023 . Consultado el 16 de septiembre de 2023 – vía openreview.net.
^ "API de OpenAI". platform.openai.com . Archivado desde el original el 23 de abril de 2023 . Consultado el 30 de abril de 2023 .
^ ab Paaß, Gerhard; Giesselbach, Sven (2022). "Modelos de lenguaje preentrenados". Modelos básicos para el procesamiento del lenguaje natural . Inteligencia artificial: fundamentos, teoría y algoritmos. págs. 19–78. doi :10.1007/978-3-031-23190-2_2. ISBN 9783031231902Archivado desde el original el 3 de agosto de 2023 . Consultado el 3 de agosto de 2023 .
^ Petrov, Aleksandar; Emanuele La Malfa; Torr, Philip HS; Bibi, Adel (2023). "Los tokenizadores de modelos de lenguaje introducen injusticia entre lenguajes". arXiv : 2305.15425 [cs.CL].
^ Lundberg, Scott (12 de diciembre de 2023). "El arte del diseño de avisos: límites de avisos y curación de tokens". Medium . Consultado el 5 de agosto de 2024 .
^ Dodge, Jesse; Sap, Maarten; Marasović, Ana; Agnew, William; Ilharco, Gabriel; Groeneveld, Dirk; Mitchell, Margaret; Gardner, Matt (2021). "Documentación de grandes corpus de texto web: un estudio de caso sobre el colosal corpus de rastreo limpio". arXiv : 2104.08758 [cs.CL].
^ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas (mayo de 2022). "La deduplicación de datos de entrenamiento mejora los modelos lingüísticos" (PDF) . Actas de la 60.ª reunión anual de la Asociación de Lingüística Computacional . 1: Documentos extensos: 8424–8445. doi :10.18653/v1/2022.acl-long.577.
^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (11 de septiembre de 2023), Los libros de texto son todo lo que necesita II: informe técnico de phi-1.5 , arXiv : 2309.05463
^ Lin, Zhenghao; Gou, Zhibin; Gong, Yeyun; Liu, Xiao; Shen, Yelong; Xu, Ruochen; Lin, Chen; Yang, Yujiu; Jiao, Jian (11 de abril de 2024). "Rho-1: No todos los tokens son lo que necesita". arXiv : 2404.07965 [cs.CL].
^ Brown, Tom B.; et al. (2020). "Los modelos lingüísticos son aprendices de pocas oportunidades". arXiv : 2005.14165 [cs.CL].
^ Abdin, Mara; Jacobs, Sam Ade; Awan, Ammar Ahmad; Aneja, Jyoti; Awadallah, Ahmed; Awadalla, Hany; Bach, Nguyen; Bahree, Amit; Bakhtiari, Arash (23 de abril de 2024). "Informe técnico de Phi-3: un modelo de lenguaje de gran capacidad localmente en su teléfono". arXiv : 2404.14219 [cs.CL].
^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (2022). "Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana". arXiv : 2203.02155 [cs.CL].
^ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noah A.; Khashabi, Daniel; Hajishirzi, Hannaneh (2022). "Autoinstrucción: alineación del modelo de lenguaje con instrucciones autogeneradas". arXiv : 2212.10560 [cs.CL].
^ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff (1 de enero de 2017). "Redes neuronales escandalosamente grandes: la capa de mezcla de expertos escasamente controlada". arXiv : 1701.06538 [cs.LG].
^ Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng (12 de enero de 2021). "GShard: Escalado de modelos gigantes con computación condicional y fragmentación automática". arXiv : 2006.16668 [cs.CL].
^ abcd Dai, Andrew M; Du, Nan (9 de diciembre de 2021). "Aprendizaje en contexto más eficiente con GLaM". ai.googleblog.com . Archivado desde el original el 2023-03-12 . Consultado el 2023-03-09 .
^ abc Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (31 de agosto de 2022). «Habilidades emergentes de modelos de lenguaje grandes». Transactions on Machine Learning Research . ISSN 2835-8856. Archivado desde el original el 22 de marzo de 2023. Consultado el 19 de marzo de 2023 .
^ Allamar, Jay. «Transformador ilustrado». Archivado desde el original el 25 de julio de 2023. Consultado el 29 de julio de 2023 .
^ Allamar, Jay. "El GPT-2 ilustrado (Visualización de modelos de lenguaje transformador)" . Consultado el 1 de agosto de 2023 .
^ "Nuestro modelo de próxima generación: Gemini 1.5". Google . 15 de febrero de 2024. Archivado desde el original el 18 de febrero de 2024 . Consultado el 18 de febrero de 2024 .
^ "Largo contexto que incita a Claude 2.1". 6 de diciembre de 2023. Archivado desde el original el 27 de agosto de 2024. Consultado el 20 de enero de 2024 .
^ "Límites de velocidad". openai.com . Archivado desde el original el 2 de febrero de 2024 . Consultado el 20 de enero de 2024 .
^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 de febrero de 2020). "Una breve encuesta sobre modelos de lenguaje preentrenados para IA conversacional: una nueva era en el procesamiento del lenguaje natural". Actas de la multiconferencia de la Semana de la informática de Australasia . págs. 1–4. arXiv : 2104.10810 . doi :10.1145/3373017.3373028. ISBN . 9781450376976.S2CID211040895 .
^ abc Jurafsky, Dan; Martin, James H. (7 de enero de 2023). Speech and Language Processing (PDF) (3.ª edición, borrador). Archivado (PDF) del original el 23 de marzo de 2023. Consultado el 24 de mayo de 2022 .
^ "De bare metal a un modelo 70B: configuración de infraestructura y scripts". imbue.com . Archivado desde el original el 2024-07-26 . Consultado el 2024-07-24 .
^ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq". GitHub . Archivado desde el original el 24 de enero de 2024 . Consultado el 24 de julio de 2024 .
^ Albrecht, Josh (23 de julio de 2024). "Estado del arte: capacitación de más de 70 mil millones de LLM en 10 000 clústeres H100". www.latent.space . Consultado el 24 de julio de 2024 .
^ ab Wiggers, Kyle (28 de abril de 2022). "Los tipos emergentes de modelos de lenguaje y por qué son importantes". TechCrunch . Archivado desde el original el 16 de marzo de 2023 . Consultado el 9 de marzo de 2023 .
^ Sharir, Or; Peleg, Barak; Shoham, Yoav (2020). "El costo de entrenar modelos de PNL: una descripción general concisa". arXiv : 2004.08900 [cs.CL].
^ Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (abril de 2023). "Pythia: una suite para analizar modelos de lenguaje grandes en el proceso de entrenamiento y escalado". arXiv : 2304.01373 [cs.CL].
^ Maslej, Néstor; Fattorini, Loredana; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyon, Taré; Manyika, James; Ngo, Helen; Niebles, Juan Carlos (05-10-2023), Informe del Índice de Inteligencia Artificial 2023 , arXiv : 2310.03715
^ ab Sección 2.1 y Tabla 1, Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Leyes de escala para modelos de lenguaje neuronal". arXiv : 2001.08361 [cs.LG].
^ Gao, Luyu; Madaán, Amán; Zhou, Shuyan; Alón, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (1 de noviembre de 2022). "PAL: modelos de lenguaje asistidos por programas". arXiv : 2211.10435 [cs.CL].
^ "PAL: modelos de lenguaje asistidos por programas". reasonwithpal.com . Archivado desde el original el 2023-06-12 . Consultado el 2023-06-12 .
^ Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (1 de marzo de 2023). "ART: razonamiento automático de múltiples pasos y uso de herramientas para modelos de lenguaje grandes". arXiv : 2303.09014 [cs.CL].
^ Liang, Yaobo; Wu, Chenfei; Canción, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (1 de marzo de 2023). "TaskMatrix.AI: completar tareas conectando modelos básicos con millones de API". arXiv : 2303.16434 [cs.AI].
^ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (1 de mayo de 2023). "Gorilla: un gran modelo de lenguaje conectado con API masivas". arXiv : 2305.15334 [cs.CL].
^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). "Generación aumentada por recuperación para tareas de PNL intensivas en conocimiento". Avances en sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 9459–9474. arXiv : 2005.11401 . Archivado desde el original el 2023-06-12 . Consultado el 2023-06-12 .
^ Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (28 de junio de 2022). "Modelos de lenguaje como planificadores de disparo cero: extracción de conocimiento procesable para agentes encarnados". Actas de la 39.ª Conferencia internacional sobre aprendizaje automático . PMLR: 9118–9147. arXiv : 2201.07207 .
^ Yao, Shunyu; Zhao, Jeffrey; Yu, Dian; Du, Nan; Shafran, Izhak; Narasimhan, Karthik; Cao, Yuan (1 de octubre de 2022). "ReAct: sinergización del razonamiento y la actuación en modelos lingüísticos". arXiv : 2210.03629 [cs.CL].
^ Wu, Yue; Prabhumoye, Shrimai; Min, So Yeon (24 de mayo de 2023). "SPRING: GPT-4 supera a los algoritmos RL mediante el estudio de artículos y el razonamiento". arXiv : 2305.15486 [cs.AI].
^ Wang, Zihao; Cai, Shaofei; Liu, Anji; Ma, Xiaojian; Liang, Yitao (3 de febrero de 2023). "Describir, explicar, planificar y seleccionar: la planificación interactiva con modelos de lenguaje grandes permite agentes multitarea de mundo abierto". arXiv : 2302.01560 [cs.AI].
^ Shinn, Noah; Cassano, Federico; Labash, Beck; Gopinath, Ashwin; Narasimhan, Karthik; Yao, Shunyu (1 de marzo de 2023). "Reflexión: agentes del lenguaje con aprendizaje de refuerzo verbal". arXiv : 2303.11366 [cs.AI].
^ Hao, Shibo; Gu, Yi; Mamá, Haodi; Jiahua Hong, Josué; Wang, Zhen; Zhe Wang, Margarita; Hu, Zhiting (1 de mayo de 2023). "Razonar con el modelo del lenguaje es planificar con el modelo del mundo". arXiv : 2305.14992 [cs.CL].
^ Zhang, Jenny; Lehman, Joel; Stanley, Kenneth; Clune, Jeff (2 de junio de 2023). "OMNI: Apertura a través de modelos de nociones humanas de interés". arXiv : 2306.01711 [cs.AI].
^ ab "Voyager | Un agente corpóreo abierto con grandes modelos de lenguaje". voyager.minedojo.org . Archivado desde el original el 2023-06-08 . Consultado el 2023-06-09 .
^ Park, Joon Sung; O'Brien, Joseph C.; Cai, Carrie J.; Ringel Morris, Meredith; Liang, Percy; Bernstein, Michael S. (1 de abril de 2023). "Agentes generativos: simulacros interactivos del comportamiento humano". arXiv : 2304.03442 [cs.HC].
^ Mann, Tobias. "Cómo ejecutar un LLM localmente en su PC en menos de 10 minutos". www.theregister.com . Consultado el 17 de mayo de 2024 .
^ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (21 de noviembre de 2020). "¿Arriba o abajo? Redondeo adaptativo para cuantificación posterior al entrenamiento". Actas de la 37.ª Conferencia internacional sobre aprendizaje automático . PMLR: 7197–7206. Archivado desde el original el 14 de junio de 2023. Consultado el 14 de junio de 2023 .
^ Polino, Antonio; Pascanu, Razvan; Alistarh, Dan (1 de febrero de 2018). "Compresión de modelos mediante destilación y cuantificación". arXiv : 1802.05668 [cs.NE].
^ Frantar, Elias; Ashkboos, Saleh; Hoefler, Torsten; Alistarh, Dan (1 de octubre de 2022). "GPTQ: cuantificación precisa posterior al entrenamiento para transformadores generativos preentrenados". arXiv : 2210.17323 [cs.LG].
^ Dettmers, Tim; Svirschevski, Ruslan; Egiazarian, Vage; Kuznedelev, Denis; Frantar, Elias; Ashkboos, Saleh; Borzunov, Alexander; Hoefler, Torsten; Alistarh, Dan (1 de junio de 2023). "SpQR: una representación de cuantificación dispersa para la compresión de peso LLM casi sin pérdidas". arXiv : 2306.03078 [cs.CL].
^ Grootendorst, Maarten. "Una guía visual para la cuantificación". newsletter.maartengrootendorst.com . Archivado desde el original el 31 de julio de 2024 . Consultado el 31 de julio de 2024 .
^ Dettmers, Tim; Pagnoni, Artidoro; Holtzman, Ari ; Zettlemoyer, Luke (1 de mayo de 2023). "QLoRA: ajuste eficiente de LLM cuantificados". arXiv : 2305.14314 [cs.LG].
^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (18 de junio de 2014). "Modelos de lenguaje neuronal multimodal". Actas de la 31.ª Conferencia internacional sobre aprendizaje automático . PMLR: 595–603. Archivado desde el original el 2 de julio de 2023. Consultado el 2 de julio de 2023 .
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "Clasificación ImageNet con redes neuronales convolucionales profundas". Avances en sistemas de procesamiento de información neuronal . 25. Curran Associates, Inc. Archivado desde el original el 2023-07-02 . Consultado el 2023-07-02 .
^ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV : 2425–2433. Archivado desde el original el 2023-07-02 . Consultado el 2023-07-02 .
^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven (1 de enero de 2023). "BLIP-2: Arranque del preentrenamiento de lenguaje-imagen con codificadores de imágenes congeladas y modelos de lenguaje grandes". arXiv : 2301.12597 [cs.CV].
^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (6 de diciembre de 2022). «Flamingo: un modelo de lenguaje visual para el aprendizaje de pocos intentos». Avances en sistemas de procesamiento de información neuronal . 35 : 23716–23736. arXiv : 2204.14198 . Archivado desde el original el 2 de julio de 2023. Consultado el 2 de julio de 2023 .
^ Seco, Danny; Xia, Fei; Sajjadi, Mehdi SM; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Thompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (1 de marzo de 2023). "PaLM-E: un modelo de lenguaje multimodal incorporado". arXiv : 2303.03378 [cs.LG].
^ Liu, haotiano; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (1 de abril de 2023). "Ajuste de instrucciones visuales". arXiv : 2304.08485 [cs.CV].
^ Zhang, Hang; Li, Xin; Bing, Lidong (1 de junio de 2023). "Video-LLaMA: un modelo de lenguaje audiovisual adaptado a las instrucciones para la comprensión de videos". arXiv : 2306.02858 [cs.CL].
^ OpenAI (27 de marzo de 2023). «Informe técnico de GPT-4». arXiv : 2303.08774 [cs.CL].
^ OpenAI (25 de septiembre de 2023). "Tarjeta del sistema GPT-4V(ision)" (PDF) .
^ Pichai, Sundar (10 de mayo de 2023), Google Keynote (Google I/O '23), marca de tiempo 15:31 , consultado el 2 de julio de 2023
^ Wiggers, Kyle (11 de septiembre de 2024). «Mistral lanza Pixtral 12B, su primer modelo multimodal». TechCrunch . Consultado el 14 de septiembre de 2024 .
^ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29 de marzo de 2022). "Entrenamiento de modelos de lenguaje grandes con optimización computacional". arXiv : 2203.15556 [cs.CL].
^ ab Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escala neuronal infringidas". arXiv : 2210.14891 [cs.LG].
^ "137 habilidades emergentes de grandes modelos lingüísticos". Jason Wei . Consultado el 24 de junio de 2023 .
^ Bowman, Samuel R. (2023). "Ocho cosas que hay que saber sobre los modelos de lenguaje de gran tamaño". arXiv : 2304.00612 [cs.CL].
^ Hahn, Michael; Goyal, Navin (14 de marzo de 2023). "Una teoría del aprendizaje emergente en contexto como inducción de estructura implícita". arXiv : 2303.07971 [cs.LG].
^ Pilehvar, Mohammad Taher; Camacho-Collados, Jose (junio de 2019). "Actas de la Conferencia del Norte de 2019". Actas de la Conferencia de 2019 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano, Volumen 1 (Artículos largos y cortos) . Minneapolis, Minnesota: Asociación de Lingüística Computacional: 1267–1273. doi :10.18653/v1/N19-1128. S2CID 102353817. Archivado desde el original el 27 de junio de 2023. Consultado el 27 de junio de 2023 .
^ "WiC: El conjunto de datos de palabras en contexto". pilehvar.github.io . Archivado desde el original el 2023-06-27 . Consultado el 2023-06-27 .
^ Patel, Roma; Pavlick, Ellie (6 de octubre de 2021). "Mapeo de modelos lingüísticos con espacios conceptuales fundamentados". ICLR . Archivado desde el original el 24 de junio de 2023 . Consultado el 27 de junio de 2023 .
^ Una mirada más cercana a los grandes modelos lingüísticos Habilidades emergentes Archivado el 24 de junio de 2023 en Wayback Machine. (Yao Fu, 20 de noviembre de 2022)
^ Ornes, Stephen (16 de marzo de 2023). «Las habilidades impredecibles que surgen de los grandes modelos de IA». Revista Quanta . Archivado desde el original el 16 de marzo de 2023. Consultado el 16 de marzo de 2023 .
^ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (1 de abril de 2023). "¿Son las capacidades emergentes de los grandes modelos lingüísticos un espejismo?". arXiv : 2304.15004 [cs.AI].
^ Li, Kenneth; Hopkins, Aspen K.; Bau, David; Viégas, Fernanda; Pfister, Hanspeter; Wattenberg, Martin (1 de octubre de 2022). "Representaciones del mundo emergente: exploración de un modelo de secuencia entrenado en una tarea sintética". arXiv : 2210.13382 [cs.LG].
^ "Modelo de lenguaje a gran escala: ¿modelos mundiales o estadísticas de superficie?". The Gradient . 2023-01-21 . Consultado el 2023-06-12 .
^ Jin, Charles; Rinard, Martin (1 de mayo de 2023). "Evidencia de significado en modelos de lenguaje entrenados en programas". arXiv : 2305.11169 [cs.LG].
^ Nanda, Neel; Chan, Lawrence; Lieberum, Tom; Smith, Jess; Steinhardt, Jacob (1 de enero de 2023). "Medidas de progreso para la comprensión a través de la interpretabilidad mecanicista". arXiv : 2301.05217 [cs.LG].
^ abcde Mitchell, Melanie; Krakauer, David C. (28 de marzo de 2023). "El debate sobre la comprensión en los grandes modelos de lenguaje de la IA". Actas de la Academia Nacional de Ciencias . 120 (13): e2215907120. arXiv : 2210.13966 . Bibcode :2023PNAS..12015907M. doi :10.1073/pnas.2215907120. PMC 10068812. PMID 36943882 .
^ Metz, Cade (16 de mayo de 2023). "Microsoft dice que la nueva IA muestra signos de razonamiento humano". The New York Times .
^ ab Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023). "Chispas de inteligencia artificial general: primeros experimentos con GPT-4". arXiv : 2303.12712 [cs.CL].
^ "ChatGPT se parece más a una 'inteligencia alienígena' que a un cerebro humano, dice un futurista". ZDNET . 2023. Archivado desde el original el 12 de junio de 2023 . Consultado el 12 de junio de 2023 .
^ ab Newport, Cal (13 de abril de 2023). "¿Qué tipo de mente tiene ChatGPT?". The New Yorker . Archivado desde el original el 12 de junio de 2023. Consultado el 12 de junio de 2023 .
^ Roose, Kevin (30 de mayo de 2023). «Por qué una criatura parecida a un pulpo ha llegado a simbolizar el estado de la IA» The New York Times . Archivado desde el original el 30 de mayo de 2023. Consultado el 12 de junio de 2023 .
^ "La A a la Z de la inteligencia artificial". Revista Time . 13 de abril de 2023. Archivado desde el original el 16 de junio de 2023. Consultado el 12 de junio de 2023 .
^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (noviembre de 2022). "Encuesta sobre alucinaciones en la generación de lenguaje natural" (pdf) . Encuestas de computación de la ACM . 55 (12). Association for Computing Machinery : 1–38. arXiv : 2202.03629 . doi :10.1145/3571730. S2CID 246652372. Archivado desde el original el 26 de marzo de 2023. Consultado el 15 de enero de 2023 .
^ Varshney, Neeraj; Yao, Wenlin; Zhang, Hongming; Chen, Jianshu; Yu, Dong (2023). "Una puntada a tiempo ahorra nueve: detección y mitigación de alucinaciones de LLM mediante la validación de la generación de baja confianza". arXiv : 2307.03987 [cs.CL].
^ Lakoff, George (1999). La filosofía en la carne: la mente encarnada y su desafío a la filosofía occidental; Apéndice: El paradigma de la teoría neuronal del lenguaje . Nueva York Basic Books. págs. 569–583. ISBN 978-0-465-05674-3.
^ Evans, Vyvyan. (2014). El mito del lenguaje . Cambridge University Press. ISBN 978-1-107-04396-1.
^ Friston, Karl J. (2022). Inferencia activa: el principio de energía libre en la mente, el cerebro y el comportamiento; Capítulo 4 Los modelos generativos de inferencia activa . The MIT Press. ISBN 978-0-262-36997-8.
^ ab Huyen, Chip (18 de octubre de 2019). «Métricas de evaluación para el modelado del lenguaje». The Gradient . Consultado el 14 de enero de 2024 .
^ ab Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (2019). "BoolQ: Explorando la sorprendente dificultad de las preguntas naturales de sí/no". arXiv : 1905.10044 [cs.CL].
^ a B C Wayne Xin Zhao; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen; Zhang, Junjie; Dong, Zican; Du, Yifan; Yang, Chen; Chen, Yushuo; Chen, Zhipeng; Jiang, Jinhao; Ren, Ruiyang; Li, Yifan; Tang, Xinyu; Liu, Zikang; Liu, Peiyu; Nie, Jian-Yun; Wen, Ji-Rong (2023). "Una encuesta de modelos de lenguaje grandes". arXiv : 2303.18223 [cs.CL].
^ openai/simple-evals, OpenAI, 28 de mayo de 2024 , consultado el 28 de mayo de 2024
^ openai/evals, OpenAI, 2024-05-28, archivado desde el original el 2024-05-08 , consultado el 2024-05-28
^ "Conjuntos de datos de código abierto saneados para la comprensión del lenguaje natural y del código: cómo evaluamos nuestro modelo 70B". imbue.com . Archivado desde el original el 2024-07-26 . Consultado el 2024-07-24 .
^ Srivastava, Aarohi; et al. (2022). "Más allá del juego de la imitación: cuantificación y extrapolación de las capacidades de los modelos lingüísticos". arXiv : 2206.04615 [cs.CL].
^ Lin, Stephanie; Hilton, Jacob; Evans, Owain (2021). "TruthfulQA: medición de cómo los modelos imitan las falsedades humanas". arXiv : 2109.07958 [cs.CL].
^ ab Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (2019). "HellaSwag: ¿Puede una máquina realmente terminar tu frase?". arXiv : 1905.07830 [cs.CL].
^ "Prepararse para modelos de lenguaje grandes verdaderamente útiles". Nature Biomedical Engineering . 7 (2): 85–86. 7 de marzo de 2023. doi :10.1038/s41551-023-01012-6. PMID 36882584. S2CID 257403466.
^ "Su trabajo está (probablemente) a salvo de la inteligencia artificial". The Economist . 7 de mayo de 2023. Archivado desde el original el 17 de junio de 2023 . Consultado el 18 de junio de 2023 .
^ "La IA generativa podría aumentar el PIB mundial en un 7%". Goldman Sachs . Archivado desde el original el 18 de junio de 2023 . Consultado el 18 de junio de 2023 .
^ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13 de junio de 2023). "Búsqueda de secuencias casi duplicadas a escala para la evaluación de la memorización de modelos de lenguaje de gran tamaño" (PDF) . Actas de la ACM sobre gestión de datos . 1 (2): 1–18. doi :10.1145/3589324. S2CID 259213212. Archivado (PDF) desde el original el 27 de agosto de 2024 . Consultado el 20 de enero de 2024 .Citando a Lee et al 2022.
^ Peng, Wang y Deng 2023, pág. 8.
^ Alba, Davey (1 de mayo de 2023). «Los chatbots de IA se han utilizado para crear docenas de granjas de contenido de noticias». The Japan Times . Consultado el 18 de junio de 2023 .
^ "¿Podrían los chatbots ayudar a diseñar el próximo virus pandémico?". Science . 14 de junio de 2023. doi :10.1126/science.adj2463. Archivado desde el original el 18 de junio de 2023 . Consultado el 18 de junio de 2023 .
^ Stephen Council (1 de diciembre de 2023). "Cómo los empleados de Google descifraron el modelo tecnológico de un rival de San Francisco con una sola palabra". SFGATE. Archivado desde el original el 16 de diciembre de 2023.
^ Hubinger, Evan (10 de enero de 2024). "Agentes durmientes: formación de LLM engañosos que persisten durante el entrenamiento de seguridad". arXiv : 2401.05566 [cs.CR].
^ Kang, Daniel (2023). "Explotación del comportamiento programático de los LLM: uso dual mediante ataques de seguridad estándar". arXiv : 2302.05733 [cs.CR].
^ Wang, Yongge (20 de junio de 2024). "Canal encubierto basado en cifrado para modelos de lenguaje grandes" (PDF) . IACR ePrint 2024/586. Archivado (PDF) desde el original el 24 de junio de 2024. Consultado el 24 de junio de 2024 .
^ ab Stokel-Walker, Chris (22 de noviembre de 2023). "ChatGPT replica el sesgo de género en las cartas de recomendación". Scientific American . Archivado desde el original el 29 de diciembre de 2023. Consultado el 29 de diciembre de 2023 .
^ Luo, Queenie; Puett, Michael J.; Smith, Michael D. (28 de marzo de 2023). "Un espejo de perspectiva del elefante: investigación del sesgo lingüístico en Google, ChatGPT, Wikipedia y YouTube". arXiv : 2303.16281v2 [cs.CY].
^ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (2023-05-29), Personas marcadas: uso de indicaciones del lenguaje natural para medir estereotipos en modelos de lenguaje , arXiv : 2305.18189
^ Kotek, Hadas; Dockum, Rikker; Sun, David (5 de noviembre de 2023). "Sesgo de género y estereotipos en modelos de lenguaje de gran tamaño". Actas de la Conferencia de Inteligencia Colectiva de la ACM . CI '23. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 12–24. doi :10.1145/3582269.3615599. ISBN 979-8-4007-0113-9.
^ Heikkilä, Melissa (7 de agosto de 2023). "Los modelos de lenguaje de IA están plagados de diferentes sesgos políticos". MIT Technology Review . Consultado el 29 de diciembre de 2023 .
^ "Mejorar la comprensión del lenguaje con aprendizaje no supervisado". openai.com . 11 de junio de 2018. Archivado desde el original el 2023-03-18 . Consultado el 2023-03-18 .
^ "finetune-transformer-lm". GitHub . Archivado desde el original el 19 de mayo de 2023 . Consultado el 2 de enero de 2024 .
^ ab Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de octubre de 2018). "BERT: preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805v2 [cs.CL].
^ Prickett, Nicole Hemsoth (24 de agosto de 2021). "Cerebras cambia la arquitectura para cumplir con los modelos masivos de IA y ML". The Next Platform . Archivado desde el original el 20 de junio de 2023. Consultado el 20 de junio de 2023 .
^ "BERT". 13 de marzo de 2023. Archivado desde el original el 13 de enero de 2021. Consultado el 13 de marzo de 2023 – vía GitHub.
^ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constante, Noé; Raffel, Colin; Callison-Burch, Chris (2022). "Los modelos de lenguaje bidireccional también son estudiantes con pocas posibilidades". arXiv : 2209.14500 [cs.LG].
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de octubre de 2018). "BERT: preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805v2 [cs.CL].
^ ab Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". Revista de investigación en aprendizaje automático . 21 (140): 1–67. arXiv : 1910.10683 . ISSN 1533-7928.
^ google-research/text-to-text-transfer-transformer, Google Research, 2 de abril de 2024, archivado desde el original el 29 de marzo de 2024 , consultado el 4 de abril de 2024
^ "Imagen: modelos de difusión de texto a imagen". imagen.research.google . Archivado desde el original el 2024-03-27 . Consultado el 2024-04-04 .
^ "Modelos preentrenados: documentación de transformers 2.0.0". huggingface.co . Archivado desde el original el 2024-08-05 . Consultado el 2024-08-05 .
^ "xlnet". GitHub . Archivado desde el original el 2 de enero de 2024 . Consultado el 2 de enero de 2024 .
^ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 de enero de 2020). "XLNet: preentrenamiento autorregresivo generalizado para la comprensión del lenguaje". arXiv : 1906.08237 [cs.CL].
^ "GPT-2: versión 1.5B". OpenAI . 5 de noviembre de 2019. Archivado desde el original el 14 de noviembre de 2019. Consultado el 14 de noviembre de 2019 .
^ "Mejores modelos de lenguaje y sus implicaciones". openai.com . Archivado desde el original el 2023-03-16 . Consultado el 2023-03-13 .
^ ab "Modelo de lenguaje GPT-3 de OpenAI: una descripción técnica". lambdalabs.com . 3 de junio de 2020. Archivado desde el original el 27 de marzo de 2023 . Consultado el 13 de marzo de 2023 .
^ ab "openai-community/gpt2-xl · Hugging Face". huggingface.co . Archivado desde el original el 2024-07-24 . Consultado el 2024-07-24 .
^ "gpt-2". GitHub . Archivado desde el original el 11 de marzo de 2023 . Consultado el 13 de marzo de 2023 .
^ Tabla D.1 en Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (28 de mayo de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". arXiv : 2005.14165v4 [cs.CL].
^ "ChatGPT: Optimización de modelos de lenguaje para el diálogo". OpenAI . 2022-11-30. Archivado desde el original el 2022-11-30 . Consultado el 2023-01-13 .
^ "GPT Neo". 15 de marzo de 2023. Archivado desde el original el 12 de marzo de 2023. Consultado el 12 de marzo de 2023 – vía GitHub.
^ abc Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 de diciembre de 2020). "The Pile: Un conjunto de datos de 800 GB de texto diverso para modelado de lenguaje". arXiv : 2101.00027 [cs.CL].
^ ab Iyer, Abhishek (15 de mayo de 2021). «La alternativa gratuita de GPT-3, GPT-Neo, es algo que nos entusiasma». VentureBeat . Archivado desde el original el 9 de marzo de 2023 . Consultado el 13 de marzo de 2023 .
^ "GPT-J-6B: Introducción al modelo GPT de código abierto más grande | Forefront". www.forefront.ai . Archivado desde el original el 2023-03-09 . Consultado el 2023-02-28 .
^ abcd Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; Hestness, Joel (1 de abril de 2023). "Cerebras-GPT: modelos de lenguaje Open Compute-Optimal entrenados en el clúster de escala de oblea de Cerebras". arXiv : 2304.03208 [cs.LG].
^ Alvi, Ali; Kharya, Paresh (11 de octubre de 2021). «Uso de DeepSpeed y Megatron para entrenar Megatron-Turing NLG 530B, el modelo de lenguaje generativo más grande y poderoso del mundo». Microsoft Research . Archivado desde el original el 13 de marzo de 2023. Consultado el 13 de marzo de 2023 .
^ ab Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patricio; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Srimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Niño, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Canción, Xia (4 de febrero de 2022). "Uso de DeepSpeed y Megatron para entrenar Megatron-Turing NLG 530B, un modelo de lenguaje generativo a gran escala". arXiv : 2201.11990 [cs.CL].
^ Wang, Shuohuan; Sol, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; Zhao, Yanbin; Pang, Chao; Liu, Jiaxiang; Chen, Xuyi; Lu, Yuxiang; Liu, Weixin; Wang, Xi; Bai, Yangfan; Chen, Qiuliang; Zhao, Li; Li, Shiyong; Sol, Peng; Yu, Dianhai; Mamá, Yanjun; Tian, Hao; Wu, Hua; Wu, Tian; Zeng, Wei; Li, Ge; Gao, Wen; Wang, Haifeng (23 de diciembre de 2021). "ERNIE 3.0 Titan: exploración de la formación previa mejorada del conocimiento a mayor escala para la comprensión y generación del lenguaje". arXiv : 2112.12731 [cs.CL].
^ "Producto". Antrópico . Archivado desde el original el 16 de marzo de 2023 . Consultado el 14 de marzo de 2023 .
^ ab Askell, Amanda; Bai, Yuntao; Chen, Anna; et al. (9 de diciembre de 2021). "Un asistente de lenguaje general como laboratorio para la alineación". arXiv : 2112.00861 [cs.CL].
^ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; et al. (15 de diciembre de 2022). "IA constitucional: inocuidad de los comentarios de la IA". arXiv : 2212.08073 [cs.CL].
^ "Modelado del lenguaje a escala: Gopher, consideraciones éticas y recuperación". www.deepmind.com . 8 de diciembre de 2021. Archivado desde el original el 20 de marzo de 2023 . Consultado el 20 de marzo de 2023 .
^ abc Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; et al. (29 de marzo de 2022). "Entrenamiento de modelos de lenguaje grandes con optimización computacional". arXiv : 2203.15556 [cs.CL].
^ abcd Tabla 20 y página 66 de PaLM: Escalado del modelado del lenguaje con rutas Archivado el 10 de junio de 2023 en Wayback Machine.
^ ab Cheng, Heng-Tze; Thoppilan, Romal (21 de enero de 2022). "LaMDA: hacia modelos de diálogo seguros, fundamentados y de alta calidad para todo". ai.googleblog.com . Archivado desde el original el 25 de marzo de 2022 . Consultado el 9 de marzo de 2023 .
^ Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Baker, Leslie; Du, Yu; Li, YaGuang; Lee, Hongrae; Zheng, Huaixiu Steven; Ghafouri, Amin; Menegali, Marcelo (1 de enero de 2022). "LaMDA: modelos de lenguaje para aplicaciones de diálogo". arXiv : 2201.08239 [cs.CL].
^ Black, Sidney; Biderman, Stella; Hallahan, Eric; et al. (1 de mayo de 2022). GPT-NeoX-20B: un modelo de lenguaje autorregresivo de código abierto. Actas de BigScience, episodio n.º 5: taller sobre desafíos y perspectivas en la creación de modelos de lenguaje de gran tamaño. Vol. Actas de BigScience, episodio n.º 5: taller sobre desafíos y perspectivas en la creación de modelos de lenguaje de gran tamaño. págs. 95–136. Archivado desde el original el 10 de diciembre de 2022. Consultado el 19 de diciembre de 2022 .
^ abc Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent (12 de abril de 2022). «An empirical analysis of computer-optimal large language model training» (Un análisis empírico del entrenamiento óptimo de modelos lingüísticos de gran tamaño). Blog de Deepmind . Archivado desde el original el 13 de abril de 2022. Consultado el 9 de marzo de 2023 .
^ Narang, Sharan; Chowdhery, Aakanksha (4 de abril de 2022). "Pathways Language Model (PaLM): escalado a 540 mil millones de parámetros para un rendimiento innovador". ai.googleblog.com . Archivado desde el original el 4 de abril de 2022 . Consultado el 9 de marzo de 2023 .
^ Susan Zhang; Mona Diab; Luke Zettlemoyer. "Democratizar el acceso a modelos lingüísticos a gran escala con OPT-175B". ai.facebook.com . Archivado desde el original el 2023-03-12 . Consultado el 2023-03-12 .
^ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 de junio de 2022). "OPT: modelos de lenguaje de transformadores abiertos preentrenados". arXiv : 2205.01068 [cs.CL].
^ ab Jruschov, Mikhail; Vasilev, Ruslán; Petrov, Alexéi; Zinov, Nikolay (22 de junio de 2022), YaLM 100B, archivado desde el original el 16 de junio de 2023 , consultado el 18 de marzo de 2023.
^ ab Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Tintorero, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrosio; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (30 de junio de 2022). "Resolución de problemas de razonamiento cuantitativo con modelos de lenguaje". arXiv : 2206.14858 [cs.CL].
^ "Minerva: Solución de problemas de razonamiento cuantitativo con modelos de lenguaje". ai.googleblog.com . 30 de junio de 2022 . Consultado el 20 de marzo de 2023 .
^ Ananthaswamy, Anil (8 de marzo de 2023). "En IA, ¿siempre es mejor cuanto más grande?". Nature . 615 (7951): 202–205. Bibcode :2023Natur.615..202A. doi :10.1038/d41586-023-00641-w. PMID 36890378. S2CID 257380916. Archivado desde el original el 16 de marzo de 2023 . Consultado el 9 de marzo de 2023 .
^ "bigscience/bloom · Hugging Face". huggingface.co . Archivado desde el original el 2023-04-12 . Consultado el 2023-03-13 .
^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Antonio; Saravia, Elvis; Poulton, Andrés; Kerkez, Viktor; Stojnic, Robert (16 de noviembre de 2022). "Galáctica: un gran modelo de lenguaje para la ciencia". arXiv : 2211.09085 [cs.CL].
^ "El modelo de Alexa de 20B parámetros establece nuevos hitos en el aprendizaje de pocos intentos". Amazon Science . 2 de agosto de 2022. Archivado desde el original el 15 de marzo de 2023 . Consultado el 12 de marzo de 2023 .
^ Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; et al. (3 de agosto de 2022). "AlexaTM 20B: aprendizaje de pocos intentos utilizando un modelo Seq2Seq multilingüe a gran escala". arXiv : 2208.01448 [cs.CL].
^ "AlexaTM 20B ya está disponible en Amazon SageMaker JumpStart | Blog de aprendizaje automático de AWS". aws.amazon.com . 17 de noviembre de 2022. Archivado desde el original el 13 de marzo de 2023 . Consultado el 13 de marzo de 2023 .
^ abc «Presentación de LLaMA: un modelo lingüístico fundamental de 65 mil millones de parámetros». Meta AI . 24 de febrero de 2023. Archivado desde el original el 3 de marzo de 2023 . Consultado el 9 de marzo de 2023 .
^ abc "El Halcón ha aterrizado en el ecosistema de Hugging Face". huggingface.co . Archivado desde el original el 2023-06-20 . Consultado el 2023-06-20 .
^ "Informe técnico GPT-4" (PDF) . OpenAI . 2023. Archivado (PDF) del original el 14 de marzo de 2023 . Consultado el 14 de marzo de 2023 .
^ Schreiner, Maximilian (11 de julio de 2023). "Arquitectura, conjuntos de datos, costos y más filtrados de GPT-4". THE DECODER . Archivado desde el original el 12 de julio de 2023. Consultado el 26 de julio de 2024 .
^ Dey, Nolan (28 de marzo de 2023). «Cerebras-GPT: una familia de modelos de lenguaje grandes, abiertos y eficientes en computación». Cerebras . Archivado desde el original el 28 de marzo de 2023 . Consultado el 28 de marzo de 2023 .
^ "TII, con sede en Abu Dhabi, lanza su propia versión de ChatGPT". tii.ae . Archivado desde el original el 2023-04-03 . Consultado el 2023-04-03 .
^ Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; Launay, Julien (1 de junio de 2023). "El conjunto de datos RefinedWeb para Falcon LLM: superando a los corpus seleccionados con datos web y solo con datos web". arXiv : 2306.01116 [cs.CL].
^ "tiiuae/falcon-40b · Hugging Face". huggingface.co . 2023-06-09 . Consultado el 2023-06-20 .
^ El Falcon 40B de los Emiratos Árabes Unidos, el modelo de inteligencia artificial mejor calificado del mundo según el Instituto de Innovación Tecnológica, ahora está libre de regalías Archivado el 8 de febrero de 2024 en Wayback Machine , 31 de mayo de 2023
^ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; Mann, Gideon (30 de marzo de 2023). "BloombergGPT: un modelo de lenguaje amplio para las finanzas". arXiv : 2303.17564 [cs.LG].
^ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; Podolskiy, Alejandro; Arshinov, Grigory; Combate, Andrey; Piontkóvskaya, Irina; Wei, Jiansheng; Jiang, Xin; Su, Teng; Liu, Qun; Yao, junio (19 de marzo de 2023). "PanGu-Σ: hacia un modelo de lenguaje de billones de parámetros con computación heterogénea dispersa". arXiv : 2303.10845 [cs.CL].
^ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richard; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrés (14 de abril de 2023). "Conversaciones OpenAssistant: democratización de la alineación de modelos de lenguajes grandes". arXiv : 2304.07327 [cs.CL].
^ Wrobel, Sharon. "Una startup de Tel Aviv presenta un nuevo modelo avanzado de lenguaje de inteligencia artificial para competir con OpenAI". www.timesofisrael.com . Archivado desde el original el 24 de julio de 2023 . Consultado el 24 de julio de 2023 .
^ Wiggers, Kyle (13 de abril de 2023). «Con Bedrock, Amazon entra en la carrera de la IA generativa». TechCrunch . Archivado desde el original el 24 de julio de 2023. Consultado el 24 de julio de 2023 .
^ ab Elias, Jennifer (16 de mayo de 2023). «El modelo de IA más nuevo de Google utiliza casi cinco veces más datos de texto para el entrenamiento que su predecesor». CNBC . Archivado desde el original el 16 de mayo de 2023. Consultado el 18 de mayo de 2023 .
^ "Presentación de PaLM 2". Google . 10 de mayo de 2023. Archivado desde el original el 18 de mayo de 2023 . Consultado el 18 de mayo de 2023 .
^ ab "Presentación de Llama 2: la próxima generación de nuestro modelo de lenguaje grande de código abierto". Meta AI . 2023. Archivado desde el original el 5 de enero de 2024 . Consultado el 19 de julio de 2023 .
^ "llama/MODEL_CARD.md at main · meta-llama/llama". GitHub . Archivado desde el original el 2024-05-28 . Consultado el 2024-05-28 .
^ "Claude 2". anthropic.com . Archivado desde el original el 15 de diciembre de 2023. Consultado el 12 de diciembre de 2023 .
^ Nirmal, Dinesh (7 de septiembre de 2023). "Construyendo IA para empresas: modelos de base Granite de IBM". Blog de IBM . Archivado desde el original el 22 de julio de 2024. Consultado el 11 de agosto de 2024 .
^ "Anunciamos el Mistral 7B". Mistral . 2023. Archivado desde el original el 6 de enero de 2024 . Consultado el 6 de octubre de 2023 .
^ "Presentación de Claude 2.1". anthropic.com . Archivado desde el original el 15 de diciembre de 2023. Consultado el 12 de diciembre de 2023 .
^ xai-org/grok-1, xai-org, 2024-03-19, archivado desde el original el 2024-05-28 , consultado el 2024-03-19
^ "Ficha del modelo Grok-1". x.ai . Consultado el 12 de diciembre de 2023 .
^ "Gemini – Google DeepMind". deepmind.google . Archivado desde el original el 8 de diciembre de 2023 . Consultado el 12 de diciembre de 2023 .
^ Franzen, Carl (11 de diciembre de 2023). «Mistral sorprende a la comunidad de IA ya que el último modelo de código abierto eclipsa el rendimiento de GPT-3.5». VentureBeat . Archivado desde el original el 11 de diciembre de 2023 . Consultado el 12 de diciembre de 2023 .
^ "Mixtral de expertos". mistral.ai . 11 de diciembre de 2023. Archivado desde el original el 13 de febrero de 2024 . Consultado el 12 de diciembre de 2023 .
^ AI, Mistral (17 de abril de 2024). «Más barato, mejor, más rápido, más fuerte». mistral.ai . Archivado desde el original el 5 de mayo de 2024 . Consultado el 5 de mayo de 2024 .
^ ab Hughes, Alyssa (12 de diciembre de 2023). «Phi-2: El sorprendente poder de los pequeños modelos de lenguaje». Microsoft Research . Archivado desde el original el 12 de diciembre de 2023. Consultado el 13 de diciembre de 2023 .
^ "Nuestro modelo de próxima generación: Gemini 1.5". Google . 15 de febrero de 2024. Archivado desde el original el 16 de febrero de 2024 . Consultado el 16 de febrero de 2024 . Esto significa que 1.5 Pro puede procesar grandes cantidades de información de una sola vez, incluida 1 hora de video, 11 horas de audio, bases de código con más de 30 000 líneas de código o más de 700 000 palabras. En nuestra investigación, también hemos probado con éxito hasta 10 millones de tokens.
^ "Gemma" – vía GitHub.
^ "Presentamos la próxima generación de Claude". www.anthropic.com . Archivado desde el original el 2024-03-04 . Consultado el 2024-03-04 .
^ "Fugaku-LLM/Fugaku-LLM-13B · Hugging Face". huggingface.co . Archivado desde el original el 2024-05-17 . Consultado el 2024-05-17 .
^ "Phi-3". azure.microsoft.com . 23 de abril de 2024. Archivado desde el original el 27 de abril de 2024 . Consultado el 28 de abril de 2024 .
^ "Documentación del modelo Phi-3". huggingface.co . Archivado desde el original el 2024-05-13 . Consultado el 2024-04-28 .
^ "Qwen2". GitHub . Archivado desde el original el 2024-06-17 . Consultado el 2024-06-17 .
^ "nvidia/Nemotron-4-340B-Base · Hugging Face". huggingface.co . 2024-06-14. Archivado desde el original el 2024-06-15 . Consultado el 2024-06-15 .
^ "Nemotron-4 340B | Research". research.nvidia.com. Archived from the original on 2024-06-15. Retrieved 2024-06-15.
^ "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
^ "llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models". GitHub. Archived from the original on 2024-07-23. Retrieved 2024-07-23.