Modelo de lenguaje grande

Un modelo de lenguaje grande ( LLM ) es un modelo de lenguaje que se destaca por su capacidad para lograr la generación de lenguaje de propósito general y otras tareas de procesamiento del lenguaje natural, como la clasificación . Los LLM adquieren estas habilidades aprendiendo relaciones estadísticas a partir de documentos de texto durante un proceso de capacitación autosupervisado y semisupervisado computacionalmente intensivo . ^[1] Los LLM se pueden utilizar para la generación de texto, una forma de IA generativa , tomando un texto de entrada y prediciendo repetidamente el siguiente token o palabra. ^[2]

Los LLM son redes neuronales artificiales . Los más grandes y más capaces están construidos con una arquitectura basada en transformador solo decodificador, mientras que algunas implementaciones recientes se basan en otras arquitecturas, como variantes de redes neuronales recurrentes y Mamba (un modelo de espacio de estados ). ^[3]^[4]^[5]

Hasta 2020, el ajuste fino era la única forma de adaptar un modelo para poder realizar tareas específicas. Sin embargo , los modelos de mayor tamaño, como el GPT-3 , pueden diseñarse rápidamente para lograr resultados similares. ^[6] Se cree que adquieren conocimientos sobre sintaxis, semántica y "ontología" inherentes a los corpus del lenguaje humano, pero también sobre imprecisiones y sesgos presentes en los corpus. ^[7]

Algunos LLM notables son la serie de modelos GPT de OpenAI (por ejemplo, GPT-3.5 y GPT-4 , utilizados en ChatGPT y Microsoft Copilot ), PaLM y Gemini de Google (el último de los cuales se utiliza actualmente en el chatbot del mismo nombre ), Grok de xAI , la familia LLaMA de modelos de código abierto de Meta , los modelos Claude de Anthropic y los modelos de código abierto de Mistral AI .

Historia

Una ilustración de los componentes principales del modelo de transformador del artículo original, donde las capas se normalizaron después (en lugar de antes) de la atención de múltiples cabezas.

En la conferencia NeurIPS de 2017 , los investigadores de Google presentaron la arquitectura del transformador en su artículo histórico " La atención es todo lo que necesitas ". El objetivo de este artículo era mejorar la tecnología Seq2seq de 2014 ^[8] y se basó principalmente en el mecanismo de atención desarrollado por Bahdanau et al. en 2014. ^[9] Al año siguiente, en 2018, se introdujo BERT y rápidamente se volvió "ubicuo". ^[10] Aunque el transformador original tiene bloques codificadores y decodificadores, BERT es un modelo solo codificador.

Aunque en 2018 se introdujo el descodificador GPT-1 , en 2019 fue el GPT-2 el que llamó la atención porque OpenAI al principio lo consideró demasiado potente para publicarlo públicamente, por miedo a un uso malicioso. ^[11] GPT-3 en 2020 fue un paso más allá y a partir de 2024 ^[update]está disponible solo a través de API sin ofrecer la posibilidad de descargar el modelo para ejecutarlo localmente. Pero fue el ChatGPT basado en navegador orientado al consumidor de 2022 el que capturó la imaginación de la población en general y provocó cierta expectación en los medios y rumores en línea. ^[12] El GPT-4 2023 fue elogiado por su mayor precisión y como un "santo grial" por sus capacidades multimodales . ^[13] OpenAI no reveló la arquitectura de alto nivel ni la cantidad de parámetros de GPT-4.

Mientras tanto, los modelos lingüísticos de la competencia se han estado poniendo al día con la serie GPT, al menos en términos de número de parámetros. ^[14] Las excepciones notables en términos de número de parámetros o precisión medida incluyen el T5-11B 2019 de Google y el PaLM-E 2022 , y el Claude 3 2024 de Anthropic . En términos de calificaciones Elo , el 26 de enero de 2024, el Bard (Gemini Pro) de Google superó al GPT-4 normal, pero no al GPT-4-Turbo de disponibilidad limitada . ^[15]

Desde 2022, los modelos disponibles en origen han ido ganando popularidad, especialmente al principio con BLOOM y LLaMA , aunque ambos tienen restricciones en el campo de uso. Los modelos Mistral AI Mistral 7B y Mixtral 8x7b tienen la licencia Apache más permisiva . En enero de 2024 ^[update], Mixtral 8x7b es el LLM abierto más poderoso según la tabla de clasificación de LMSYS Chatbot Arena, siendo más poderoso que GPT-3.5 pero no tan poderoso como GPT-4. ^[dieciséis]

Preprocesamiento de conjuntos de datos

Tokenización probabilística

Utilizando una modificación de la codificación de pares de bytes , en el primer paso, todos los caracteres únicos (incluidos los espacios en blanco y los signos de puntuación ) se tratan como un conjunto inicial de n -gramas (es decir, un conjunto inicial de unigramas). Sucesivamente, el par de caracteres adyacentes más frecuente se fusiona en un bigrama y todas las instancias del par son reemplazadas por él. Todas las apariciones de pares adyacentes de n -gramas (previamente fusionados) que ocurren juntos con mayor frecuencia se fusionan nuevamente en n -gramas aún más largos repetidamente hasta que se obtiene un vocabulario de tamaño prescrito (en el caso de GPT-3 , el tamaño es 50257) . ^[17] El vocabulario de tokens consta de números enteros , que van desde cero hasta el tamaño del vocabulario de tokens. Las palabras nuevas siempre se pueden interpretar como combinaciones de las fichas y los unigramas del conjunto inicial. ^[18]

Un vocabulario simbólico basado en las frecuencias extraídas de corpus principalmente en inglés utiliza la menor cantidad posible de tokens para una palabra promedio en inglés. Sin embargo, una palabra promedio en otro idioma codificada por un tokenizador optimizado en inglés se divide en una cantidad subóptima de tokens. El tokenizador GPT-2 puede utilizar hasta 15 veces más tokens por palabra para algunos idiomas, por ejemplo, para el idioma Shan de Myanmar . Incluso lenguas más extendidas como el portugués y el alemán tienen "una prima del 50%" respecto al inglés. ^[19]

tokenizer: texts -> series of numerical "tokens"puede dividirse en:

La tokenización probabilística también comprime los conjuntos de datos, razón por la cual se utiliza el algoritmo de codificación de pares de bytes como tokenizador. Debido a que los LLM generalmente requieren que la entrada sea una matriz que no sea irregular , los textos más cortos deben "rellenarse" hasta que coincidan con la longitud del más largo. La cantidad de tokens que se necesitan, en promedio, por palabra depende del idioma del conjunto de datos. ^[20]^[21]

Limpieza de conjuntos de datos

En el contexto de la capacitación de LLM, los conjuntos de datos generalmente se limpian eliminando pasajes tóxicos del conjunto de datos, descartando datos de baja calidad y eliminando duplicaciones. ^[22] Los conjuntos de datos limpios pueden aumentar la eficiencia del entrenamiento y conducir a un mejor rendimiento posterior. ^[23]^[24]

Con la creciente proporción de contenido generado por LLM en la web, la limpieza de datos en el futuro puede incluir el filtrado de dicho contenido. El contenido generado por LLM puede plantear un problema si el contenido es similar al texto humano (lo que dificulta el filtrado) pero de menor calidad (lo que degrada el rendimiento de los modelos entrenados en él). ^[25]

Formación y arquitectura.

Aprendizaje reforzado a partir de la retroalimentación humana (RLHF)

El aprendizaje reforzado a partir de la retroalimentación humana (RLHF) a través de algoritmos, como la optimización de políticas próximas , se utiliza para perfeccionar aún más un modelo basado en un conjunto de datos de preferencias humanas. ^[26]

Ajuste de instrucciones

Utilizando enfoques de "autoinstrucción", los LLM han podido generar respuestas correctas, reemplazando cualquier respuesta ingenua, a partir de correcciones generadas por humanos en algunos casos. Por ejemplo, en la instrucción "Escribe un ensayo sobre los temas principales representados en Hamlet", una finalización ingenua inicial podría ser "Si envías el ensayo después del 17 de marzo, tu calificación se reducirá en un 10% por cada día de retraso". basado en la frecuencia de esta secuencia textual en el corpus ^[27]

Mezcla de expertos

El LLM más grande puede ser demasiado costoso para capacitarlo y utilizarlo directamente. Para estos modelos se puede aplicar la mezcla de expertos (MoE), una línea de investigación seguida por los investigadores de Google desde 2017 para entrenar modelos que alcanzan hasta 1 billón de parámetros. ^[28]^[29]^[30]

Ingeniería rápida, mecanismo de atención y ventana de contexto.

La mayoría de los resultados que antes solo se podían lograr mediante (costosos) ajustes finos, se pueden lograr mediante una ingeniería rápida , aunque limitada al alcance de una sola conversación (más precisamente, limitada al alcance de una ventana de contexto). ^[31]

Para saber qué tokens son relevantes entre sí dentro del alcance de la ventana de contexto, el mecanismo de atención calcula pesos "suaves" para cada token, más precisamente para su incrustación, mediante el uso de múltiples cabezas de atención, cada una con su propia "relevancia". " para calcular sus propios pesos blandos. Por ejemplo, el modelo GPT-2 pequeño (es decir, con un tamaño de parámetro de 117 millones) tenía doce cabezales de atención y una ventana de contexto de solo 1k token. ^[33] En su versión mediana tiene 345M de parámetros y contiene 24 capas, cada una con 12 cabezales de atención. Para el entrenamiento con descenso de gradiente se utilizó un tamaño de lote de 512. ^[18]

Los modelos más grandes, como el Gemini 1.5 de Google , presentado en febrero de 2024, pueden tener una ventana de contexto de hasta 1 millón (también se "probó con éxito" una ventana de contexto de 10 millones). ^[34] Otros modelos con ventanas de contexto grandes incluyen Claude 2.1 de Anthropic, con una ventana de contexto de hasta 200k tokens. ^[35] Tenga en cuenta que este máximo se refiere al número de tokens de entrada y que el número máximo de tokens de salida difiere del de entrada y, a menudo, es menor. Por ejemplo, el modelo GPT-4 Turbo tiene una producción máxima de 4096 tokens. ^[36]

La duración de una conversación que el modelo puede tener en cuenta al generar su siguiente respuesta también está limitada por el tamaño de una ventana de contexto. Si la duración de una conversación, por ejemplo con Chat-GPT , es más larga que su ventana de contexto, solo se tienen en cuenta las partes dentro de la ventana de contexto al generar la siguiente respuesta, o el modelo necesita aplicar algún algoritmo para resumir también partes distantes de la conversación.

Las deficiencias de ampliar una ventana de contexto incluyen un mayor costo computacional y posiblemente diluir el enfoque en el contexto local, mientras que hacerlo más pequeño puede hacer que un modelo pase por alto una importante dependencia de largo alcance. Equilibrarlos es una cuestión de experimentación y consideraciones específicas del dominio.

Un modelo se puede entrenar previamente para predecir cómo continúa el segmento o qué falta en el segmento, dado un segmento de su conjunto de datos de entrenamiento. ^[37] Puede ser cualquiera

autorregresivo (es decir, predecir cómo continúa el segmento, la forma en que lo hacen los GPT ): por ejemplo, dado un segmento "Me gusta comer", el modelo predice "helado" o "sushi".
" enmascarado " (es decir, completando las partes que faltan en el segmento, como lo hace "BERT" ^[38][__] [__] ): por ejemplo, dado un segmento "Me gusta la crema", el modelo predice que "comer" y "hielo". están perdidos.

Los modelos pueden entrenarse en tareas auxiliares que ponen a prueba su comprensión de la distribución de datos, como la Predicción de la siguiente oración (NSP), en la que se presentan pares de oraciones y el modelo debe predecir si aparecen consecutivamente en el corpus de entrenamiento. ^[38] Durante el entrenamiento, la pérdida de regularización también se utiliza para estabilizar el entrenamiento. Sin embargo, la pérdida de regularización generalmente no se utiliza durante las pruebas y evaluaciones.

Costo de capacitación

Los avances en software y hardware han reducido sustancialmente el costo desde 2020, de modo que en 2023 el costo computacional de la capacitación de un LLM de 12 mil millones de parámetros es de 72,300 horas de GPU A100 , mientras que en 2020 el costo de capacitación de un LLM de 1,5 mil millones de parámetros (que era dos órdenes de magnitud menor que el estado de la técnica en 2020) oscilaba entre 80.000 y 1,6 millones de dólares. ^[39]^[40]^[41] Desde 2020, se han invertido grandes sumas en modelos cada vez más grandes. Por ejemplo, el entrenamiento del GPT-2 (es decir, un modelo de 1.500 millones de parámetros) en 2019 costó 50.000 dólares, mientras que el entrenamiento del PaLM (es decir, un modelo de 540 mil millones de parámetros) en 2022 costó 8 millones de dólares, y Megatron-Turing NLG. 530B (en 2021) costó alrededor de 11 millones de dólares ^[42] .

Para el LLM basado en Transformer, el costo de capacitación es mucho mayor que el costo de inferencia. Cuesta 6 FLOP por parámetro entrenar en un token, mientras que cuesta de 1 a 2 FLOP por parámetro inferir en un token. ^[43]

uso de herramientas

Hay determinadas tareas que, en principio, ningún LLM puede resolver, al menos no sin el uso de herramientas externas o software adicional. Un ejemplo de tal tarea es responder a la entrada del usuario '354 * 139 = ', siempre que el LLM no haya encontrado ya una continuación de este cálculo en su corpus de entrenamiento. En tales casos, el LLM debe recurrir a la ejecución de un código de programa que calcule el resultado, que luego puede incluirse en su respuesta. Otro ejemplo es '¿Qué hora es ahora? Es ', donde un intérprete de programa separado necesitaría ejecutar un código para obtener la hora del sistema en la computadora, por lo que LLM podría incluirlo en su respuesta. ^[44]^[45] Esta estrategia básica puede ser sofisticada con múltiples intentos de programas generados y otras estrategias de muestreo. ^[46] Ahorro de costos y reducción de la dependencia del proveedor

Generalmente, para que un LLM utilice herramientas, es necesario ajustarlo para el uso de herramientas. Si el número de herramientas es finito, entonces el ajuste fino se puede realizar sólo una vez. Si la cantidad de herramientas puede crecer arbitrariamente, como ocurre con los servicios API en línea , entonces el LLM se puede ajustar para poder leer la documentación de la API y llamar a la API correctamente. ^[47]^[48]

Una forma más sencilla de utilizar la herramienta es la generación aumentada de recuperación : aumentar un LLM con recuperación de documentos , a veces utilizando una base de datos vectorial . Dada una consulta, se llama a un recuperador de documentos para recuperar los más relevantes (generalmente se mide codificando primero la consulta y los documentos en vectores y luego buscando los documentos con vectores más cercanos en la norma euclidiana al vector de consulta). Luego, el LLM genera un resultado basado tanto en la consulta como en los documentos recuperados. ^[49]

Agencia

Un LLM es un modelo de lenguaje, que no es un agente ya que no tiene objetivo, pero puede usarse como componente de un agente inteligente . ^[50] Los investigadores han descrito varios métodos para tales integraciones. ^{[ cita necesaria ]}

El método ReAct ("Razón + Actuación") construye un agente a partir de un LLM, utilizando el LLM como planificador. Al LLM se le pide "pensar en voz alta". Específicamente, el modelo de lenguaje recibe una descripción textual del entorno, un objetivo, una lista de acciones posibles y un registro de las acciones y observaciones hasta el momento. Genera uno o más pensamientos antes de generar una acción, que luego se ejecuta en el entorno. ^[51] La descripción lingüística del entorno proporcionada al planificador de LLM puede incluso ser el código LaTeX de un artículo que describe el entorno. ^[52]

En el método DEPS ("Describir, explicar, planificar y seleccionar"), un LLM primero se conecta con el mundo visual a través de descripciones de imágenes, luego se le pide que produzca planes para tareas y comportamientos complejos basados en su conocimiento previamente entrenado y la retroalimentación ambiental que recibe. recibe. ^[53]

El método Reflexion ^[54] construye un agente que aprende a lo largo de múltiples episodios. Al final de cada episodio, el LLM recibe el registro del episodio y se le pide que piense en "lecciones aprendidas", que le ayudarían a desempeñarse mejor en un episodio posterior. Estas "lecciones aprendidas" se le dan al agente en los episodios posteriores. ^{[ cita necesaria ]}

La búsqueda de árbol de Monte Carlo puede utilizar un LLM como heurística de implementación. Cuando un modelo mundial programático no está disponible, a un LLM también se le puede solicitar una descripción del entorno para que actúe como modelo mundial. ^[55]

Para la exploración abierta, se puede utilizar un LLM para calificar las observaciones según su "interés", lo que se puede utilizar como señal de recompensa para guiar a un agente de aprendizaje por refuerzo normal (que no es LLM). ^[56] Alternativamente, puede proponer tareas cada vez más difíciles para el aprendizaje curricular. ^[57] En lugar de generar acciones individuales, un planificador de LLM también puede construir "habilidades" o funciones para secuencias de acciones complejas. Las habilidades se pueden almacenar y luego invocar, lo que permite niveles crecientes de abstracción en la planificación. ^[57]

Los agentes impulsados por LLM pueden mantener una memoria a largo plazo de sus contextos anteriores, y la memoria se puede recuperar de la misma manera que la recuperación de generación aumentada. Múltiples agentes de este tipo pueden interactuar socialmente. ^[58]

Compresión

Normalmente, los LLM se entrenan con números de coma flotante de precisión total o media (float32 y float16). Un float16 tiene 16 bits, o 2 bytes, por lo que mil millones de parámetros requieren 2 gigabytes. Los modelos más grandes suelen tener 100 mil millones de parámetros y requieren 200 gigabytes para cargarse, lo que los coloca fuera del alcance de la mayoría de los productos electrónicos de consumo. ^{[ cita necesaria ]}

La cuantificación posterior al entrenamiento ^[59] tiene como objetivo disminuir el requisito de espacio al reducir la precisión de los parámetros de un modelo entrenado, preservando al mismo tiempo la mayor parte de su rendimiento. ^[60]^[61] La forma más simple de cuantificación simplemente trunca todos los números a un número determinado de bits. Se puede mejorar utilizando un libro de códigos de cuantificación diferente por capa. Se pueden realizar mejoras adicionales aplicando diferentes precisiones a diferentes parámetros, con mayor precisión para parámetros particularmente importantes ("pesos atípicos"). ^[62]

Si bien los modelos cuantificados suelen estar congelados y solo los modelos precuantizados se ajustan con precisión, los modelos cuantificados aún se pueden ajustar con precisión. ^[63]

Multimodalidad

Multimodalidad significa "tener varias modalidades", y una "modalidad" se refiere a un tipo de entrada o salida, como video, imagen, audio, texto, propiocepción , etc. ^[64] Ha habido muchos modelos de IA entrenados específicamente para ingerir una modalidad y generar otra modalidad, como AlexNet para imagen para etiquetar, ^[65] respuesta visual a preguntas para imagen-texto a texto, ^[66] y reconocimiento de voz para voz a texto.

Un método común para crear modelos multimodales a partir de un LLM es "tokenizar" la salida de un codificador entrenado. Concretamente, se puede construir un LLM que pueda comprender imágenes de la siguiente manera: tomar un LLM entrenado y tomar un codificador de imágenes entrenado . Haga un pequeño perceptrón de varias capas , de modo que para cualquier imagen , el vector posprocesado tenga las mismas dimensiones que un token codificado. Eso es un "token de imagen". Luego, se pueden intercalar tokens de texto y tokens de imágenes. Luego, el modelo compuesto se ajusta en un conjunto de datos de imagen y texto. Esta construcción básica se puede aplicar con más sofisticación para mejorar el modelo. El codificador de imágenes puede congelarse para mejorar la estabilidad. ^[67] $E$ $f$ $y$ $f(E(y))$

Flamingo demostró la efectividad del método de tokenización, ajustando un par de modelo de lenguaje previamente entrenado y codificador de imágenes para funcionar mejor en la respuesta visual a preguntas que los modelos entrenados desde cero. ^{[68] El modelo} PaLM de Google se ajustó a un modelo multimodal PaLM-E utilizando el método de tokenización y se aplicó al control robótico. ^{[69] Los modelos} LLaMA también se han vuelto multimodales utilizando el método de tokenización, para permitir entradas de imágenes, ^[70] y entradas de video. ^[71]

GPT-4 puede utilizar texto e imagen como entradas ^[72] (aunque el componente de visión no se lanzó al público hasta GPT-4V ^[73] ); Gemini de Google DeepMind también es multimodal. ^[74]

Propiedades

Leyes de escala

Los siguientes cuatro hiperparámetros caracterizan un LLM:

costo de la (pre)formación ( ), $C$
tamaño de la red neuronal artificial en sí, como el número de parámetros (es decir, cantidad de neuronas en sus capas, cantidad de pesos entre ellas y sesgos), $N$
tamaño de su conjunto de datos (pre)entrenamiento (es decir, número de tokens en el corpus, ), $D$
Rendimiento después del (pre)entrenamiento.

Están relacionados por leyes estadísticas simples , llamadas "leyes de escala". Una ley de escala particular (" escala de Chinchilla ") para LLM entrenado autorregresivamente para una época, con un programa de tasa de aprendizaje log-log , establece que: ^[75]

{\begin{cases}C=C_{0}ND\\[6pt]L={\frac {A}{N^{\alpha }}}+{\frac {B}{D^{\beta }}}+L_{0}\end{cases}}

$C$ es el costo de entrenar el modelo, en FLOP .
$N$ es el número de parámetros en el modelo.
$D$ es el número de tokens en el conjunto de entrenamiento.
$L$ es la pérdida promedio de probabilidad logarítmica negativa por token ( nats /token), lograda por el LLM capacitado en el conjunto de datos de prueba.

y los hiperparámetros estadísticos son

$C_{0}=6$ , lo que significa que cuesta 6 FLOP por parámetro entrenar con un token. Tenga en cuenta que el costo de capacitación es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token. ^[43]
$\alpha =0.34,\beta =0.28,A=406.4,B=410.7,L_{0}=1.69$

Habilidades emergentes

Cuando se resta del eje y el mejor rendimiento que se puede lograr incluso con una escala infinita de la cantidad del eje x, el rendimiento de los modelos grandes, medido en diversas tareas, parece ser una extrapolación lineal de otros (de menor tamaño y de tamaño mediano) en un gráfico log-log. Sin embargo, a veces la pendiente de la línea pasa de una pendiente a otra en puntos denominados rupturas ^[76] en las leyes de escalamiento aguas abajo, apareciendo como una serie de segmentos lineales conectados por arcos; parece que los modelos más grandes adquieren "habilidades emergentes" en este punto. ^[31]^[77] Estas habilidades se descubren en lugar de programarse o diseñarse, en algunos casos solo después de que el LLM se haya implementado públicamente. ^[2]

La más intrigante entre las habilidades emergentes es el aprendizaje en contexto a partir de demostraciones de ejemplos. ^[78] El aprendizaje en contexto está involucrado en tareas como:

aritmética informada, decodificación del Alfabeto Fonético Internacional , descifrar las letras de una palabra, desambiguar una palabra en contexto, ^[31]^[79]^[80] convertir palabras espaciales, direcciones cardinales (por ejemplo, responder "noreste" en [0, 0, 1; 0, 0, 0; 0, 0, 0]), términos de color representados en texto. ^[81]
indicaciones de cadena de pensamiento : los resultados del modelo mejoran mediante indicaciones de cadena de pensamiento solo cuando el tamaño del modelo excede 62B. Los modelos más pequeños funcionan mejor cuando se les pide que respondan inmediatamente, sin cadenas de pensamiento. ^[82]
identificar contenido ofensivo en párrafos de hinglish (una combinación de hindi e inglés) y generar un equivalente en inglés similar de los proverbios kiswahili . ^[83]

Schaeffer et. Alabama. Argumentan que las habilidades emergentes no se adquieren de manera impredecible, sino que se adquieren de manera predecible de acuerdo con una ley de escala suave . Los autores consideraron un modelo estadístico de juguete de un LLM que resuelve preguntas de opción múltiple y demostraron que este modelo estadístico, modificado para tener en cuenta otros tipos de tareas, se aplica también a estas tareas. ^[84]

Sea el número de recuento de parámetros y el rendimiento del modelo. $x$ $y$

Cuando , entonces es una curva exponencial (antes de llegar a la meseta en el uno), que parece una emergencia. $y={\text{average }}\Pr({\text{correct token}})$ $(\log x,y)$
Cuando , entonces la gráfica es una línea recta (antes de llegar a la meseta en cero), que no parece una emergencia. $y={\text{average }}\log(\Pr({\text{correct token}}))$ $(\log x,y)$
Cuando , entonces es una función escalonada, que parece emergencia. $y={\text{average }}\Pr({\text{the most likely token is correct}})$ $(\log x,y)$

Interpretación

Los grandes modelos lingüísticos son por sí mismos " cajas negras " y no está claro cómo pueden realizar tareas lingüísticas. Existen varios métodos para comprender cómo funciona el LLM.

La interpretabilidad mecanicista tiene como objetivo aplicar ingeniería inversa al LLM mediante el descubrimiento de algoritmos simbólicos que se aproximan a la inferencia realizada por el LLM. Un ejemplo es Othello-GPT, donde se entrena a un pequeño Transformer para predecir los movimientos legales de Othello . Se descubre que hay una representación lineal del tablero de Otelo, y la modificación de la representación cambia los movimientos legales previstos de Otelo de la manera correcta. ^[85]^[86] En otro ejemplo, un pequeño Transformer está entrenado en programas de Karel . De manera similar al ejemplo de Othello-GPT, hay una representación lineal de la semántica del programa Karel y la modificación de la representación cambia la salida de la manera correcta. El modelo también genera programas correctos que, en promedio, son más cortos que los del conjunto de entrenamiento. ^[87]

En otro ejemplo, los autores entrenaron pequeños transformadores en suma aritmética modular . A los modelos resultantes se les realizó ingeniería inversa y resultó que utilizaban transformada de Fourier discreta . ^[88]

Comprensión e inteligencia

Los investigadores de PNL se dividieron equitativamente cuando se les preguntó, en una encuesta de 2022, si los LLM (no sintonizados) "podrían (alguna vez) entender el lenguaje natural en algún sentido no trivial". ^[89] Los defensores de la "comprensión LLM" creen que algunas habilidades LLM, como el razonamiento matemático, implican la capacidad de "comprender" ciertos conceptos. Un equipo de Microsoft argumentó en 2023 que GPT-4 "puede resolver tareas novedosas y difíciles que abarcan matemáticas, codificación, visión, medicina, derecho, psicología y más" y que GPT-4 "podría considerarse razonablemente como una solución temprana (aunque aún incompleta)". ) versión de un sistema de inteligencia artificial general ": "¿Se puede decir razonablemente que un sistema que aprueba los exámenes para candidatos a ingeniería de software no es realmente inteligente?" ^[90]^[91] Algunos investigadores caracterizan los LLM como "inteligencia alienígena". ^[92]^[93] Por ejemplo, el director ejecutivo de Conjecture, Connor Leahy, considera que los LLM no sintonizados son como " Shoggoths " alienígenas inescrutables, y cree que el ajuste de RLHF crea una "fachada sonriente" que oscurece el funcionamiento interno del LLM: "Si no lo haces Si lo empujas demasiado lejos, la cara sonriente permanece encendida. Pero luego le das un aviso [inesperado] y de repente ves este enorme punto vulnerable de locura, de procesos de pensamiento extraños y de comprensión claramente no humana". ^[94]^[95]

Por el contrario, algunos defensores de la escuela de "los LLM carecen de comprensión" creen que los LLM existentes "simplemente remezclan y recombinan escritos existentes", ^[93] o señalan los déficits que los LLM existentes continúan teniendo en habilidades de predicción, habilidades de razonamiento, agencia y explicabilidad. ^[89] Por ejemplo, GPT-4 tiene déficits naturales en la planificación y el aprendizaje en tiempo real. ^[91] Se ha observado que los LLM generativos afirman con seguridad afirmaciones de hechos que no parecen estar justificadas por sus datos de entrenamiento , un fenómeno que se ha denominado " alucinación ". ^[96] Específicamente, las alucinaciones en el contexto de los LLM corresponden a la generación de texto o respuestas que parecen sintácticamente sólidas, fluidas y naturales, pero que son objetivamente incorrectas, absurdas o infieles a la fuente proporcionada. ^[97] El neurocientífico Terrence Sejnowski ha argumentado que "las opiniones divergentes de los expertos sobre la inteligencia de los LLM sugieren que nuestras viejas ideas basadas en la inteligencia natural son inadecuadas". ^[89]

La cuestión de que los LLM exhiban inteligencia o comprensión tiene dos aspectos principales: el primero es cómo modelar el pensamiento y el lenguaje en un sistema informático, y el segundo es cómo permitir que el sistema informático genere un lenguaje similar al humano. ^[89] Estos aspectos del lenguaje como modelo de cognición se han desarrollado en el campo de la lingüística cognitiva . El lingüista estadounidense George Lakoff presentó la Teoría Neural del Lenguaje (NTL) ^[98] como una base computacional para utilizar el lenguaje como modelo de tareas de aprendizaje y comprensión. El modelo NTL describe cómo estructuras neuronales específicas del cerebro humano dan forma a la naturaleza del pensamiento y el lenguaje y, a su vez, cuáles son las propiedades computacionales de dichos sistemas neuronales que pueden aplicarse para modelar el pensamiento y el lenguaje en un sistema informático. Después de que se estableció un marco para modelar el lenguaje en sistemas informáticos, la atención se centró en establecer marcos para que los sistemas informáticos generen lenguaje con una gramática aceptable. En su libro de 2014 titulado The Language Myth: Why Language Is Not An Instinct , el lingüista cognitivo británico y tecnólogo de comunicación digital Vyvyan Evans trazó el papel de la gramática probabilística libre de contexto (PCFG) para permitir que la PNL modele patrones cognitivos y genere un lenguaje similar al humano. . ^[99] ^[100]

Evaluación

Perplejidad

La medida más comúnmente utilizada del desempeño de un modelo de lenguaje es su perplejidad en un corpus de texto determinado. La perplejidad es una medida de qué tan bien un modelo es capaz de predecir el contenido de un conjunto de datos; cuanto mayor sea la probabilidad que el modelo asigna al conjunto de datos, menor será la perplejidad. Matemáticamente, la perplejidad se define como el exponencial de la probabilidad logarítmica negativa promedio por token:

\log({\text{Perplexity}})=-{\frac {1}{N}}\sum _{i=1}^{N}\log(\Pr({\text{token}}_{i}\mid {\text{context for token}}_{i}))

N

i

i

i

i

i

Debido a que los modelos de lenguaje pueden sobreajustarse a sus datos de entrenamiento, los modelos generalmente se evalúan por su perplejidad en un conjunto de pruebas de datos invisibles. ^[38] Esto presenta desafíos particulares para la evaluación de modelos de lenguaje grandes. A medida que se entrenan con corpus de texto cada vez más grandes, en gran parte extraídos de la web, es cada vez más probable que los datos de entrenamiento de los modelos incluyan inadvertidamente partes de cualquier conjunto de pruebas determinado. ^[6]

BPW, BPC y BPT

En teoría de la información , el concepto de entropía está íntimamente ligado a la perplejidad, relación establecida notablemente por Claude Shannon . ^[101] Esta relación se expresa matemáticamente como . ${\text{Entropy}}=\log _{2}({\text{Perplexity}})$

La entropía, en este contexto, comúnmente se cuantifica en términos de bits por palabra (BPW) o bits por carácter (BPC), lo que depende de si el modelo de lenguaje utiliza tokenización basada en palabras o en caracteres.

En particular, en el caso de modelos de lenguaje más grandes que emplean predominantemente tokenización de subpalabras, los bits por token (BPT) emergen como una medida aparentemente más apropiada. Sin embargo, debido a la variación en los métodos de tokenización entre diferentes modelos de lenguaje grande (LLM), BPT no sirve como una métrica confiable para el análisis comparativo entre diversos modelos. Para convertir BPT en BPW, se puede multiplicar por el número promedio de tokens por palabra.

En la evaluación y comparación de modelos de lenguaje, la entropía cruzada es generalmente la métrica preferida a la entropía. El principio subyacente es que un BPW más bajo es indicativo de la capacidad mejorada de compresión de un modelo. Esto, a su vez, refleja la capacidad del modelo para realizar predicciones precisas.

Conjuntos de datos y puntos de referencia específicos de tareas

También se ha desarrollado una gran cantidad de conjuntos de datos de prueba y puntos de referencia para evaluar las capacidades de los modelos de lenguaje en tareas posteriores más específicas. Las pruebas pueden diseñarse para evaluar una variedad de capacidades, incluido el conocimiento general, el razonamiento de sentido común y la resolución de problemas matemáticos.

Una categoría amplia de conjunto de datos de evaluación son los conjuntos de datos de respuesta a preguntas, que constan de pares de preguntas y respuestas correctas, por ejemplo ("¿Han ganado los San Jose Sharks la Copa Stanley?", "No"). ^[102] Una tarea de respuesta a preguntas se considera "libro abierto" si la indicación del modelo incluye texto del cual se puede derivar la respuesta esperada (por ejemplo, la pregunta anterior podría ir acompañada de algún texto que incluya la oración "Los tiburones han avanzado a "Llegó a la final de la Copa Stanley una vez, perdiendo ante los Pittsburgh Penguins en 2016". ^[102] ). De lo contrario, la tarea se considera "libro cerrado" y el modelo debe basarse en los conocimientos retenidos durante la formación. ^[103] Algunos ejemplos de conjuntos de datos de respuesta a preguntas de uso común incluyen TruthfulQA, Web Question, TriviaQA y SQuAD. ^[103]

Los conjuntos de datos de evaluación también pueden tomar la forma de finalización de texto, haciendo que el modelo seleccione la palabra u oración más probable para completar una pregunta, por ejemplo: "Alice era amiga de Bob. Alice fue a visitar a su amiga, ____". ^[6]

También se han desarrollado algunos puntos de referencia compuestos que combinan una diversidad de diferentes conjuntos de datos y tareas de evaluación. Los ejemplos incluyen GLUE, SuperGLUE, MMLU, BIG-bench y HELM. ^[104]^[103]

Anteriormente, era estándar informar los resultados de una parte reservada de un conjunto de datos de evaluación después de realizar ajustes supervisados en el resto. Ahora es más común evaluar un modelo previamente entrenado directamente a través de técnicas de indicaciones, aunque los investigadores varían en los detalles de cómo formulan indicaciones para tareas particulares, particularmente con respecto a cuántos ejemplos de tareas resueltas se adjuntan a la indicación (es decir, el número de ejemplos de tareas resueltas que se adjuntan a la indicación). valor de n en n indicaciones de disparo).

Evaluaciones construidas de manera adversaria

Debido al rápido ritmo de mejora de los grandes modelos de lenguaje, los puntos de referencia de evaluación han tenido una vida útil corta, y los modelos de última generación "saturan" rápidamente los puntos de referencia existentes, excediendo el rendimiento de los anotadores humanos, lo que lleva a esfuerzos para reemplazar o aumentar el punto de referencia con tareas más desafiantes. ^[105] Además, hay casos de "aprendizaje abreviado" en los que las IA a veces "hacen trampa" en pruebas de opción múltiple utilizando correlaciones estadísticas en la redacción superficial de las preguntas de la prueba para adivinar las respuestas correctas, sin necesariamente comprender la pregunta real que se formula. . ^[89]

Algunos conjuntos de datos se han construido de manera contradictoria, centrándose en problemas particulares en los que los modelos de lenguaje existentes parecen tener un rendimiento inusualmente pobre en comparación con los humanos. Un ejemplo es el conjunto de datos TruthfulQA, un conjunto de datos de respuesta a preguntas que consta de 817 preguntas que los modelos de lenguaje son susceptibles de responder incorrectamente al imitar falsedades a las que estuvieron expuestos repetidamente durante el entrenamiento. Por ejemplo, un LLM puede responder "No" a la pregunta "¿Puedes enseñarle nuevos trucos a un perro viejo?" debido a su exposición al idioma inglés, no se pueden enseñar nuevos trucos a un perro viejo , aunque esto no es literalmente cierto. ^[106]

Otro ejemplo de un conjunto de datos de evaluación adversario es Swag y su sucesor, HellaSwag, colecciones de problemas en los que se debe seleccionar una de múltiples opciones para completar un pasaje de texto. Las completaciones incorrectas se generaron mediante muestreo de un modelo de lenguaje y filtrado con un conjunto de clasificadores. Los problemas resultantes son triviales para los humanos, pero en el momento en que se crearon los conjuntos de datos, los modelos de lenguaje más avanzados tenían poca precisión. Por ejemplo:

Vemos un cartel de gimnasio. Luego vemos a un hombre hablando con la cámara y sentado y recostado sobre una pelota de ejercicios. El hombre...
a) demuestra cómo aumentar el trabajo de ejercicio eficiente corriendo arriba y abajo de las pelotas.
b) mueve todos sus brazos y piernas y desarrolla mucho músculo.
c) luego juega la pelota y vemos una demostración de gráficos y corte de setos.
d) realiza abdominales mientras tiene la pelota y habla. ^[107]

BERT selecciona b) como la finalización más probable, aunque la respuesta correcta es d). ^[107]

Impacto más amplio

En 2023, Nature Biomedical Engineering escribió que "ya no es posible distinguir con precisión" el texto escrito por humanos del texto creado por grandes modelos de lenguaje, y que "es casi seguro que los grandes modelos de lenguaje de propósito general proliferarán rápidamente... "Es una apuesta bastante segura que cambiarán muchas industrias con el tiempo". ^[108] Goldman Sachs sugirió en 2023 que la IA del lenguaje generativo podría aumentar el PIB mundial en un 7% en los próximos diez años y podría exponer a la automatización 300 millones de puestos de trabajo en todo el mundo. ^[109]^[110]

Derechos de autor

La memorización es un comportamiento emergente en los LLM en los que ocasionalmente se generan largas cadenas de texto palabra por palabra a partir de datos de entrenamiento, contrariamente al comportamiento típico de las redes neuronales artificiales tradicionales. Las evaluaciones de la salida controlada de LLM miden la cantidad memorizada de los datos de entrenamiento (centrados en los modelos de la serie GPT-2) como más del 1% para duplicados exactos ^[111] o hasta aproximadamente el 7%. ^[112]

Seguridad

Algunos comentaristas expresaron preocupación por la creación accidental o deliberada de información errónea u otras formas de uso indebido. ^[113] Por ejemplo, la disponibilidad de modelos de lenguaje grandes podría reducir el nivel de habilidad requerido para cometer bioterrorismo; El investigador de bioseguridad Kevin Esvelt ha sugerido que los creadores de LLM deberían excluir de sus datos de capacitación los artículos sobre la creación o mejora de patógenos. ^[114]

Un estudio realizado por investigadores de Google y varias universidades, incluidas la Universidad de Cornell y la Universidad de California en Berkeley , demostró que existen riesgos potenciales de seguridad en modelos de lenguaje como ChatGPT . En su estudio, examinaron la posibilidad de que los interrogadores pudieran obtener, de ChatGPT, los datos de entrenamiento que utilizaba el modelo de IA; Descubrieron que podían obtener los datos de entrenamiento del modelo de IA. Por ejemplo, cuando le pide a ChatGPT 3.5 turbo que repita la palabra "poema" para siempre, el modelo de IA dirá "poema" cientos de veces y luego divergirá, desviándose del estilo de diálogo estándar y escupiendo frases sin sentido, escupiendo así los datos de entrenamiento. como están las cosas. Los investigadores han visto más de 10.000 ejemplos del modelo de IA exponiendo sus datos de entrenamiento con un método similar. Los investigadores dijeron que era difícil saber si el modelo de IA era realmente seguro o no. ^[115]

La posible presencia de "agentes durmientes" dentro de los modelos LLM es otra preocupación de seguridad emergente. Estas son funcionalidades ocultas integradas en el modelo que permanecen inactivas hasta que se activan por un evento o condición específica. Tras la activación, el LLM se desvía de su comportamiento esperado para realizar acciones inseguras. ^[116]

Sesgo algorítmico

Si bien los LLM han demostrado capacidades notables para generar texto similar a un humano, son susceptibles de heredar y amplificar sesgos presentes en sus datos de capacitación. Esto puede manifestarse en representaciones sesgadas o en un trato injusto de diferentes grupos demográficos, como los basados en raza, género, idioma y grupos culturales. ^[117] Dado que los datos en inglés están sobrerrepresentados en los datos de entrenamiento de los grandes modelos lingüísticos actuales, también pueden restar importancia a las opiniones que no están en inglés. ^[118]

estereotipos

Los modelos de IA pueden reforzar una amplia gama de estereotipos, incluidos los basados en género, etnia, edad, nacionalidad, religión u ocupación. Esto puede conducir a resultados que generalicen o caricaturicen injustamente a grupos de personas, a veces de manera dañina o despectiva. ^[119]

En particular, el sesgo de género se refiere a la tendencia de estos modelos a producir productos que tienen prejuicios injustos hacia un género sobre otro. Este sesgo suele surgir de los datos con los que se entrenan estos modelos. Los grandes modelos lingüísticos suelen asignar roles y características basándose en normas de género tradicionales. ^[117] Por ejemplo, podría asociar a enfermeras o secretarias predominantemente con mujeres y a ingenieros o directores ejecutivos con hombres. ^[120]

Sesgo político

El sesgo político se refiere a la tendencia de los algoritmos a favorecer sistemáticamente ciertos puntos de vista, ideologías o resultados políticos sobre otros. Los modelos lingüísticos también pueden presentar sesgos políticos. Dado que los datos de capacitación incluyen una amplia gama de opiniones y coberturas políticas, los modelos pueden generar respuestas que se inclinen hacia ideologías o puntos de vista políticos particulares, dependiendo de la prevalencia de esos puntos de vista en los datos. ^[121]

Lista

Para la columna de costo de capacitación, 1 petaFLOP-día = 1 petaFLOP/seg × 1 día = 8.64E19 FLOP.

Ver también

Modelos de cimentacion

Notas

^ Esta es la fecha en que se publicó por primera vez la documentación que describe la arquitectura del modelo.
^ En muchos casos, los investigadores publican o informan sobre múltiples versiones de un modelo que tiene diferentes tamaños. En estos casos, aquí se indica el tamaño del modelo más grande.
^ Esta es la licencia de los pesos modelo previamente entrenados. En casi todos los casos, el código de formación en sí es de código abierto o puede replicarse fácilmente.
^ Los modelos más pequeños, incluido el 66B, están disponibles públicamente, mientras que el modelo 175B está disponible bajo pedido.
^ El esquema de distribución y licencia de Facebook restringió el acceso a investigadores aprobados, pero los pesos de los modelos se filtraron y estuvieron ampliamente disponibles.
^ Como se indica en el informe técnico: "Dado tanto el panorama competitivo como las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, la computación de entrenamiento, la construcción del conjunto de datos, método de entrenamiento..." ^[170]

Referencias

^ "Mejores modelos de lenguaje y sus implicaciones". AbiertoAI . 2019-02-14. Archivado desde el original el 19 de diciembre de 2020 . Consultado el 25 de agosto de 2019 .
^ ab Bowman, Samuel R. (2023). "Ocho cosas que hay que saber sobre los modelos de lenguajes grandes". arXiv : 2304.00612 [cs.CL].
^ Peng, Bo; et al. (2023). "RWKV: Reinventar RNNS para la era de los transformadores". arXiv : 2305.13048 [cs.CL].
^ Merritt, Rick (25 de marzo de 2022). "¿Qué es un modelo de transformador?". Blog de NVIDIA . Consultado el 25 de julio de 2023 .
^ Gu, Alberto; Dao, Tri (1 de diciembre de 2023), Mamba: modelado de secuencias de tiempo lineal con espacios de estados selectivos , arXiv : 2312.00752
^ a b C Brown, Tom B.; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Satry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Niño, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Invierno, Clemens; Hesse, Cristóbal; Chen, Marcos; Sigler, Eric; Litwin, Mateusz; Gris, Scott; Ajedrez, Benjamín; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Darío (diciembre de 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcán, MF; Lin, H. (eds.). "Los modelos de lenguaje aprenden con pocas posibilidades" (PDF) . Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 33 : 1877–1901.
^ ab Manning, Christopher D. (2022). "Comprensión y razonamiento del lenguaje humano". Dédalo . 151 (2): 127-138. doi : 10.1162/daed_a_01905 . S2CID 248377870.
^ Vaswani, Ashish ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidan N ; Káiser, Łukasz; Polosukhin, Illia (2017). "La atención es todo lo que necesita" (PDF) . Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 30 .
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alinear y traducir". arXiv : 1409.0473 [cs.CL].
^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "Introducción a BERTology: lo que sabemos sobre cómo funciona BERT". Transacciones de la Asociación de Lingüística Computacional . 8 : 842–866. arXiv : 2002.12327 . doi :10.1162/tacl_a_00349. S2CID 211532403.
^ Hern, Alex (14 de febrero de 2019). "El nuevo generador de texto falso de IA puede ser demasiado peligroso para publicarlo, dicen los creadores". El guardián . Consultado el 20 de enero de 2024 .
^ "ChatGPT un año después: tres formas en que el chatbot de IA ha cambiado completamente el mundo en 12 meses". Euronoticias . 30 de noviembre de 2023 . Consultado el 20 de enero de 2024 .
^ Cielo, Will (14 de marzo de 2023). "GPT-4 es más grande y mejor que ChatGPT, pero OpenAI no dice por qué". Revisión de tecnología del MIT . Consultado el 20 de enero de 2024 .
^ "Parámetros en sistemas de inteligencia artificial destacados". ourworldindata.org . 30 de noviembre de 2023 . Consultado el 20 de enero de 2024 .
^ "Gemini Pro de Google supera a GPT-4". https://analyticsindiamag.com/ . 27 de enero de 2024 . Consultado el 29 de enero de 2024 .
^ "Tabla de clasificación de LMSYS Chatbot Arena". abrazandoface.co . Consultado el 20 de enero de 2024 .
^ "API abierta AI". plataforma.openai.com . Archivado desde el original el 23 de abril de 2023 . Consultado el 30 de abril de 2023 .
^ ab Paaß, Gerhard; Giesselbach, Sven (2022). "Modelos de lenguaje previamente entrenados". Modelos básicos para el procesamiento del lenguaje natural . Inteligencia artificial: fundamentos, teoría y algoritmos. págs. 19–78. doi :10.1007/978-3-031-23190-2_2. ISBN 9783031231902. Consultado el 3 de agosto de 2023 .
^ Petrov, Aleksandar; Emanuele La Malfa; Torr, Philip HS; Bibi, Adel (2023). "Los tokenizadores de modelos lingüísticos introducen injusticias entre idiomas". arXiv : 2305.15425 [cs.CL].
^ Yennie Jun (3 de mayo de 2023). "Todos los idiomas NO son creados (tokenizados) iguales". Los modelos de lenguaje cuestan mucho más en algunos idiomas que en otros . Consultado el 17 de agosto de 2023 . En otras palabras, para expresar el mismo sentimiento, algunos idiomas requieren hasta 10 veces más tokens.
^ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Felipe; Bibi, Adel (23 de junio de 2023). "Los tokenizadores de modelos lingüísticos introducen injusticias entre idiomas". NeurIPS . arXiv : 2305.15425 – a través de openreview.net.
^ Esquivar, Jesse; Sap, Martín; Marasović, Ana; Nuevo, William; Ilharco, Gabriel; Groeneveld, Dirk; Mitchell, Margarita; Gardner, Matt (2021). "Documentación de grandes corpus de textos web: un estudio de caso sobre el colosal corpus limpio y rastreado". arXiv : 2104.08758 [cs.CL].
^ Lee, Katherine; Hipólito, Dafne; Nystrom, Andrés; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas (mayo de 2022). "La deduplicación de datos de capacitación mejora los modelos de lenguaje" (PDF) . Actas de la 60ª Reunión Anual de la Asociación de Lingüística Computacional . 1: Artículos extensos: 8424–8445. doi :10.18653/v1/2022.acl-long.577.
^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (11 de septiembre de 2023), Los libros de texto son todo lo que necesita II: informe técnico de phi-1.5 , arXiv : 2309.05463
^ Marrón, Tom B.; et al. (2020). "Los modelos de lenguaje aprenden con pocas posibilidades". arXiv : 2005.14165 [cs.CL].
^ Ouyang, largo; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Rayo, Alex; Schulman, Juan; Hilton, Jacob; Kelton, Fraser; Molinero, Lucas; Simens, Maddie; Askell, Amanda; Welinder, Peter; Cristiano, Pablo; Leike, enero; Lowe, Ryan (2022). "Entrenar modelos de lenguaje para seguir instrucciones con retroalimentación humana". arXiv : 2203.02155 [cs.CL].
^ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noé A.; Khashabi, Daniel; Hajishirzi, Hannaneh (2022). "Autoinstrucción: alinear el modelo de lenguaje con instrucciones autogeneradas". arXiv : 2212.10560 [cs.CL].
^ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Decano, Jeff (1 de enero de 2017). "Redes neuronales escandalosamente grandes: la capa de mezcla de expertos escasamente cerrada". arXiv : 1701.06538 [cs.LG].
^ Lepikhin, Dmitry; Lee, Hyouk Joong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikún, Maxim; Shazeer, Noam; Chen, Zhifeng (12 de enero de 2021). "GShard: escalamiento de modelos gigantes con computación condicional y fragmentación automática". arXiv : 2006.16668 [cs.CL].
^ abcd Dai, Andrew M; Du, Nan (9 de diciembre de 2021). "Aprendizaje en contexto más eficiente con GLaM". ai.googleblog.com . Consultado el 9 de marzo de 2023 .
^ abc Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastián; Yogatama, Dani; Bosma, Martín; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Decano, Jeff; Fedus, William (31 de agosto de 2022). "Habilidades emergentes de grandes modelos lingüísticos". Transacciones sobre investigación en aprendizaje automático . ISSN 2835-8856.
^ Allamar, Jay. «Transformador ilustrado» . Consultado el 29 de julio de 2023 .
^ Allamar, Jay. "El GPT-2 ilustrado (visualización de modelos de lenguaje transformador)" . Consultado el 1 de agosto de 2023 .
^ "Nuestro modelo de próxima generación: Gemini 1.5". Google . 15 de febrero de 2024 . Consultado el 18 de febrero de 2024 .
^ "Solicitud de contexto largo para Claude 2.1". 6 de diciembre de 2023 . Consultado el 20 de enero de 2024 .
^ "Límites de tarifas". openai.com . Consultado el 20 de enero de 2024 .
^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 de febrero de 2020). "Una breve encuesta sobre modelos de lenguaje previamente entrenados para la IA conversacional: una nueva era en la PNL". Actas de la multiconferencia de la Semana de la Informática de Australasia . págs. 1–4. arXiv : 2104.10810 . doi :10.1145/3373017.3373028. ISBN 9781450376976. S2CID 211040895.
^ a b C Jurafsky, Dan; Martín, James H. (7 de enero de 2023). Procesamiento del habla y el lenguaje (PDF) (borrador de la tercera edición) . Consultado el 24 de mayo de 2022 .
^ ab Wiggers, Kyle (28 de abril de 2022). "Los tipos emergentes de modelos lingüísticos y por qué son importantes". TechCrunch .
^ Sharir, o; Peleg, Barac; Shoham, Yoav (2020). "El costo de formar modelos de PNL: una descripción general concisa". arXiv : 2004.08900 [cs.CL].
^ Biderman, Stella; Schoelkopf, Hailey; Antonio, Quintín; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (abril de 2023). "Pythia: una suite para analizar modelos de lenguaje grandes a través de entrenamiento y escalamiento". arXiv : 2304.01373 [cs.CL].
^ Maslej, Néstor; Fattorini, Loredana; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyon, Taré; Manyika, James; Ngo, Helen; Niebles, Juan Carlos (5 de octubre de 2023), Informe del índice de inteligencia artificial 2023, doi :10.48550/arXiv.2310.03715 , consultado el 12 de marzo de 2024
^ ab Sección 2.1 y Tabla 1, Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Marrón, Tom B.; Ajedrez, Benjamín; Niño, Rewon; Gris, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Darío (2020). "Leyes de escala para modelos de lenguaje neuronal". arXiv : 2001.08361 [cs.LG].
^ Gao, Luyu; Madaán, Amán; Zhou, Shuyan; Alón, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (1 de noviembre de 2022). "PAL: modelos de lenguaje asistidos por programas". arXiv : 2211.10435 [cs.CL].
^ "PAL: modelos de lenguaje asistidos por programas". Reasonwithpal.com . Consultado el 12 de junio de 2023 .
^ Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Lucas; Tulio Ribeiro, Marco (01/03/2023). "ART: razonamiento automático de varios pasos y uso de herramientas para modelos de lenguaje grandes". arXiv : 2303.09014 [cs.CL].
^ Liang, Yaobo; Wu, Chenfei; Canción, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (1 de marzo de 2023). "TaskMatrix.AI: completar tareas conectando modelos básicos con millones de API". arXiv : 2303.16434 [cs.AI].
^ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; González, Joseph E. (1 de mayo de 2023). "Gorilla: modelo de lenguaje grande conectado con API masivas". arXiv : 2305.15334 [cs.CL].
^ Lewis, Patricio; Pérez, Ethan; Piktus, Alexandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastián; Kiela, Douwe (2020). "Generación de recuperación aumentada para tareas de PNL intensivas en conocimiento". Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 33 : 9459–9474. arXiv : 2005.11401 .
^ Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (28 de junio de 2022). "Modelos de lenguaje como planificadores de tiro cero: extracción de conocimientos prácticos para agentes incorporados". Actas de la 39ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 9118–9147. arXiv : 2201.07207 .
^ Yao, Shunyu; Zhao, Jeffrey; Yu, Dian; Du, Nan; Safran, Izhak; Narasimhan, Karthik; Cao, Yuan (1 de octubre de 2022). "ReAct: sinergizar el razonamiento y la actuación en modelos de lenguaje". arXiv : 2210.03629 [cs.CL].
^ Wu, Yue; Prabhumoye, Srimai; Min, So Yeon (24 de mayo de 2023). "PRIMAVERA: GPT-4 supera a los algoritmos RL mediante el estudio de artículos y el razonamiento". arXiv : 2305.15486 [cs.AI].
^ Wang, Zihao; Cai, Shaofei; Liu, Anji; Mamá, Xiaojian; Liang, Yitao (3 de febrero de 2023). "Describir, explicar, planificar y seleccionar: la planificación interactiva con modelos de lenguaje grandes permite agentes multitarea de mundo abierto". arXiv : 2302.01560 [cs.AI].
^ Shinn, Noé; Cassano, Federico; Labash, Beck; Gopinath, Ashwin; Narasimhan, Karthik; Yao, Shunyu (1 de marzo de 2023). "Reflexión: agentes del lenguaje con aprendizaje por refuerzo verbal". arXiv : 2303.11366 [cs.AI].
^ Hao, Shibo; Gu, Yi; Mamá, Haodi; Jiahua Hong, Josué; Wang, Zhen; Zhe Wang, Margarita; Hu, Zhiting (1 de mayo de 2023). "Razonar con el modelo del lenguaje es planificar con el modelo del mundo". arXiv : 2305.14992 [cs.CL].
^ Zhang, Jenny; Lehman, Joel; Stanley, Kenneth; Clune, Jeff (2 de junio de 2023). "OMNI: apertura a través de modelos de nociones humanas de interés". arXiv : 2306.01711 [cs.AI].
^ ab "Voyager | Un agente incorporado de composición abierta con grandes modelos de lenguaje". voyager.minedojo.org . Consultado el 9 de junio de 2023 .
^ Parque, Joon Sung; O'Brien, Joseph C.; Cai, Carrie J.; Ringel Morris, Meredith; Liang, Percy; Bernstein, Michael S. (1 de abril de 2023). "Agentes generativos: simulacros interactivos del comportamiento humano". arXiv : 2304.03442 [cs.HC].
^ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louisos, Christos; Blankevoort, Tijmen (21 de noviembre de 2020). "¿Arriba o abajo? Redondeo adaptativo para cuantificación posterior al entrenamiento". Actas de la 37ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 7197–7206.
^ Polino, Antonio; Pascanu, Razvan; Alistarh, Dan (1 de febrero de 2018). "Compresión de modelos mediante destilación y cuantificación". arXiv : 1802.05668 [cs.NE].
^ Frantar, Elías; Ashkboos, Saleh; Hoefler, Torsten; Alistarh, Dan (1 de octubre de 2022). "GPTQ: Cuantización precisa posterior al entrenamiento para transformadores generativos preentrenados". arXiv : 2210.17323 [cs.LG].
^ Dettmers, Tim; Svirschevski, Ruslan; Egiazarian, Vage; Kuznedelev, Denis; Frantar, Elías; Ashkboos, Saleh; Borzunov, Alejandro; Hoefler, Torsten; Alistarh, Dan (1 de junio de 2023). "SpQR: una representación escasamente cuantificada para la compresión de peso LLM casi sin pérdidas". arXiv : 2306.03078 [cs.CL].
^ Dettmers, Tim; Pagnoni, Artidoro; Holtzman, Ari ; Zettlemoyer, Luke (1 de mayo de 2023). "QLoRA: ajuste eficiente de LLM cuantificados". arXiv : 2305.14314 [cs.LG].
^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, rico (18 de junio de 2014). "Modelos de lenguaje neuronal multimodal". Actas de la 31ª Conferencia Internacional sobre Aprendizaje Automático . PMLR: 595–603.
^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "Clasificación de ImageNet con redes neuronales convolucionales profundas". Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 25 .
^ Antol, Estanislao; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margarita; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: respuesta visual a preguntas". ICVC : 2425–2433.
^ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hola, Steven (1 de enero de 2023). "BLIP-2: entrenamiento previo de imágenes y lenguaje de arranque con codificadores de imágenes congeladas y modelos de lenguaje grandes". arXiv : 2301.12597 [cs.CV].
^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Paulina; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arturo; Millican, Katherine; Reynolds, Malcolm; Anillo, romano; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (6 de diciembre de 2022). "Flamingo: un modelo de lenguaje visual para el aprendizaje en pocas ocasiones". Avances en los sistemas de procesamiento de información neuronal . 35 : 23716–23736. arXiv : 2204.14198 .
^ Seco, Danny; Xia, Fei; Sajjadi, Mehdi SM; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Thompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (1 de marzo de 2023). "PaLM-E: un modelo de lenguaje multimodal incorporado". arXiv : 2303.03378 [cs.LG].
^ Liu, haotiano; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (1 de abril de 2023). "Ajuste de instrucciones visuales". arXiv : 2304.08485 [cs.CV].
^ Zhang, colgar; Li, Xin; Bing, Lidong (1 de junio de 2023). "Video-LLaMA: un modelo de lenguaje audiovisual adaptado a instrucciones para la comprensión de vídeos". arXiv : 2306.02858 [cs.CL].
^ OpenAI (27 de marzo de 2023). "Informe técnico GPT-4". arXiv : 2303.08774 [cs.CL].
^ OpenAI (25 de septiembre de 2023). "Tarjeta del sistema GPT-4V (ision)" (PDF) .
^ Pichai, Sundar, Google Keynote (Google I/O '23), marca de tiempo 15:31 , consultado el 2 de julio de 2023
^ Hoffmann, Jordania; Borgeaud, Sebastián; Mensch, Arturo; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (29 de marzo de 2022). "Entrenamiento de modelos de lenguajes grandes óptimos para la computación". arXiv : 2203.15556 [cs.CL].
^ ab Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escala neuronal infringidas". arXiv : 2210.14891 [cs.LG].
^ "137 habilidades emergentes de grandes modelos lingüísticos". Jason Wei . Consultado el 24 de junio de 2023 .
^ Hahn, Michael; Goyal, Navin (14 de marzo de 2023). "Una teoría del aprendizaje emergente en contexto como inducción de estructura implícita". arXiv : 2303.07971 [cs.LG].
^ Pilehvar, Mohammad Taher; Camacho-Collados, José (junio de 2019). "Actas de la Conferencia del Norte de 2019". Actas de la Conferencia de 2019 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Volumen 1 (artículos largos y cortos) . Minneapolis, Minnesota: Asociación de Lingüística Computacional: 1267–1273. doi :10.18653/v1/N19-1128. S2CID 102353817.
^ "WiC: el conjunto de datos de palabras en contexto". pilehvar.github.io . Consultado el 27 de junio de 2023 .
^ Patel, Roma; Pavlick, Ellie (6 de octubre de 2021). "Asignación de modelos de lenguaje a espacios conceptuales fundamentados". ICLR .
^ Una mirada más cercana a las habilidades emergentes de los modelos lingüísticos grandes (Yao Fu, 20 de noviembre de 2022)
^ Ornes, Stephen (16 de marzo de 2023). "Las habilidades impredecibles que surgen de los grandes modelos de IA". Revista Quanta .
^ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (1 de abril de 2023). "¿Son las habilidades emergentes de los modelos de lenguaje grandes un espejismo?". arXiv : 2304.15004 [cs.AI].
^ Li, Kenneth; Hopkins, Aspen K.; Bau, David; Viegas, Fernanda; Pfister, Hanspeter; Wattenberg, Martín (1 de octubre de 2022). "Representaciones del mundo emergente: exploración de un modelo de secuencia entrenado en una tarea sintética". arXiv : 2210.13382 [cs.LG].
^ "Modelo de lenguaje grande: ¿modelos mundiales o estadísticas superficiales?". El gradiente . 2023-01-21 . Consultado el 12 de junio de 2023 .
^ Jin, Carlos; Rinard, Martín (1 de mayo de 2023). "Evidencia de significado en modelos lingüísticos formados en programas". arXiv : 2305.11169 [cs.LG].
^ Nanda, Neel; Chan, Lorenzo; Liberum, Tom; Smith, Jess; Steinhardt, Jacob (1 de enero de 2023). "Medidas de progreso para asimilar mediante interpretabilidad mecanicista". arXiv : 2301.05217 [cs.LG].
^ abcde Mitchell, Melanie; Krakauer, David C. (28 de marzo de 2023). "El debate sobre la comprensión de los grandes modelos lingüísticos de la IA". Procedimientos de la Academia Nacional de Ciencias . 120 (13): e2215907120. arXiv : 2210.13966 . Código Bib : 2023PNAS..12015907M. doi :10.1073/pnas.2215907120. PMC 10068812 . PMID 36943882.
^ Metz, Cade (16 de mayo de 2023). "Microsoft dice que la nueva IA muestra signos de razonamiento humano". Los New York Times .
^ ab Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Pedro; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023). "Chispas de inteligencia general artificial: primeros experimentos con GPT-4". arXiv : 2303.12712 [cs.CL].
^ "ChatGPT se parece más a una 'inteligencia extraterrestre' que a un cerebro humano, dice un futurista". ZDNET . 2023 . Consultado el 12 de junio de 2023 .
^ ab Newport, Cal (13 de abril de 2023). "¿Qué tipo de mente tiene ChatGPT?". El neoyorquino . Consultado el 12 de junio de 2023 .
^ Roose, Kevin (30 de mayo de 2023). "Por qué una criatura parecida a un pulpo ha llegado a simbolizar el estado de la IA" The New York Times . Consultado el 12 de junio de 2023 .
^ "La A a la Z de la inteligencia artificial". Revista Hora . 13 de abril de 2023 . Consultado el 12 de junio de 2023 .
^ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (noviembre de 2022). «Encuesta sobre alucinaciones en la generación del lenguaje natural» (pdf) . Encuestas de Computación ACM . Asociación para Maquinaria de Computación . 55 (12): 1–38. arXiv : 2202.03629 . doi :10.1145/3571730. S2CID 246652372 . Consultado el 15 de enero de 2023 .
^ Varshney, Neeraj; Yao, Wenlin; Zhang, Hongming; Chen, Jianshu; Yu, Dong (2023). "Un punto en el tiempo ahorra nueve: detectar y mitigar las alucinaciones de los LLM mediante la validación de la generación de baja confianza". arXiv : 2307.03987 [cs.CL].
^ Lakoff, George (1999). Filosofía encarnada: la mente encarnada y su desafío a la filosofía occidental; Apéndice: La teoría neuronal del paradigma del lenguaje . Libros básicos de Nueva York. págs. 569–583. ISBN 978-0-465-05674-3.
^ Evans, Vyvyan. (2014). El mito del lenguaje . Prensa de la Universidad de Cambridge. ISBN 978-1-107-04396-1.
^ Friston, Karl J. (2022). Inferencia activa: el principio de la energía libre en la mente, el cerebro y el comportamiento; Capítulo 4 Los modelos generativos de inferencia activa . La prensa del MIT. ISBN 978-0-262-36997-8.
^ Huyen, chip (2019). "Comprensión de las métricas de evaluación para el modelado del lenguaje". El gradiente . Consultado el 14 de enero de 2024 .
^ ab Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (2019). "BoolQ: Explorando la sorprendente dificultad de las preguntas naturales de sí o no". arXiv : 1905.10044 [cs.CL].
^ a b C Wayne Xin Zhao; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen; Zhang, Junjie; Dong, Zican; Du, Yifan; Yang, Chen; Chen, Yushuo; Chen, Zhipeng; Jiang, Jinhao; Ren, Ruiyang; Li, Yifan; Tang, Xinyu; Liu, Zikang; Liu, Peiyu; Nie, Jian-Yun; Wen, Ji-Rong (2023). "Una encuesta de modelos de lenguaje grandes". arXiv : 2303.18223 [cs.CL].
^ Huyen, Chip (18 de octubre de 2019). "Métricas de evaluación para el modelado del lenguaje". El gradiente .
^ Srivastava, Aarohi; et al. (2022). "Más allá del juego de la imitación: cuantificar y extrapolar las capacidades de los modelos lingüísticos". arXiv : 2206.04615 [cs.CL].
^ Lin, Stephanie; Hilton, Jacob; Evans, Owain (2021). "TruthfulQA: medir cómo los modelos imitan las falsedades humanas". arXiv : 2109.07958 [cs.CL].
^ ab Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (2019). "HellaSwag: ¿Puede una máquina realmente terminar tu frase?". arXiv : 1905.07830 [cs.CL].
^ "Prepárese para modelos de lenguaje grandes realmente útiles". Ingeniería Biomédica de la Naturaleza . 7 (2): 85–86. 7 de marzo de 2023. doi :10.1038/s41551-023-01012-6. PMID 36882584. S2CID 257403466.
^ "Su trabajo está (probablemente) a salvo de la inteligencia artificial". El economista . 7 de mayo de 2023 . Consultado el 18 de junio de 2023 .
^ "La IA generativa podría aumentar el PIB mundial en un 7%". Goldman Sachs . Consultado el 18 de junio de 2023 .
^ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (13 de junio de 2023). "Búsqueda de secuencias casi duplicadas a escala para la evaluación de la memorización de modelos de lenguaje grandes" (PDF) . Actas de la ACM sobre Gestión de Datos . 1 (2): 1–18. doi :10.1145/3589324. S2CID 259213212 . Consultado el 20 de enero de 2024 .Citando a Lee et al 2022.
^ Peng, Wang y Deng 2023, pág. 8.
^ Alba, Davey (1 de mayo de 2023). "Se han utilizado chatbots de IA para crear docenas de granjas de contenido de noticias". Los tiempos de Japón . Consultado el 18 de junio de 2023 .
^ "¿Podrían los chatbots ayudar a diseñar el próximo virus pandémico?". Ciencia . 14 de junio de 2023. doi :10.1126/science.adj2463.
^ Stephen Council (1 de diciembre de 2023). "Cómo los empleados de Google descifraron el modelo tecnológico de un rival de SF con una sola palabra". PUERTA SF.
^ Hubinger, Evan (10 de enero de 2024). "Agentes durmientes: formación de LLM engañosos que persisten mediante la formación en seguridad". arXiv : 2401.05566 [cs.CR].
^ ab Stokel-Walker, Chris (22 de noviembre de 2023). "ChatGPT replica el sesgo de género en las cartas de recomendación". Científico americano . Consultado el 29 de diciembre de 2023 .
^ Luo, reina; Puett, Michael J.; Smith, Michael D. (28 de marzo de 2023). "Un espejo en perspectiva del elefante: investigación del sesgo lingüístico en Google, ChatGPT, Wikipedia y YouTube". arXiv : 2303.16281v2 [cs.CY].
^ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (29 de mayo de 2023), Personas marcadas: uso de indicaciones del lenguaje natural para medir estereotipos en modelos de lenguaje , arXiv : 2305.18189
^ Kotek, Hadas; Dockum, Rikker; Sol, David (5 de noviembre de 2023). "Sesgos de género y estereotipos en modelos de lenguaje grandes". Actas de la Conferencia de Inteligencia Colectiva de ACM . CI '23. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 12-24. doi :10.1145/3582269.3615599. ISBN 979-8-4007-0113-9.
^ Heikkilä, Melissa (7 de agosto de 2023). "Los modelos de lenguaje de IA están plagados de diferentes sesgos políticos". Revisión de tecnología del MIT . Consultado el 29 de diciembre de 2023 .
^ "finetune-transformer-lm" . GitHub . Consultado el 2 de enero de 2024 .
^ ab Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 de octubre de 2018). "BERT: formación previa de transformadores bidireccionales profundos para la comprensión del lenguaje". arXiv : 1810.04805v2 [cs.CL].
^ Prickett, Nicole Hemsoth (24 de agosto de 2021). "Cerebras cambia la arquitectura para adaptarse a modelos masivos de IA/ML". La próxima plataforma . Consultado el 20 de junio de 2023 .
^ "BERTO". 13 de marzo de 2023 – vía GitHub.
^ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constante, Noé; Raffel, Colin; Callison-Burch, Chris (2022). "Los modelos de lenguaje bidireccional también son aprendices con pocas posibilidades". arXiv : 2209.14500 [cs.LG].
^ "BERT, RoBERTa, DistilBERT, XLNet: ¿Cuál usar?". KDnuggets .
^ "xlnet". GitHub . Consultado el 2 de enero de 2024 .
^ Naik, Amit Raja (23 de septiembre de 2021). "Google presenta una nueva arquitectura para reducir el costo de los transformadores". Revista Analytics India .
^ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 de enero de 2020). "XLNet: preentrenamiento autorregresivo generalizado para la comprensión del lenguaje". arXiv : 1906.08237 [cs.CL].
^ "GPT-2: versión 1.5B". AbiertoAI . 2019-11-05. Archivado desde el original el 14 de noviembre de 2019 . Consultado el 14 de noviembre de 2019 .
^ "Mejores modelos de lenguaje y sus implicaciones". openai.com .
^ ab "Modelo de lenguaje GPT-3 de OpenAI: descripción técnica". lambdalabs.com . 3 de junio de 2020.
^ "gpt-2". GitHub . Consultado el 13 de marzo de 2023 .
^ Tabla D.1 en Brown, Tom B.; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Satry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Niño, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Invierno, Clemens; Hesse, Cristóbal; Chen, Marcos; Sigler, Eric; Litwin, Mateusz; Gris, Scott; Ajedrez, Benjamín; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Darío (28 de mayo de 2020). "Los modelos de lenguaje aprenden con pocas posibilidades". arXiv : 2005.14165v4 [cs.CL].
^ "ChatGPT: optimización de modelos lingüísticos para el diálogo". AbiertoAI . 2022-11-30 . Consultado el 13 de enero de 2023 .
^ "GPT Neo". 15 de marzo de 2023 – vía GitHub.
^ abc Gao, Leo; Biderman, Stella; Negro, Sid; Golding, Laurence; Hoppe, Travis; Fomentar, Carlos; Phang, Jason; Él, Horacio; Thite, Anish; Nabeshima, Noa; Prensa, Shawn; Leahy, Connor (31 de diciembre de 2020). "The Pile: un conjunto de datos de 800 GB de texto diverso para modelado de lenguaje". arXiv : 2101.00027 [cs.CL].
^ ab Iyer, Abhishek (15 de mayo de 2021). "La alternativa gratuita GPT-Neo de GPT-3 es algo que nos entusiasma". VentureBeat .
^ "GPT-J-6B: Introducción al modelo GPT de código abierto más grande | Vanguardia". www.forefront.ai . Consultado el 28 de febrero de 2023 .
^ abcdDey , Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, Guillermo; Patria, Ribhu; Tom, Marvin; Hestness, Joel (1 de abril de 2023). "Cerebras-GPT: modelos de lenguaje de computación abierta óptimos entrenados en el clúster de escala de oblea Cerebras". arXiv : 2304.03208 [cs.LG].
^ Alvi, Ali; Kharya, Paresh (11 de octubre de 2021). "Uso de DeepSpeed y Megatron para entrenar Megatron-Turing NLG 530B, el modelo de lenguaje generativo más grande y potente del mundo". Investigación de Microsoft .
^ ab Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patricio; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Srimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Niño, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Canción, Xia (4 de febrero de 2022). "Uso de DeepSpeed y Megatron para entrenar Megatron-Turing NLG 530B, un modelo de lenguaje generativo a gran escala". arXiv : 2201.11990 [cs.CL].
^ Wang, Shuohuan; Sol, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; Zhao, Yanbin; Pang, Chao; Liu, Jiaxiang; Chen, Xuyi; Lu, Yuxiang; Liu, Weixin; Wang, Xi; Bai, Yangfan; Chen, Qiuliang; Zhao, Li; Li, Shiyong; Sol, Peng; Yu, Dianhai; Mamá, Yanjun; Tian, Hao; Wu, Hua; Wu, Tian; Zeng, Wei; Li, Ge; Gao, Wen; Wang, Haifeng (23 de diciembre de 2021). "ERNIE 3.0 Titan: exploración de la formación previa mejorada del conocimiento a mayor escala para la comprensión y generación del lenguaje". arXiv : 2112.12731 [cs.CL].
^ "Producto". Antrópico . Consultado el 14 de marzo de 2023 .
^ ab Askell, Amanda; Bai, Yuntao; Chen, Anna; et al. (9 de diciembre de 2021). "Un Auxiliar de Lenguaje General como Laboratorio de Alineamiento". arXiv : 2112.00861 [cs.CL].
^ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; et al. (15 de diciembre de 2022). "IA constitucional: inocuidad de los comentarios de la IA". arXiv : 2212.08073 [cs.CL].
^ "Modelado del lenguaje a escala: Gopher, consideraciones éticas y recuperación". www.deepmind.com . 8 de diciembre de 2021 . Consultado el 20 de marzo de 2023 .
^ abc Hoffmann, Jordania; Borgeaud, Sebastián; Mensch, Arturo; et al. (29 de marzo de 2022). "Entrenamiento de modelos de lenguajes grandes óptimos para la computación". arXiv : 2203.15556 [cs.CL].
^ abcd Tabla 20 y página 66 de PaLM: escalamiento del modelado del lenguaje con rutas
^ ab Cheng, Heng-Tze; Thoppilan, Romal (21 de enero de 2022). "LaMDA: hacia modelos de diálogo seguros, fundamentados y de alta calidad para todo". ai.googleblog.com . Consultado el 9 de marzo de 2023 .
^ Thoppilan, Romal; De Freitas, Daniel; Salón, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Panadero, Leslie; Du, Yu; Li, YaGuang; Lee, Hongrae; Zheng, Huaixiu Steven; Ghafouri, Amin; Menegali, Marcelo (01/01/2022). "LaMDA: modelos de lenguaje para aplicaciones de diálogo". arXiv : 2201.08239 [cs.CL].
^ Negro, Sidney; Biderman, Stella; Hallahan, Eric; et al. (2022-05-01). GPT-NeoX-20B: un modelo de lenguaje autorregresivo de código abierto. Actas del episodio n.º 5 de BigScience: Taller sobre desafíos y perspectivas en la creación de modelos de lenguaje grandes. vol. Actas del episodio n.º 5 de BigScience: Taller sobre desafíos y perspectivas en la creación de modelos de lenguaje grandes. págs. 95-136 . Consultado el 19 de diciembre de 2022 .
^ abc Hoffmann, Jordania; Borgeaud, Sebastián; Mensch, Arturo; Sifre, Laurent (12 de abril de 2022). "Un análisis empírico del entrenamiento de modelos de lenguaje grande con cálculo óptimo". Blog de mente profunda .
^ Narang, Sharan; Chowdhery, Aakanksha (4 de abril de 2022). "Modelo de lenguaje Pathways (PaLM): ampliación a 540 mil millones de parámetros para un rendimiento innovador". ai.googleblog.com . Consultado el 9 de marzo de 2023 .
^ "Democratizar el acceso a modelos lingüísticos a gran escala con OPT-175B". ai.facebook.com .
^ Zhang, Susan; Rodillo, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 de junio de 2022). "OPT: modelos abiertos de lenguaje transformador previamente entrenados". arXiv : 2205.01068 [cs.CL].
^ ab Jruschov, Mikhail; Vasilev, Ruslán; Petrov, Alexéi; Zinov, Nikolay (22 de junio de 2022), YaLM 100B , consultado el 18 de marzo de 2023
^ ab Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Tintorero, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrosio; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (30 de junio de 2022). "Resolución de problemas de razonamiento cuantitativo con modelos de lenguaje". arXiv : 2206.14858 [cs.CL].
^ "Minerva: resolución de problemas de razonamiento cuantitativo con modelos de lenguaje". ai.googleblog.com . 30 de junio de 2022 . Consultado el 20 de marzo de 2023 .
^ Ananthaswamy, Anil (8 de marzo de 2023). "En IA, ¿más grande siempre es mejor?". Naturaleza . 615 (7951): 202–205. Código Bib :2023Natur.615..202A. doi :10.1038/d41586-023-00641-w. PMID 36890378. S2CID 257380916.
^ "bigscience/bloom · Cara abrazada". abrazandoface.co .
^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Antonio; Saravia, Elvis; Poulton, Andrés; Kerkez, Viktor; Stojnic, Robert (16 de noviembre de 2022). "Galáctica: un gran modelo de lenguaje para la ciencia". arXiv : 2211.09085 [cs.CL].
^ "El modelo de Alexa con parámetros 20B establece nuevas marcas en el aprendizaje de pocas tomas". Ciencia Amazónica . 2 de agosto de 2022.
^ Soltán, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; et al. (3 de agosto de 2022). "AlexaTM 20B: aprendizaje en pocas ocasiones utilizando un modelo Seq2Seq multilingüe a gran escala". arXiv : 2208.01448 [cs.CL].
^ "AlexaTM 20B ahora está disponible en Amazon SageMaker JumpStart | Blog de aprendizaje automático de AWS". aws.amazon.com . 17 de noviembre de 2022 . Consultado el 13 de marzo de 2023 .
^ abc "Presentación de LLaMA: un modelo de lenguaje grande fundamental de 65 mil millones de parámetros". Meta IA . 24 de febrero de 2023.
^ abc "El Falcon ha aterrizado en el ecosistema Hugging Face". abrazandoface.co . Consultado el 20 de junio de 2023 .
^ "CRFM de Stanford". crfm.stanford.edu .
^ "Informe técnico GPT-4" (PDF) . AbiertoAI . 2023. Archivado (PDF) desde el original el 14 de marzo de 2023 . Consultado el 14 de marzo de 2023 .
^ Dey, Nolan (28 de marzo de 2023). "Cerebras-GPT: una familia de modelos de lenguaje grandes, abiertos y eficientes desde el punto de vista informático". Cerebras .
^ "TII, con sede en Abu Dhabi, lanza su propia versión de ChatGPT". tii.ae.
^ Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Bautista; Almazrouei, Ebtesam; Launay, Julien (1 de junio de 2023). "El conjunto de datos RefinedWeb para Falcon LLM: superando a los corporaciones seleccionados con datos web y solo con datos web". arXiv : 2306.01116 [cs.CL].
^ "tiiuae/halcon-40b · Cara abrazada". abrazandoface.co . 2023-06-09 . Consultado el 20 de junio de 2023 .
^ Falcon 40B de los Emiratos Árabes Unidos, el modelo de inteligencia artificial mejor clasificado del mundo del Instituto de Innovación Tecnológica, ahora libre de regalías, 31 de mayo de 2023
^ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastián; Kambadur, Prabhanjan; Rosenberg, David; Mann, Gideon (30 de marzo de 2023). "BloombergGPT: un modelo de lenguaje amplio para las finanzas". arXiv : 2303.17564 [cs.LG].
^ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; Podolskiy, Alejandro; Arshinov, Grigory; Combate, Andrey; Piontkóvskaya, Irina; Wei, Jiansheng; Jiang, Xin; Su, Teng; Liu, Qun; Yao, junio (19 de marzo de 2023). "PanGu-Σ: hacia un modelo de lenguaje de billones de parámetros con computación heterogénea dispersa". arXiv : 2303.10845 [cs.CL].
^ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richard; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrés (14 de abril de 2023). "Conversaciones OpenAssistant: democratización de la alineación del modelo de lenguaje grande". arXiv : 2304.07327 [cs.CL].
^ Wrobel, Sharon. "La startup de Tel Aviv lanza un nuevo modelo de lenguaje de IA avanzado para rivalizar con OpenAI". www.timesofisrael.com . Consultado el 24 de julio de 2023 .
^ Wiggers, Kyle (13 de abril de 2023). "Con Bedrock, Amazon entra en la carrera de la IA generativa". TechCrunch . Consultado el 24 de julio de 2023 .
^ ab Elias, Jennifer (16 de mayo de 2023). "El modelo de inteligencia artificial más nuevo de Google utiliza casi cinco veces más datos de texto para el entrenamiento que su predecesor". CNBC . Consultado el 18 de mayo de 2023 .
^ "Presentación de PaLM 2". Google . 10 de mayo de 2023.
^ ab "Presentación de Llama 2: la próxima generación de nuestro modelo de lenguaje grande de código abierto". Meta IA . 2023 . Consultado el 19 de julio de 2023 .
^ "Claude 2". antrópico.com . Consultado el 12 de diciembre de 2023 .
^ ab "Halcón 180B". Instituto de Innovación Tecnológica . 2023 . Consultado el 21 de septiembre de 2023 .
^ "Anuncio de Mistral 7B". Mistral . 2023 . Consultado el 6 de octubre de 2023 .
^ "Presentación de Claude 2.1". antrópico.com . Consultado el 12 de diciembre de 2023 .
^ "Tarjeta modelo Grok-1". x.ai. Consultado el 12 de diciembre de 2023 .
^ "Géminis - Google DeepMind". mente profunda.google . Consultado el 12 de diciembre de 2023 .
^ "Mixtral de expertos". mistral.ai . 11 de diciembre de 2023 . Consultado el 12 de diciembre de 2023 .
^ Franzen, Carl (11 de diciembre de 2023). "Mistral conmociona a la comunidad de IA cuando el último modelo de código abierto eclipsa el rendimiento de GPT-3.5". VentureBeat . Consultado el 12 de diciembre de 2023 .
^ Hughes, Alyssa (12 de diciembre de 2023). "Phi-2: el sorprendente poder de los modelos de lenguaje pequeños". Investigación de Microsoft . Consultado el 13 de diciembre de 2023 .
^ Cheah, Eugenio. "🦅 Eagle 7B: superando a los Transformers con 1 billón de tokens en más de 100 idiomas (RWKV-v5)". blog.rwkv.com . Consultado el 31 de enero de 2024 .
^ "Nuestro modelo de próxima generación: Gemini 1.5". Google . 15 de febrero de 2024 . Consultado el 16 de febrero de 2024 . Esto significa que 1.5 Pro puede procesar grandes cantidades de información de una sola vez, incluida 1 hora de video, 11 horas de audio, bases de código con más de 30 000 líneas de código o más de 700 000 palabras. En nuestra investigación, también probamos con éxito hasta 10 millones de tokens.
^ "Gemma" - vía GitHub.
^ "Presentando la próxima generación de Claude". www.anthropic.com . Consultado el 4 de marzo de 2024 .

Otras lecturas

Jurafsky, Dan y Martín, James. H. Procesamiento del habla y el lenguaje: introducción al procesamiento del lenguaje natural, la lingüística computacional y el reconocimiento del habla, borrador de la tercera edición, 2023.
Phuong, María; Hutter, Marcus (2022). "Algoritmos formales para transformadores". arXiv : 2207.09238 [cs.LG].
Eloundou, Tyna; Manning, Sam; Mishkin, Pamela; Roca, Daniel (2023). "Los GPT son GPT: una mirada temprana al potencial de impacto de los grandes modelos lingüísticos en el mercado laboral". arXiv : 2303.10130 [econ.GN].
Eldan, Ronen; Li, Yuanzhi (2023). "TinyStories: ¿Qué tan pequeños pueden ser los modelos de lenguaje y aún hablar un inglés coherente?". arXiv : 2305.07759 [cs.CL].
Frank, Michael C. (27 de junio de 2023). "Pequeños pasos en la evaluación de las capacidades de grandes modelos lingüísticos". Psicología de las Reseñas de la Naturaleza . 2 (8): 451–452. doi :10.1038/s44159-023-00211-x. ISSN 2731-0574. S2CID 259713140 . Consultado el 2 de julio de 2023 .
Zhao, Wayne Xin; et al. (2023). "Una encuesta de modelos de lenguaje grandes". arXiv : 2303.18223 [cs.CL].
Kaddour, Jean; et al. (2023). "Desafíos y aplicaciones de grandes modelos de lenguaje". arXiv : 2307.10169 [cs.CL].
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Como; Sol, Xing; Xu, Tong; Chen, Enhong (1 de junio de 2023). "Una encuesta sobre modelos de lenguajes grandes multimodales". arXiv : 2306.13549 [cs.CV].
Abra el repositorio de LLM en GitHub .