LLaMA ( Large Language Model Meta AI ) es una familia de modelos de lenguaje grandes (LLM) autorregresivos, lanzados por Meta AI a partir de febrero de 2023.
Para la primera versión de LLaMA, se entrenaron cuatro tamaños de modelos: 7, 13, 33 y 65 mil millones de parámetros. Los desarrolladores de LLaMA informaron que el rendimiento del modelo de parámetros 13B en la mayoría de los puntos de referencia de PNL superó al del GPT-3 , mucho más grande (con parámetros de 175B) y que el modelo más grande era competitivo con modelos de última generación como PaLM y Chinchilla . [1] Mientras que los LLM más potentes generalmente han sido accesibles solo a través de API limitadas (si es que existen), Meta lanzó los pesos del modelo de LLaMA a la comunidad de investigación bajo una licencia no comercial. [2] Una semana después del lanzamiento de LLaMA, sus pesos se filtraron al público en 4chan a través de BitTorrent . [3]
En julio de 2023, Meta lanzó varios modelos como Llama 2, utilizando 7, 13 y 70 mil millones de parámetros.
El 18 de julio de 2023, en asociación con Microsoft , Meta anunció LLaMA-2, la próxima generación de LLaMA. Meta entrenó y lanzó LLaMA-2 en tres tamaños de modelo: 7, 13 y 70 mil millones de parámetros. [4] La arquitectura del modelo permanece prácticamente sin cambios con respecto a la de los modelos LLaMA-1, pero se utilizó un 40% más de datos para entrenar los modelos fundamentales. [5] La preimpresión adjunta [5] también menciona un modelo con parámetros 34B que podría lanzarse en el futuro si se cumplen los objetivos de seguridad.
LLaMA-2 incluye modelos fundamentales y modelos optimizados para el diálogo, llamados LLaMA-2 Chat. A diferencia de LLaMA-1, todos los modelos se lanzan con pesas y son gratuitos para muchos casos de uso comercial. Sin embargo, debido a algunas restricciones restantes, la Open Source Initiative (conocida por mantener la definición de código abierto ) ha cuestionado la descripción de LLaMA como código abierto . [6]
En noviembre de 2023, una investigación realizada por Patronus AI, una nueva empresa de inteligencia artificial, comparó el rendimiento de LLaMA-2, GPT -4 y GPT-4-Turbo de OpenAI y Claude2 de Anthropic en dos versiones de una prueba de 150 preguntas. sobre información en presentaciones de la SEC (por ejemplo, Formulario 10-K , Formulario 10-Q , Formulario 8-K , informes de ganancias , transcripciones de llamadas de ganancias ) presentados por empresas públicas a la agencia donde una versión de la prueba requería que los modelos generativos de IA usaran un sistema de recuperación para localizar la presentación SEC específica para responder las preguntas, mientras que la otra versión proporcionaba la presentación SEC específica a los modelos para responder la pregunta (es decir, en una ventana de contexto larga). En la versión del sistema de recuperación, GPT-4-Turbo y LLaMA-2 no lograron producir respuestas correctas al 81% de las preguntas, mientras que en la versión de ventana de contexto larga, GPT-4-Turbo y Claude-2 no lograron producir respuestas correctas. al 21% y 24% de las preguntas respectivamente. [7] [8]
Sol: Hola Plutón, ¿qué pasa?
Plutón: No mucho. Simplemente pasando el rato aquí en el borde del sistema solar.
Sun: Sí, quería hablar contigo sobre eso. Ya no eres un planeta.
Plutón: ¿Qué? Vamos hombre. No es justo.
sol: lo siento, pero es verdad. Simplemente ya no cumples con los criterios.
Plutón: ¡Esto es una tontería! ¡He sido un planeta durante más de 70 años!
Sol: Las cosas cambian, Plutón. Sólo tienes que aceptarlo.
Plutón: ¡Que te jodan, Sol! ¡Que te jodan a ti y a tu estúpido sistema solar!
– Salida del modelo LLaMA de 65 mil millones de parámetros después del ajuste de instrucciones ante el mensaje "Escribe una conversación entre el Sol y Plutón" [1]
LLaMA utiliza la arquitectura transformadora , la arquitectura estándar para el modelado de lenguajes desde 2018.
Hay pequeñas diferencias arquitectónicas. Comparado con GPT-3, LLaMA
Los desarrolladores de LLaMA centraron sus esfuerzos en escalar el rendimiento del modelo aumentando el volumen de datos de entrenamiento, en lugar de la cantidad de parámetros, razonando que el costo dominante para los LLM proviene de hacer inferencias sobre el modelo entrenado en lugar del costo computacional del proceso de entrenamiento.
Los modelos fundamentales de LLaMA 1 se entrenaron en un conjunto de datos con 1,4 billones de tokens, extraídos de fuentes de datos disponibles públicamente, que incluyen: [1]
Los modelos fundamentales de Llama 2 se entrenaron en un conjunto de datos con 2 billones de tokens. Este conjunto de datos fue seleccionado para eliminar sitios web que a menudo revelan datos personales de personas. También muestra fuentes consideradas confiables. [5] Llama 2: el chat también se ajustó en 27,540 pares de respuesta rápida creados para este proyecto, que funcionaron mejor que conjuntos de datos de terceros más grandes pero de menor calidad. Para la alineación de la IA, se utilizó el aprendizaje reforzado con retroalimentación humana (RLHF) con una combinación de 1.418.091 metaejemplos y siete conjuntos de datos más pequeños. La profundidad promedio del diálogo fue 3,9 en los metaejemplos, 3,0 para los conjuntos Anthropic Útil y Anthropic Harmless, y 1,0 para otros cinco conjuntos, incluidos OpenAI Summarize, StackExchange, etc.
Los modelos Llama 1 solo están disponibles como modelos básicos con aprendizaje autosupervisado y sin ajustes. Llama 2: los modelos de chat se derivaron de los modelos fundamentales de Llama 2. A diferencia de GPT-4 , que aumentó la longitud del contexto durante el ajuste, Llama 2 y Llama 2 - Chat tienen la misma longitud de contexto de tokens 4K. El ajuste fino supervisado utilizó una función de pérdida autorregresiva con la pérdida de token en las indicaciones del usuario puesta a cero. El tamaño del lote fue 64.
Para la alineación de la IA , los anotadores humanos escribieron indicaciones y luego compararon los resultados de dos modelos (un protocolo binario), proporcionando niveles de confianza y etiquetas de seguridad separadas con poder de veto. Se entrenaron dos modelos de recompensa separados a partir de estas preferencias de seguridad y utilidad utilizando el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Una contribución técnica importante es el abandono del uso exclusivo de la optimización de políticas próximas (PPO) para RLHF: se utilizó una nueva técnica basada en el muestreo de rechazo , seguida de la PPO.
Se buscó mejorar la coherencia de varios turnos en los diálogos, para garantizar que los "mensajes del sistema" (instrucciones iniciales, como "hablar en francés" y "actuar como Napoleón") se respeten durante el diálogo. Esto se logró utilizando la nueva técnica de "atención fantasma" durante el entrenamiento, que concatena instrucciones relevantes para cada mensaje de usuario nuevo pero pone a cero la función de pérdida de tokens en el mensaje (partes anteriores del diálogo).
LLaMA se anunció el 24 de febrero de 2023 a través de una publicación de blog y un artículo que describe la capacitación , la arquitectura y el rendimiento del modelo . [1] [2] El código de inferencia utilizado para ejecutar el modelo se publicó públicamente bajo la licencia GPL 3 de código abierto . [13] El acceso a las ponderaciones del modelo se gestionó mediante un proceso de solicitud, y el acceso se otorgaría "caso por caso a investigadores académicos; aquellos afiliados a organizaciones gubernamentales, de la sociedad civil y académicas; y a laboratorios de investigación de la industria". alrededor del mundo". [2]
El 3 de marzo de 2023, se cargó un torrent que contenía los pesos de LLaMA, con un enlace al torrent compartido en el tablero de imágenes de 4chan y posteriormente difundido a través de comunidades de IA en línea. [3] Ese mismo día, se abrió una solicitud de extracción en el repositorio principal de LLaMA, solicitando agregar el enlace magnético a la documentación oficial. [14] [15] El 4 de marzo, se abrió una solicitud de extracción para agregar enlaces a los repositorios de HuggingFace que contienen el modelo. [16] [14] El 6 de marzo, Meta presentó solicitudes de eliminación para eliminar los repositorios de HuggingFace vinculados en la solicitud de extracción, caracterizándolo como "distribución no autorizada" del modelo. HuggingFace cumplió con las solicitudes. [17] El 20 de marzo, Meta presentó una solicitud de eliminación DMCA por infracción de derechos de autor contra un repositorio que contenía un script que descargaba LLaMA desde un espejo, y GitHub cumplió al día siguiente. [18] Hasta el 25 de marzo, Facebook no ha respondido a la solicitud de extracción que contiene el enlace magnético. [15]
Las reacciones a la filtración variaron. Algunos especularon que el modelo se utilizaría con fines maliciosos, como spam más sofisticado . Algunos han celebrado la accesibilidad del modelo, así como el hecho de que se pueden ejecutar versiones más pequeñas del modelo a un costo relativamente bajo, sugiriendo que esto promoverá el florecimiento de desarrollos de investigación adicionales. [3] Múltiples comentaristas, como Simon Willison , compararon LLaMA con Stable Diffusion , un modelo de texto a imagen que, a diferencia de modelos comparablemente sofisticados que lo precedieron, se distribuyó abiertamente, lo que llevó a una rápida proliferación de herramientas, técnicas y métodos asociados. software. [3] [19]
El 17 de abril de 2023, TogetherAI lanzó un proyecto llamado RedPajama para reproducir y distribuir una versión de código abierto del conjunto de datos LLaMA. [20] El conjunto de datos tiene aproximadamente 1,2 billones de tokens y está disponible públicamente para su descarga. [21]
El desarrollador de software Georgi Gerganov lanzó llama.cpp, una reimplementación optimizada para software de LLaMa en C++. Esto permitió a muchos ejecutar la serie de modelos LLaMa localmente. [22]
El Centro de Investigación sobre Modelos Fundamentales (CRFM) del Instituto de Inteligencia Artificial Centrada en el Humano (HAI) de la Universidad de Stanford lanzó Alpaca, una receta de entrenamiento basada en el modelo LLaMA 7B que utiliza el método de ajuste de instrucción "Self-Instruct" para adquirir capacidades comparables. al modelo text-davinci-003 de la serie OpenAI GPT-3 a un costo modesto. [23] [24] Múltiples proyectos de código abierto son [ ¿cuándo? ] continuando con este trabajo de ajuste de LLaMA con el conjunto de datos de Alpaca. [25]