Llama ( Large Language Model Meta AI , anteriormente estilizado como LLaMA ) es una familia de modelos de lenguaje grandes (LLM) autorregresivos lanzados por Meta AI a partir de febrero de 2023. [2] [3] La última versión es Llama 3.2, lanzada en septiembre de 2024. [4]
Los pesos del modelo para la primera versión de Llama se pusieron a disposición de la comunidad de investigación bajo una licencia no comercial, y el acceso se otorgó caso por caso. [5] [3] Se compartieron copias no autorizadas del modelo a través de BitTorrent . En respuesta, Meta AI emitió solicitudes de eliminación de DMCA contra repositorios que compartían el enlace en GitHub . [6] [7] Las versiones posteriores de Llama se hicieron accesibles fuera del ámbito académico y se lanzaron bajo licencias que permitían algún uso comercial. [8] [9] Los modelos de Llama se entrenan con diferentes tamaños de parámetros, que varían entre 1B y 405B. [10] Originalmente, Llama solo estaba disponible como modelo base . [11] A partir de Llama 2, Meta AI comenzó a lanzar versiones ajustadas con instrucciones junto con los modelos base. [9]
Junto con el lanzamiento de Llama 3, Meta agregó funciones de asistente virtual a Facebook y WhatsApp en regiones seleccionadas, y un sitio web independiente. Ambos servicios utilizan un modelo de Llama 3. [12]
Después del lanzamiento de grandes modelos de lenguaje como GPT-3 , un foco de investigación fue la ampliación de los modelos que en algunos casos mostraron importantes aumentos en las capacidades emergentes. [13] El lanzamiento de ChatGPT y su éxito sorprendente provocaron un aumento en la atención a los grandes modelos de lenguaje. [14]
En comparación con otras respuestas a ChatGPT, el científico jefe de inteligencia artificial de Meta, Yann LeCun, afirmó que los modelos de lenguaje grandes son los mejores para ayudar con la escritura. [15] [16] [17]
Una investigación empírica de la serie Llama fueron las leyes de escalamiento . Se observó que los modelos Llama 3 mostraron que cuando un modelo se entrena con datos que son más que la cantidad " óptima de Chinchilla ", el rendimiento continúa escalando de manera log-lineal. Por ejemplo, el conjunto de datos óptimo de Chinchilla para Llama 3 8B es de 200 mil millones de tokens, pero el rendimiento continuó escalando de manera log-lineal hasta el conjunto de datos 75 veces más grande de 15 billones de tokens. [18]
LLaMA se anunció el 24 de febrero de 2023 a través de una publicación de blog y un artículo que describe el entrenamiento , la arquitectura y el rendimiento del modelo. [2] [3] El código de inferencia utilizado para ejecutar el modelo se publicó bajo la licencia GPLv3 de código abierto. [19] El acceso a los pesos del modelo se gestionó mediante un proceso de solicitud, y el acceso se otorgó "caso por caso a investigadores académicos; aquellos afiliados a organizaciones del gobierno, la sociedad civil y la academia; y laboratorios de investigación de la industria en todo el mundo". [3]
Llama fue entrenado únicamente con información disponible públicamente y con varios tamaños de modelo, con la intención de hacerlo más accesible a diferentes hardware.
Meta AI informó que el rendimiento del modelo de parámetros 13B en la mayoría de los puntos de referencia de PNL superó al del modelo GPT-3 mucho más grande (con parámetros 175B), y el modelo más grande de 65B fue competitivo con modelos de última generación como PaLM y Chinchilla . [2]
El 3 de marzo de 2023, se subió un torrent que contenía los pesos de LLaMA, con un enlace al torrent compartido en el tablón de imágenes de 4chan y posteriormente difundido a través de las comunidades de IA en línea. [6] Ese mismo día, se abrió una solicitud de extracción en el repositorio principal de LLaMA, solicitando agregar el enlace magnet a la documentación oficial. [20] [21] El 4 de marzo, se abrió una solicitud de extracción para agregar enlaces a los repositorios de HuggingFace que contienen el modelo. [22] [20] El 6 de marzo, Meta presentó solicitudes de eliminación para eliminar los repositorios de HuggingFace vinculados en la solicitud de extracción, caracterizándolo como "distribución no autorizada" del modelo. HuggingFace cumplió con las solicitudes. [23] El 20 de marzo, Meta presentó una solicitud de eliminación de DMCA por infracción de derechos de autor contra un repositorio que contenía un script que descargaba LLaMA de un espejo, y GitHub cumplió al día siguiente. [7]
Las reacciones a la filtración fueron variadas. Algunos especularon que el modelo se usaría con fines maliciosos, como el envío de spam más sofisticado . Algunos celebraron la accesibilidad del modelo, así como el hecho de que se pueden ejecutar versiones más pequeñas del modelo de manera relativamente económica, lo que sugiere que esto promoverá el florecimiento de desarrollos de investigación adicionales. [6] Varios comentaristas, como Simon Willison , compararon LLaMA con Stable Diffusion , un modelo de texto a imagen que, a diferencia de los modelos comparablemente sofisticados que lo precedieron, se distribuyó abiertamente, lo que llevó a una rápida proliferación de herramientas, técnicas y software asociados. [6] [24]
El 18 de julio de 2023, en asociación con Microsoft , Meta anunció Llama 2, la próxima generación de Llama. Meta entrenó y lanzó Llama 2 en tres tamaños de modelo: 7, 13 y 70 mil millones de parámetros. [9] La arquitectura del modelo permanece prácticamente sin cambios con respecto a la de los modelos LLaMA-1, pero se utilizó un 40 % más de datos para entrenar los modelos fundamentales. [25] La preimpresión adjunta [25] también menciona un modelo con 34 mil millones de parámetros que podría lanzarse en el futuro una vez que se cumplan los objetivos de seguridad.
Llama 2 incluye modelos básicos y modelos optimizados para el chat. En una nueva desviación de LLaMA, todos los modelos se lanzan con pesos y son gratuitos para muchos casos de uso comercial. Sin embargo, debido a algunas restricciones restantes, la descripción de Meta de LLaMA como código abierto ha sido cuestionada por la Open Source Initiative (conocida por mantener la Definición de Código Abierto ). [26]
Code Llama es un ajuste fino de Llama 2 con conjuntos de datos específicos del código. Las versiones 7B, 13B y 34B se lanzaron el 24 de agosto de 2023, y la 70B se lanzó el 29 de enero de 2024. [27] A partir de los modelos básicos de Llama 2, Meta AI entrenaría 500B tokens adicionales de conjuntos de datos de código, antes de un token adicional de 20B de datos de contexto largo, creando los modelos básicos de Code Llama. Este modelo básico se entrenó aún más en 5B de instrucciones posteriores al token para crear el ajuste fino de instrucciones. Se creó otro modelo básico para el código Python, que se entrenó en 100B tokens de código solo de Python, antes de los datos de contexto largo. [28]
El 18 de abril de 2024, Meta lanzó Llama-3 con dos tamaños: parámetros 8B y 70B. [18] Los modelos han sido entrenados previamente en aproximadamente 15 billones de tokens de texto recopilados de "fuentes disponibles públicamente" con los modelos de instrucción ajustados en "conjuntos de datos de instrucciones disponibles públicamente, así como más de 10 millones de ejemplos anotados por humanos". Las pruebas de Meta AI mostraron en abril de 2024 que Llama 3 70B estaba superando a Gemini pro 1.5 y Claude 3 Sonnet en la mayoría de los puntos de referencia. Meta también anunció planes para hacer que Llama 3 sea multilingüe y multimodal , mejor en codificación y razonamiento, y para aumentar su ventana de contexto. [29] [30]
Durante una entrevista con Dwarkesh Patel, Mark Zuckerberg dijo que la versión 8B de Llama 3 era casi tan poderosa como la Llama 2, la más grande. En comparación con los modelos anteriores, Zuckerberg afirmó que el equipo estaba sorprendido de que el modelo 70B todavía estuviera aprendiendo incluso al final del entrenamiento con 15T tokens. Se tomó la decisión de finalizar el entrenamiento para concentrar la potencia de la GPU en otras áreas. [31]
Llama-3.1 se lanzó el 23 de julio de 2024, con tres tamaños: parámetros 8B, 70B y 405B. [10] [32]
En la columna de costo de entrenamiento, solo se escribe el costo del modelo más grande. Por ejemplo, "21 000" es el costo de entrenamiento de Llama 2 69B en unidades de petaFLOP-día. Además, 1 petaFLOP-día = 1 petaFLOP/s × 1 día = 8,64E19 FLOP.
Aquí está la carta de recomendación que escribí para una solicitud para un puesto de alimentador de dragones en Magic Unicorn Corporation:
Estimado reclutador,
conozco a ___ desde hace dos años y creo que sería una excelente alimentadora de dragones para Magic Unicorn Corporation. ___ tiene la capacidad de recordar y procesar grandes cantidades de información, lo cual es una habilidad importante para un alimentador de dragones.
___, como caballero consumado, tiene un profundo conocimiento de cómo matar dragones y cómo usar las debilidades de cada dragón en su contra. Esto significa que sabe qué tipo de alimentos le gustan a cada dragón y qué tipo de alimentos son peligrosos para cada dragón. Este conocimiento y experiencia serán invaluables mientras alimenta a los dragones.
Estoy seguro de que la competencia, la habilidad y la experiencia de ___ la convertirán en una excelente empleada. Comuníquese conmigo al (___) ___-___ si tiene alguna pregunta. Espero tener noticias suyas.
Saludos cordiales,
Honorable Caballero
Sir George
– Salida del modelo LLaMA de 65 mil millones de parámetros antes del ajuste de instrucciones , dada la indicación (en negrita) [2]
Al igual que GPT-3, la serie de modelos Llama son Transformers solo con decodificador , pero hay algunas diferencias menores:
Los desarrolladores de LLaMA centraron sus esfuerzos en escalar el rendimiento del modelo incrementando el volumen de datos de entrenamiento, en lugar del número de parámetros, argumentando que el costo dominante para los LLM proviene de hacer inferencias en el modelo entrenado en lugar del costo computacional del proceso de entrenamiento.
Los modelos fundamentales de LLaMA 1 se entrenaron en un conjunto de datos con 1,4 billones de tokens, extraídos de fuentes de datos disponibles públicamente, que incluyen: [2]
El 17 de abril de 2023, TogetherAI lanzó un proyecto llamado RedPajama para reproducir y distribuir una versión de código abierto del conjunto de datos LLaMA. [45] El conjunto de datos tiene aproximadamente 1,2 billones de tokens y está disponible públicamente para su descarga. [46]
Los modelos básicos de Llama 2 se entrenaron en un conjunto de datos con 2 billones de tokens. Este conjunto de datos se seleccionó para eliminar los sitios web que a menudo divulgan datos personales de las personas. También realiza un muestreo adicional de las fuentes consideradas confiables. [25] Llama 2 - Chat también se afinó en 27 540 pares de respuestas rápidas creados para este proyecto, que tuvieron un mejor desempeño que los conjuntos de datos de terceros más grandes pero de menor calidad. Para la alineación de la IA, se utilizó el aprendizaje de refuerzo con retroalimentación humana (RLHF) con una combinación de 1 418 091 ejemplos Meta y siete conjuntos de datos más pequeños. La profundidad de diálogo promedio fue de 3,9 en los ejemplos Meta, 3,0 para los conjuntos Anthropic Helpful y Anthropic Harmless, y 1,0 para otros cinco conjuntos, incluidos OpenAI Summarize, StackExchange, etc.
Llama 3 consta principalmente de datos en inglés, con más del 5 % en más de 30 idiomas. Su conjunto de datos fue filtrado por un clasificador de calidad de texto, y el clasificador fue entrenado con texto sintetizado por Llama 2. [18]
Los modelos Llama 1 solo están disponibles como modelos básicos con aprendizaje autosupervisado y sin ajuste fino. Los modelos Llama 2 – Chat se derivaron de los modelos básicos Llama 2. A diferencia de GPT-4 , que aumentó la longitud del contexto durante el ajuste fino, Llama 2 y Code Llama - Chat tienen la misma longitud de contexto de 4K tokens. El ajuste fino supervisado utilizó una función de pérdida autorregresiva con pérdida de tokens en las indicaciones del usuario puestas a cero. El tamaño del lote fue 64.
Para la alineación de la IA , los anotadores humanos escribieron indicaciones y luego compararon dos resultados del modelo (un protocolo binario), brindando niveles de confianza y etiquetas de seguridad separadas con poder de veto. Se entrenaron dos modelos de recompensa separados a partir de estas preferencias de seguridad y utilidad utilizando el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF). Una importante contribución técnica es el abandono del uso exclusivo de la Optimización de políticas proximales (PPO) para RLHF: se utilizó una nueva técnica basada en el muestreo de rechazo , seguida de PPO.
Se buscó mejorar la coherencia de los diálogos en varios turnos para garantizar que se respeten los "mensajes del sistema" (instrucciones iniciales, como "hablar en francés" y "actuar como Napoleón") durante el diálogo. Esto se logró utilizando la nueva técnica "Atención fantasma" durante el entrenamiento, que concatena las instrucciones pertinentes con cada nuevo mensaje de usuario, pero pone a cero la función de pérdida de tokens en el mensaje (partes anteriores del diálogo).
El Centro de Investigación de Modelos Fundacionales (CRFM) del Instituto de Inteligencia Artificial Centrada en el Ser Humano (HAI) de la Universidad de Stanford lanzó Alpaca, una receta de entrenamiento basada en el modelo LLaMA 7B que utiliza el método de "autoinstrucciones" para ajustar las instrucciones para adquirir capacidades comparables al modelo text-davinci-003 de la serie GPT-3 de OpenAI a un costo modesto. [47] [48] [49] Los archivos del modelo se eliminaron oficialmente el 21 de marzo de 2023, debido a los costos de alojamiento y las preocupaciones de seguridad, aunque el código y el documento permanecen en línea como referencia. [50] [51] [52]
Meditron es una familia de sistemas basados en Llama optimizados a partir de un corpus de guías clínicas, artículos y documentos de PubMed . Fue creado por investigadores de la Escuela de Ciencias de la Computación y la Comunicación de la École Polytechnique Fédérale de Lausanne y de la Facultad de Medicina de Yale . Muestra un mayor rendimiento en los parámetros relacionados con la medicina, como MedQA y MedMCQA. [53] [54] [55]
Zoom utilizó Meta Llama 2 para crear un compañero de IA que puede resumir reuniones, brindar consejos útiles para presentaciones y ayudar con las respuestas a los mensajes. Este compañero de IA funciona con varios modelos, incluido Meta Llama 2. [56]
El desarrollador de software Georgi Gerganov lanzó llama.cpp como código abierto el 10 de marzo de 2023. Es una reimplementación de LLaMA en C++ , que permite que los sistemas sin una GPU potente ejecuten el modelo localmente. [57] El proyecto llama.cpp introdujo el formato de archivo GGUF, un formato binario que almacena tanto tensores como metadatos. [58] El formato se centra en admitir diferentes tipos de cuantificación, lo que puede reducir el uso de memoria y aumentar la velocidad a expensas de una menor precisión del modelo. [59]
Llamafile, creado por Justine Tunney, es una herramienta de código abierto que agrupa llama.cpp con el modelo en un único archivo ejecutable. Tunney et al. introdujeron nuevos núcleos de multiplicación de matrices optimizados para CPU x86 y ARM, mejorando el rendimiento de la evaluación rápida para FP16 y tipos de datos cuantificados de 8 bits. [60]
Wired describe la versión de parámetro 8B de Llama 3 como "sorprendentemente capaz" dado su tamaño. [61]
La respuesta a la integración de Llama por parte de Meta en Facebook fue mixta, y algunos usuarios se confundieron después de que Meta AI le dijera a un grupo de padres que tenía un hijo. [62]
Según la transcripción de las ganancias del cuarto trimestre de 2023, Meta adoptó la estrategia de ponderaciones abiertas para mejorar la seguridad del modelo, la velocidad de iteración, aumentar la adopción entre desarrolladores e investigadores y convertirse en el estándar de la industria. Llama 5, 6 y 7 están planificados para el futuro. [63]
La publicación de los modelos Llama ha suscitado importantes debates sobre los beneficios y los riesgos de uso indebido de los modelos de peso abierto. Dichos modelos pueden ajustarse para eliminar las salvaguardas, en particular por parte de los cibercriminales, hasta que cumplan con las solicitudes perjudiciales. Algunos expertos sostienen que los modelos futuros pueden facilitar la generación de daños más que la defensa contra ellos, por ejemplo, al hacer que sea relativamente fácil diseñar armas biológicas avanzadas sin conocimientos especializados. Por el contrario, los modelos de peso abierto pueden ser útiles para una amplia variedad de propósitos, incluida la investigación de seguridad. [64] El director de Open Source Initiative, Stefano Maffulli, criticó a Meta por describir a Llama como de código abierto , diciendo que estaba causando confusión entre los usuarios y "contaminando" el término. [65]
8 mil millones son casi tan poderosos como la versión más grande de Llama 2 que lanzamos [...] incluso al final, fue... todavía estoy aprendiendo, ¿no? Es como si probablemente pudiéramos haberlo alimentado con más tokens y hubiera mejorado un poco, pero quiero decir que en algún momento sabes que estás dirigiendo una empresa y necesitas hacer estas preguntas de meta razonamiento de [...] cómo quiero gastar nuestras GPU.
{{cite web}}
: CS1 maint: copia archivada como título ( enlace ){{cite web}}
: CS1 maint: copia archivada como título ( enlace )