Llama

LLaMA ( Large Language Model Meta AI ) es una familia de modelos de lenguaje grandes (LLM) autorregresivos, lanzados por Meta AI a partir de febrero de 2023.

Para la primera versión de LLaMA, se entrenaron cuatro tamaños de modelos: 7, 13, 33 y 65 mil millones de parámetros. Los desarrolladores de LLaMA informaron que el rendimiento del modelo de parámetros 13B en la mayoría de los puntos de referencia de PNL superó al del GPT-3 , mucho más grande (con parámetros de 175B) y que el modelo más grande era competitivo con modelos de última generación como PaLM y Chinchilla . ^[1] Mientras que los LLM más potentes generalmente han sido accesibles solo a través de API limitadas (si es que existen), Meta lanzó los pesos del modelo de LLaMA a la comunidad de investigación bajo una licencia no comercial. ^[2] Una semana después del lanzamiento de LLaMA, sus pesos se filtraron al público en 4chan a través de BitTorrent . ^[3]

En julio de 2023, Meta lanzó varios modelos como Llama 2, utilizando 7, 13 y 70 mil millones de parámetros.

Llama-2

El 18 de julio de 2023, en asociación con Microsoft , Meta anunció LLaMA-2, la próxima generación de LLaMA. Meta entrenó y lanzó LLaMA-2 en tres tamaños de modelo: 7, 13 y 70 mil millones de parámetros. ^[4] La arquitectura del modelo permanece prácticamente sin cambios con respecto a la de los modelos LLaMA-1, pero se utilizó un 40% más de datos para entrenar los modelos fundamentales. ^[5] La preimpresión adjunta ^[5] también menciona un modelo con parámetros 34B que podría lanzarse en el futuro si se cumplen los objetivos de seguridad.

LLaMA-2 incluye modelos fundamentales y modelos optimizados para el diálogo, llamados LLaMA-2 Chat. A diferencia de LLaMA-1, todos los modelos se lanzan con pesas y son gratuitos para muchos casos de uso comercial. Sin embargo, debido a algunas restricciones restantes, la Open Source Initiative (conocida por mantener la definición de código abierto ) ha cuestionado la descripción de LLaMA como código abierto . ^[6]

En noviembre de 2023, una investigación realizada por Patronus AI, una nueva empresa de inteligencia artificial, comparó el rendimiento de LLaMA-2, GPT -4 y GPT-4-Turbo de OpenAI y Claude2 de Anthropic en dos versiones de una prueba de 150 preguntas. sobre información en presentaciones de la SEC (por ejemplo, Formulario 10-K , Formulario 10-Q , Formulario 8-K , informes de ganancias , transcripciones de llamadas de ganancias ) presentados por empresas públicas a la agencia donde una versión de la prueba requería que los modelos generativos de IA usaran un sistema de recuperación para localizar la presentación SEC específica para responder las preguntas, mientras que la otra versión proporcionaba la presentación SEC específica a los modelos para responder la pregunta (es decir, en una ventana de contexto larga). En la versión del sistema de recuperación, GPT-4-Turbo y LLaMA-2 no lograron producir respuestas correctas al 81% de las preguntas, mientras que en la versión de ventana de contexto larga, GPT-4-Turbo y Claude-2 no lograron producir respuestas correctas. al 21% y 24% de las preguntas respectivamente. ^[7]^[8]

Arquitectura y formación

"Una conversación entre el sol y plutón"

Sol: Hola Plutón, ¿qué pasa?
Plutón: No mucho. Simplemente pasando el rato aquí en el borde del sistema solar.
Sun: Sí, quería hablar contigo sobre eso. Ya no eres un planeta.
Plutón: ¿Qué? Vamos hombre. No es justo.
sol: lo siento, pero es verdad. Simplemente ya no cumples con los criterios.
Plutón: ¡Esto es una tontería! ¡He sido un planeta durante más de 70 años!
Sol: Las cosas cambian, Plutón. Sólo tienes que aceptarlo.
Plutón: ¡Que te jodan, Sol! ¡Que te jodan a ti y a tu estúpido sistema solar!

– Salida del modelo LLaMA de 65 mil millones de parámetros después del ajuste de instrucciones ante el mensaje "Escribe una conversación entre el Sol y Plutón" ^[1]

Arquitectura

LLaMA utiliza la arquitectura transformadora , la arquitectura estándar para el modelado de lenguajes desde 2018.

Hay pequeñas diferencias arquitectónicas. Comparado con GPT-3, LLaMA

utiliza la función de activación SwiGLU ^[9] en lugar de GeLU;
utiliza incrustaciones posicionales rotativas ^[10] en lugar de incrustaciones posicionales absolutas;
utiliza la normalización de capa cuadrática media ^[11] en lugar de la normalización de capa estándar. ^[12]
aumenta la longitud del contexto de 2K (Llama 1) tokens a 4K (Llama 2) tokens entre ellos.

Conjuntos de datos de entrenamiento

Los desarrolladores de LLaMA centraron sus esfuerzos en escalar el rendimiento del modelo aumentando el volumen de datos de entrenamiento, en lugar de la cantidad de parámetros, razonando que el costo dominante para los LLM proviene de hacer inferencias sobre el modelo entrenado en lugar del costo computacional del proceso de entrenamiento.

Los modelos fundamentales de LLaMA 1 se entrenaron en un conjunto de datos con 1,4 billones de tokens, extraídos de fuentes de datos disponibles públicamente, que incluyen: ^[1]

Páginas web eliminadas por CommonCrawl
Repositorios de código abierto de código fuente de GitHub
Wikipedia en 20 idiomas diferentes.
Libros de dominio público del Proyecto Gutenberg
El código fuente de LaTeX para artículos científicos cargados en ArXiv
Preguntas y respuestas de los sitios web de Stack Exchange

Los modelos fundamentales de Llama 2 se entrenaron en un conjunto de datos con 2 billones de tokens. Este conjunto de datos fue seleccionado para eliminar sitios web que a menudo revelan datos personales de personas. También muestra fuentes consideradas confiables. ^[5] Llama 2: el chat también se ajustó en 27,540 pares de respuesta rápida creados para este proyecto, que funcionaron mejor que conjuntos de datos de terceros más grandes pero de menor calidad. Para la alineación de la IA, se utilizó el aprendizaje reforzado con retroalimentación humana (RLHF) con una combinación de 1.418.091 metaejemplos y siete conjuntos de datos más pequeños. La profundidad promedio del diálogo fue 3,9 en los metaejemplos, 3,0 para los conjuntos Anthropic Útil y Anthropic Harmless, y 1,0 para otros cinco conjuntos, incluidos OpenAI Summarize, StackExchange, etc.

Sintonia FINA

Los modelos Llama 1 solo están disponibles como modelos básicos con aprendizaje autosupervisado y sin ajustes. Llama 2: los modelos de chat se derivaron de los modelos fundamentales de Llama 2. A diferencia de GPT-4 , que aumentó la longitud del contexto durante el ajuste, Llama 2 y Llama 2 - Chat tienen la misma longitud de contexto de tokens 4K. El ajuste fino supervisado utilizó una función de pérdida autorregresiva con la pérdida de token en las indicaciones del usuario puesta a cero. El tamaño del lote fue 64.

Para la alineación de la IA , los anotadores humanos escribieron indicaciones y luego compararon los resultados de dos modelos (un protocolo binario), proporcionando niveles de confianza y etiquetas de seguridad separadas con poder de veto. Se entrenaron dos modelos de recompensa separados a partir de estas preferencias de seguridad y utilidad utilizando el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). Una contribución técnica importante es el abandono del uso exclusivo de la optimización de políticas próximas (PPO) para RLHF: se utilizó una nueva técnica basada en el muestreo de rechazo , seguida de la PPO.

Se buscó mejorar la coherencia de varios turnos en los diálogos, para garantizar que los "mensajes del sistema" (instrucciones iniciales, como "hablar en francés" y "actuar como Napoleón") se respeten durante el diálogo. Esto se logró utilizando la nueva técnica de "atención fantasma" durante el entrenamiento, que concatena instrucciones relevantes para cada mensaje de usuario nuevo pero pone a cero la función de pérdida de tokens en el mensaje (partes anteriores del diálogo).

Liberación y fuga

LLaMA se anunció el 24 de febrero de 2023 a través de una publicación de blog y un artículo que describe la capacitación , la arquitectura y el rendimiento del modelo . ^[1]^{[2] El código de inferencia utilizado para ejecutar el modelo se publicó públicamente bajo la licencia}GPL 3 de código abierto . ^[13] El acceso a las ponderaciones del modelo se gestionó mediante un proceso de solicitud, y el acceso se otorgaría "caso por caso a investigadores académicos; aquellos afiliados a organizaciones gubernamentales, de la sociedad civil y académicas; y a laboratorios de investigación de la industria". alrededor del mundo". ^[2]

El 3 de marzo de 2023, se cargó un torrent que contenía los pesos de LLaMA, con un enlace al torrent compartido en el tablero de imágenes de 4chan y posteriormente difundido a través de comunidades de IA en línea. ^[3] Ese mismo día, se abrió una solicitud de extracción en el repositorio principal de LLaMA, solicitando agregar el enlace magnético a la documentación oficial. ^[14]^[15] El 4 de marzo, se abrió una solicitud de extracción para agregar enlaces a los repositorios de HuggingFace que contienen el modelo. ^[16]^[14] El 6 de marzo, Meta presentó solicitudes de eliminación para eliminar los repositorios de HuggingFace vinculados en la solicitud de extracción, caracterizándolo como "distribución no autorizada" del modelo. HuggingFace cumplió con las solicitudes. ^[17] El 20 de marzo, Meta presentó una solicitud de eliminación DMCA por infracción de derechos de autor contra un repositorio que contenía un script que descargaba LLaMA desde un espejo, y GitHub cumplió al día siguiente. ^[18] Hasta el 25 de marzo, Facebook no ha respondido a la solicitud de extracción que contiene el enlace magnético. ^[15]

Las reacciones a la filtración variaron. Algunos especularon que el modelo se utilizaría con fines maliciosos, como spam más sofisticado . Algunos han celebrado la accesibilidad del modelo, así como el hecho de que se pueden ejecutar versiones más pequeñas del modelo a un costo relativamente bajo, sugiriendo que esto promoverá el florecimiento de desarrollos de investigación adicionales. ^[3] Múltiples comentaristas, como Simon Willison , compararon LLaMA con Stable Diffusion , un modelo de texto a imagen que, a diferencia de modelos comparablemente sofisticados que lo precedieron, se distribuyó abiertamente, lo que llevó a una rápida proliferación de herramientas, técnicas y métodos asociados. software. ^[3]^[19]

Reproducción de conjuntos de datos

El 17 de abril de 2023, TogetherAI lanzó un proyecto llamado RedPajama para reproducir y distribuir una versión de código abierto del conjunto de datos LLaMA. ^[20] El conjunto de datos tiene aproximadamente 1,2 billones de tokens y está disponible públicamente para su descarga. ^[21]

Aplicaciones

El desarrollador de software Georgi Gerganov lanzó llama.cpp, una reimplementación optimizada para software de LLaMa en C++. Esto permitió a muchos ejecutar la serie de modelos LLaMa localmente. ^[22]

El Centro de Investigación sobre Modelos Fundamentales (CRFM) del Instituto de Inteligencia Artificial Centrada en el Humano (HAI) de la Universidad de Stanford lanzó Alpaca, una receta de entrenamiento basada en el modelo LLaMA 7B que utiliza el método de ajuste de instrucción "Self-Instruct" para adquirir capacidades comparables. al modelo text-davinci-003 de la serie OpenAI GPT-3 a un costo modesto. ^[23]^[24] Múltiples proyectos de código abierto son ^[^¿cuándo?^] continuando con este trabajo de ajuste de LLaMA con el conjunto de datos de Alpaca. ^[25]

Referencias

^ abcd Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Javier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodríguez, Aurelien; Joulin, Armand; Tumba, Eduardo; Lampe, Guillaume (2023). "LLaMA: Modelos de lenguaje básico abiertos y eficientes". arXiv : 2302.13971 [cs.CL].
^ abc "Presentación de LLaMA: un modelo de lenguaje grande fundamental de 65 mil millones de parámetros". Meta IA . 24 de febrero de 2023.
^ abcd Vincent, James (8 de marzo de 2023). "El poderoso modelo de lenguaje de inteligencia artificial de Meta se filtró en línea. ¿Qué pasa ahora?". El borde .
^ "Meta y Microsoft presentan la próxima generación de LLaMA". Meta . 18 de julio de 2023 . Consultado el 21 de julio de 2023 .
^ abc Touvron, Hugo; Martín, Luis; et al. (18 de julio de 2023). "LLaMA-2: Fundación abierta y modelos de chat optimizados". arXiv : 2307.09288 [cs.CL].
^ Edwards, Benj (18 de julio de 2023). "Meta lanza LLaMA-2, un modelo de IA disponible en origen que permite aplicaciones comerciales [Actualizado]". Ars Técnica . Consultado el 8 de agosto de 2023 .
^ Leswing, Kif (19 de diciembre de 2023). "Los investigadores encuentran que GPT y otros modelos de IA no pueden analizar una presentación ante la SEC". CNBC . Consultado el 19 de diciembre de 2023 .
^ "Patronus AI lanza el primer punto de referencia de LLM en finanzas para abordar las alucinaciones" (Presione soltar). Cable de noticias de relaciones públicas . 16 de noviembre de 2023 . Consultado el 19 de diciembre de 2023 .
^ Shazeer, Noam (1 de febrero de 2020). "Las variantes de GLU mejoran el transformador". arXiv : 2104.09864 [cs.CL].
^ Su, Jianlin; Lu, Yu; Pan, Shengfeng; Murtadha, Ahmed; Wen, Bo; Liu, Yunfeng (1 de abril de 2021). "RoFormer: transformador mejorado con incrustación de posición giratoria". arXiv : 2104.09864 [cs.CL].
^ Zhang, Biao; Sennrich, Rico (1 de octubre de 2019). "Normalización de la capa cuadrática media". arXiv : 1910.07467 [cs.LG].
^ Lei Ba, Jimmy; Kiros, Jamie Ryan; Hinton, Geoffrey E. (1 de julio de 2016). "Normalización de capas". arXiv : 1607.06450 [estad.ML].
^ "llama". GitHub . Consultado el 16 de marzo de 2023 .
^ ab VK, Anirudh (6 de marzo de 2023). "LLaMA de Meta se filtró al público gracias a 4chan". Revista Analytics India . Consultado el 17 de marzo de 2023 .
^ ab "Ahorre ancho de banda utilizando un torrent para distribuir de manera más eficiente por ChristopherKing42 · Solicitud de extracción n.° 73 · facebookresearch/llama". GitHub . Consultado el 25 de marzo de 2023 .
^ "Descarga pesos de huggingface para ayudarnos a ahorrar ancho de banda por Jainam213 · Pull Request #109 · facebookresearch/llama". GitHub . Consultado el 17 de marzo de 2023 .
^ Cox, Joseph (7 de marzo de 2023). "El potente modelo de lenguaje grande de Facebook se filtra en línea". Vicio . Consultado el 17 de marzo de 2023 .
^ OpSec Online LLC (21 de marzo de 2023). "github/dmca - Aviso de infracción reclamada por correo electrónico". GitHub . Consultado el 25 de marzo de 2023 .
^ Willison, Simon (11 de marzo de 2023). "Los grandes modelos lingüísticos están teniendo su momento de difusión estable". Blog de Simon Willison .
^ "RedPajama-Data: una receta de código abierto para reproducir el conjunto de datos de entrenamiento de LLaMA". GitHub . Juntos . Consultado el 4 de mayo de 2023 .
^ "RedPajama-Data-1T". Abrazando la cara . Juntos . Consultado el 4 de mayo de 2023 .
^ Edwards, Benj (13 de marzo de 2023). "Ahora puede ejecutar un modelo de IA de nivel GPT-3 en su computadora portátil, teléfono y Raspberry Pi". Ars Técnica . Consultado el 4 de enero de 2024 .
^ Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrín, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 de marzo de 2023). "Alpaca: un modelo de seguimiento de instrucciones sólido y replicable". Centro de Investigación sobre Modelos de Cimentaciones de Stanford.
^ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noé A.; Khashabi, Daniel; Hajishirzi, Hannaneh (2022). "Autoinstrucción: alineación de modelos lingüísticos con instrucciones autogeneradas". arXiv : 2212.10560 [cs.CL].
^ "alpaca-lora". GitHub . Consultado el 5 de abril de 2023 .

Otras lecturas

Huang, Kalley; O'Regan, Sylvia Varnham (5 de septiembre de 2023). "Dentro del drama de IA de Meta: disputas internas sobre la potencia informática" . La información . Archivado desde el original el 5 de septiembre de 2023 . Consultado el 6 de septiembre de 2023 .

enlaces externos

Página web oficial
Código fuente en GitHub