Mistral AI

Mistral AI es una empresa francesa que vende productos de inteligencia artificial (IA). Fue fundada en abril de 2023 por empleados anteriores de Meta Platforms y Google DeepMind . ^[1] La empresa recaudó 385 millones de euros en octubre de 2023, ^[2] y en diciembre de 2023, estaba valorada en más de 2 mil millones de dólares. ^[3]^[4]^[5]

Produce modelos de lenguajes grandes de código abierto , ^[6] citando la importancia fundamental del software de código abierto y como respuesta a los modelos propietarios. ^[7]

En marzo de 2024, se han publicado dos modelos que están disponibles como pesas. ^[8] Tres modelos más, pequeño, mediano y grande, están disponibles únicamente a través de API. ^[9]^[10]

Historia

Mistral AI fue cofundada en abril de 2023 por Arthur Mensch, Guillaume Lample y Timothée Lacroix. ^{[ cita necesaria ]}

Antes de cofundar Mistral AI, Arthur Mensch trabajó en Google DeepMind , que es el laboratorio de inteligencia artificial de Google, mientras que Guillaume Lample y Timothée Lacroix trabajaron en Meta Platforms . ^[11] Los cofundadores se conocieron mientras estudiaban en la École Polytechnique . Mistral lleva el nombre de un fuerte viento que sopla en Francia. ^[12]

En junio de 2023, la start-up realizó una primera recaudación de fondos de 105 millones de euros (117 millones de dólares) con inversores como el fondo estadounidense Lightspeed Venture Partners , Eric Schmidt , Xavier Niel y JCDecaux . El Financial Times estima entonces la valoración en 240 millones de euros (267 millones de dólares).

El 27 de septiembre de 2023, la empresa puso a disposición su modelo de procesamiento de lenguaje “Mistral 7B” bajo la licencia gratuita Apache 2.0 . Este modelo tiene 7 mil millones de parámetros, un tamaño pequeño en comparación con sus competidores.

El 10 de diciembre de 2023, Mistral AI anunció que había recaudado 385 millones de euros (428 millones de dólares) como parte de su segunda recaudación de fondos. En esta ronda de financiación participan en particular el fondo californiano Andreessen Horowitz , BNP Paribas y el editor de software Salesforce . ^[13]

El 11 de diciembre de 2023, la compañía lanzó el modelo Mixtral 8x7B con 46,7 mil millones de parámetros pero utilizando solo 12,9 mil millones por token gracias a la combinación de arquitectura de expertos . El modelo domina 5 idiomas (francés, español, italiano, inglés y alemán) y supera, según las pruebas de sus desarrolladores, al modelo "LLama 2 70B" de Meta . También se ofrece una versión entrenada para seguir instrucciones y llamada “Mixtral 8x7B Instruct”. ^[14]

El 26 de febrero de 2024, Microsoft anunció una nueva asociación con la empresa para ampliar su presencia en la industria de la inteligencia artificial en rápida evolución . Según el acuerdo, los ricos modelos de lenguaje de Mistral estarán disponibles en la nube Azure de Microsoft , mientras que el asistente conversacional multilingüe "Le Chat" se lanzará al estilo ChatGPT . ^[15]

El 10 de abril de 2024, la empresa lanzó la combinación de modelos expertos, Mixtral 8x22B, que ofrece un alto rendimiento en varios puntos de referencia en comparación con otros modelos abiertos. ^{[ cita necesaria ]}

Modelos

Modelos de peso abierto

Mistral 7B

Mistral 7B es un modelo de lenguaje de parámetros 7.3B que utiliza la arquitectura de transformadores. Lanzado oficialmente el 27 de septiembre de 2023, a través de un enlace magnético BitTorrent , ^[16] y Hugging Face . ^[17] El modelo fue lanzado bajo la licencia Apache 2.0 . La publicación del blog de lanzamiento afirmó que el modelo supera al LLaMA 2 13B en todos los puntos de referencia probados y está a la par con el LLaMA 34B en muchos puntos de referencia probados. ^[18]

Mistral 7B utiliza una arquitectura similar a LLaMA, pero con algunos cambios en el mecanismo de atención. En particular, utiliza atención de consultas agrupadas (GQA) destinada a una inferencia más rápida y atención de ventana deslizante (SWA) destinada a manejar secuencias más largas.

Sliding Window Attention (SWA) reduce el costo computacional y el requisito de memoria para secuencias más largas. En la atención de ventana deslizante, cada token solo puede atender a un número fijo de tokens de la capa anterior en una "ventana deslizante" de 4096 tokens, con una longitud de contexto total de 32768 tokens. En el momento de la inferencia, esto reduce la disponibilidad de la caché, lo que genera una mayor latencia y un menor rendimiento. Para aliviar este problema, Mistral 7B utiliza un caché de búfer continuo.

Mistral 7B utiliza atención de consultas agrupadas (GQA), que es una variante del mecanismo de atención estándar. En lugar de calcular la atención sobre todos los estados ocultos, calcula la atención sobre grupos de estados ocultos. ^[19]

Se lanzaron tanto un modelo base como un modelo de "instrucciones" y este último recibió ajustes adicionales para seguir indicaciones de estilo chat. El modelo mejorado solo está destinado a fines de demostración y no tiene barreras de seguridad ni moderación incorporadas. ^[18]

Mixtral 8x7B

Al igual que el primer modelo de Mistral, Mixtral 8x7B se lanzó a través de un enlace BitTorrent publicado en Twitter el 9 de diciembre de 2023 ^[6] y, dos días después, se publicaron Hugging Face y una publicación de blog. ^[14]

A diferencia del modelo Mistral anterior, Mixtral 8x7B utiliza una escasa mezcla de arquitectura experta . El modelo tiene 8 grupos distintos de "expertos", lo que le da al modelo un total de 46,7 mil millones de parámetros utilizables. ^[20]^[21] Cada token solo puede utilizar 12,9 mil millones de parámetros, lo que proporciona la velocidad y el costo en los que incurriría un modelo de 12,9 mil millones de parámetros. ^[14]

Las pruebas de Mistral AI muestran que el modelo supera tanto al LLaMA 70B como al GPT-3.5 en la mayoría de las pruebas . ^[22]

En marzo de 2024, una investigación realizada por Patronus AI que comparó el rendimiento de los LLM en una prueba de 100 preguntas con indicaciones para generar texto a partir de libros protegidos por la ley de derechos de autor de EE. UU. encontró que GPT-4 de Open AI , Mixtral, LLaMA-2 de Meta AI y Claude2 de Anthropic generaron textualmente texto protegido por derechos de autor en el 44%, 22%, 10% y 8% de las respuestas, respectivamente. ^[23]^[24]

Mixtral 8x22B

Al igual que los modelos abiertos anteriores de Mistral, Mixtral 8x22B se lanzó a través de un enlace BitTorrent en Twitter el 10 de abril de 2024, y poco después se lanzó en Hugging Face. ^{[ cita necesaria ]}

Modelos solo API

A diferencia de Mistral 7B, Mixtral 8x7B y Mixtral 8x22B, los siguientes modelos son de código cerrado y solo están disponibles a través de la API de Mistral. ^[25]

Mistral grande

Mistral Large se lanzó el 26 de febrero de 2024 y Mistral afirma que ocupa el segundo lugar en el mundo después del GPT-4 de OpenAI.

Habla con fluidez inglés, francés, español, alemán e italiano, y Mistral afirma comprender tanto la gramática como el contexto cultural, y proporciona capacidades de codificación. A principios de 2024, es la IA insignia de Mistral. ^[26] También está disponible en Microsoft Azure.

Mistral Medio

Mistral Medium está capacitado en varios idiomas, incluidos inglés, francés, italiano, alemán, español y código con una puntuación de 8,6 en MT-Bench. ^[27] Está clasificado en rendimiento por encima de Claude y por debajo de GPT-4 en el punto de referencia LMSys ELO Arena. ^[28]

The number of parameters, and architecture of Mistral Medium is not known as Mistral has not published public information about it.

Mistral Small

Like the Large model, Small was launched on February 26, 2024. It is intended to be a light-weight model for low latency, with better performance than Mixtral 8x7B.^[29]

References

^ "France's unicorn start-up Mistral AI embodies its artificial intelligence hopes". Le Monde.fr. 2023-12-12. Retrieved 2023-12-16.
^ Metz, Cade (10 December 2023). "Mistral, French A.I. Start-Up, Is Valued at $2 Billion in Funding Round". The New York Times.
^ Fink, Charlie. "This Week In XR: Epic Triumphs Over Google, Mistral AI Raises $415 Million, $56.5 Million For Essential AI". Forbes. Retrieved 2023-12-16.
^ "A French AI start-up may have commenced an AI revolution, silently". Hindustan Times. December 12, 2023.
^ "French AI start-up Mistral secures €2bn valuation". ft.com Financial Times.
^ a b "Buzzy Startup Just Dumps AI Model That Beats GPT-3.5 Into a Torrent Link". Gizmodo. 2023-12-12. Retrieved 2023-12-16.
^ "Bringing open AI models to the frontier". Mistral AI. 27 September 2023. Retrieved 4 January 2024.
^ "Open-weight models and Mistral AI Large Language Models". docs.mistral.ai. Retrieved 2024-01-04.
^ "Endpoints and Mistral AI Large Language Models". docs.mistral.ai.
^ "Endpoints and benchmarks | Mistral AI Large Language Models". docs.mistral.ai. Retrieved 2024-03-06.
^ "France's unicorn start-up Mistral AI embodies its artificial intelligence hopes". Le Monde.fr. 12 December 2023.
^ Journal, Sam Schechner | Photographs by Edouard Jacquinet for The Wall Street. "The 9-Month-Old AI Startup Challenging Silicon Valley's Giants". WSJ. Retrieved 2024-03-31.
^ "Mistral lève 385 M€ et devient une licorne française - le Monde Informatique". 11 December 2023.
^ a b c "Mixtral of experts". mistral.ai. 2023-12-11. Retrieved 2024-01-04.
^ Bableshwar (2024-02-26). "Mistral Large, Mistral AI's flagship LLM, debuts on Azure AI Models-as-a-Service". techcommunity.microsoft.com. Retrieved 2024-02-26.
^ Goldman, Sharon (8 de diciembre de 2023). "Mistral AI lanza tendencia al soltar el enlace de torrent al nuevo LLM de código abierto". VentureBeat . Consultado el 4 de enero de 2024 .
^ Coldewey, Devin (27 de septiembre de 2023). "Mistral AI hace que su primer modelo de lenguaje grande sea gratuito para todos". TechCrunch . Consultado el 4 de enero de 2024 .
^ ab "Mistral 7B". mistral.ai . Mistral AI. 27 de septiembre de 2023 . Consultado el 4 de enero de 2024 .
^ Jiang, Albert Q.; Sablayrolles, Alexandre; Mensch, Arturo; Bamford, Chris; Chaplot, Devendra Singh; Casas, Diego de las; Bressand, Florián; Lengyel, Gianna; Lampe, Guillaume (10 de octubre de 2023). "Mistral 7B". arXiv : 2310.06825v1 [cs.CL].
^ "Explicación de la mezcla de expertos". abrazandoface.co . Consultado el 4 de enero de 2024 .
^ Marie, Benjamín (15 de diciembre de 2023). "Mixtral-8x7B: comprensión y ejecución de la escasa combinación de expertos". Medio . Consultado el 4 de enero de 2024 .
^ Franzen, Carl (11 de diciembre de 2023). "Mistral conmociona a la comunidad de IA cuando el último modelo de código abierto eclipsa el rendimiento de GPT-3.5". VentureBeat . Consultado el 4 de enero de 2024 .
^ Field, Hayden (6 de marzo de 2024). "Los investigadores probaron modelos líderes de inteligencia artificial para detectar infracciones de derechos de autor utilizando libros populares, y GPT-4 tuvo el peor desempeño". CNBC . Consultado el 6 de marzo de 2024 .
^ "Presentamos CopyrightCatcher, la primera API de detección de derechos de autor para LLM". Patronus AI. 6 de marzo de 2024 . Consultado el 6 de marzo de 2024 .
^ "Límites de precios y tarifas | Modelos de lenguaje grande de Mistral AI". docs.mistral.ai . Consultado el 22 de enero de 2024 .
^ IA, Mistral (26 de febrero de 2024). "Au grande". mistral.ai . Consultado el 6 de marzo de 2024 .
^ IA, Mistral (11 de diciembre de 2023). "La plataforma". mistral.ai . Consultado el 22 de enero de 2024 .
^ "Tabla de clasificación de LMSys Chatbot Arena: un espacio para abrazar la cara de lmsys". abrazandoface.co . Consultado el 22 de enero de 2024 .
^ IA, Mistral (26 de febrero de 2024). "Au grande". mistral.ai . Consultado el 6 de marzo de 2024 .