Mistral AI es una empresa francesa especializada en productos de inteligencia artificial (IA). Fundada en abril de 2023 por ex empleados de Meta Platforms y Google DeepMind [1] , la empresa ha ganado rápidamente prominencia en el sector de la IA.
La empresa se centra en la producción de modelos de lenguaje de gran tamaño de código abierto , [2] enfatizando la importancia fundamental del software libre y de código abierto , y posicionándose como una alternativa a los modelos propietarios. [3]
En octubre de 2023, Mistral AI recaudó 385 millones de euros. [4] En diciembre de 2023, estaba valorada en más de 2000 millones de dólares. [5] [6] [7]
En junio de 2024, Mistral AI anunció una nueva ronda de financiación de 600 millones de euros (645 millones de dólares), lo que elevó significativamente su valoración a 5.800 millones de euros (6.200 millones de dólares). [8] Esta ronda fue liderada por la firma de capital de riesgo General Catalyst, con la participación de inversores existentes. [9]
Mistral AI ha publicado tres modelos de código abierto disponibles como ponderaciones. [10] Además, tres modelos más (Pequeño, Mediano y Grande) están disponibles solo a través de API. [11] [12]
Según la valoración , la empresa está en el cuarto lugar en la carrera mundial de IA y en el primer lugar fuera del Área de la Bahía de San Francisco , por delante de varios de sus pares, como Cohere , Hugging Face , Inflection , Perplexity y Together. [13] Mistral AI tiene como objetivo "democratizar" la IA centrándose en la innovación de código abierto. [14]
Mistral AI fue cofundada en abril de 2023 por Arthur Mensch, Guillaume Lample y Timothée Lacroix. [ cita requerida ]
Antes de cofundar Mistral AI, Arthur Mensch trabajó en Google DeepMind , el laboratorio de inteligencia artificial de Google, mientras que Guillaume Lample y Timothée Lacroix trabajaron en Meta Platforms . [15] Los cofundadores se conocieron mientras estudiaban en la École Polytechnique . Mistral recibe su nombre de un fuerte viento que sopla en Francia. [16]
En junio de 2023, la start-up realizó una primera recaudación de fondos de 105 millones de euros (117 millones de dólares) con inversores como el fondo estadounidense Lightspeed Venture Partners , Eric Schmidt , Xavier Niel y JCDecaux . El Financial Times estimó entonces la valoración en 240 millones de euros (267 millones de dólares).
El 27 de septiembre de 2023, la empresa puso a disposición su modelo de procesamiento del lenguaje “Mistral 7B” bajo la licencia gratuita Apache 2.0 . Este modelo tiene 7 mil millones de parámetros, un tamaño pequeño en comparación con sus competidores.
El 10 de diciembre de 2023, Mistral AI anunció que había recaudado 385 millones de euros (428 millones de dólares) en el marco de su segunda ronda de financiación. En esta ronda de financiación participan, en particular, el fondo californiano Andreessen Horowitz , BNP Paribas y el editor de software Salesforce . [17]
El 11 de diciembre de 2023, la empresa lanzó el modelo Mixtral 8x7B con 46,7 mil millones de parámetros pero utilizando solo 12,9 mil millones por token gracias a la arquitectura de mezcla de expertos . El modelo domina 5 idiomas (francés, español, italiano, inglés y alemán) y supera, según las pruebas de sus desarrolladores, al modelo "LLama 2 70B" de Meta . También se ofrece una versión entrenada para seguir instrucciones y llamada "Mixtral 8x7B Instruct". [18]
El 26 de febrero de 2024, Microsoft anunció una nueva asociación con la empresa para ampliar su presencia en la industria de la inteligencia artificial , que evoluciona rápidamente . Según el acuerdo, los modelos de lenguaje enriquecido de Mistral estarán disponibles en la nube Azure de Microsoft , mientras que el asistente de conversación multilingüe "Le Chat" se lanzará al estilo de ChatGPT . [19]
El 10 de abril de 2024, la compañía lanzó la mezcla de modelos expertos, Mixtral 8x22B, que ofrece un alto rendimiento en varios puntos de referencia en comparación con otros modelos abiertos. [ cita requerida ]
El 16 de abril de 2024, un informe reveló que Mistral estaba en conversaciones para recaudar 500 millones de euros, un acuerdo que duplicaría su valoración actual a al menos 5.000 millones de euros. [20]
Mistral 7B es un modelo de lenguaje de parámetros 7.3B que utiliza la arquitectura de transformadores. Lanzado oficialmente el 27 de septiembre de 2023, a través de un enlace magnético de BitTorrent , [21] y Hugging Face . [22] El modelo fue lanzado bajo la licencia Apache 2.0 . La publicación del blog de lanzamiento afirmó que el modelo supera a LLaMA 2 13B en todos los puntos de referencia probados y está a la par con LLaMA 34B en muchos puntos de referencia probados. [23]
Mistral 7B utiliza atención de consulta agrupada (GQA), que es una variante del mecanismo de atención estándar. En lugar de calcular la atención sobre todos los estados ocultos, calcula la atención sobre grupos de estados ocultos. [24]
Se lanzaron tanto un modelo básico como un modelo de "instrucciones", y este último recibió ajustes adicionales para seguir las indicaciones de estilo chat. El modelo ajustado solo está destinado a fines de demostración y no tiene barandillas ni moderación incorporadas. [23]
Al igual que el primer modelo de Mistral, Mixtral 8x7B se lanzó a través de un enlace de BitTorrent publicado en Twitter el 9 de diciembre de 2023, [2] y luego Hugging Face y una publicación de blog se publicaron dos días después. [18]
A diferencia del modelo Mistral anterior, Mixtral 8x7B utiliza una arquitectura de mezcla dispersa de expertos . El modelo tiene 8 grupos distintos de "expertos", lo que le da al modelo un total de 46,7 mil millones de parámetros utilizables. [25] [26] Cada token individual solo puede usar 12,9 mil millones de parámetros, lo que proporciona la velocidad y el costo que incurriría un modelo de 12,9 mil millones de parámetros. [18]
Las pruebas de Mistral AI muestran que el modelo supera tanto a LLaMA 70B como a GPT-3.5 en la mayoría de los puntos de referencia . [27]
En marzo de 2024, una investigación realizada por Patronus AI que comparó el desempeño de los LLM en una prueba de 100 preguntas con indicaciones para generar texto a partir de libros protegidos por la ley de derechos de autor de EE. UU. encontró que GPT-4 de Open AI , Mixtral, LLaMA-2 de Meta AI y Claude2 de Anthropic generaron texto protegido por derechos de autor textualmente en el 44 %, 22 %, 10 % y 8 % de las respuestas respectivamente. [28] [29]
Al igual que los modelos abiertos anteriores de Mistral, Mixtral 8x22B se lanzó a través de un enlace de BitTorrent en Twitter el 10 de abril de 2024, [30] con un lanzamiento en Hugging Face poco después. [31] El modelo utiliza una arquitectura similar a la de Mistral 8x7B, pero cada experto tiene 22 mil millones de parámetros en lugar de 7. En total, el modelo contiene 141 mil millones de parámetros, ya que algunos parámetros se comparten entre los expertos. [31]
Mistral Large 2 se anunció el 24 de julio de 2024 y se lanzó en Hugging Face. A diferencia del Mistral Large anterior, esta versión se lanzó con pesos abiertos. Está disponible de forma gratuita con una licencia de investigación de Mistral y con una licencia comercial para fines comerciales. Mistral AI afirma que habla con fluidez docenas de lenguajes, incluidos muchos lenguajes de programación. El modelo tiene 123 mil millones de parámetros y una longitud de contexto de 128 000 tokens. Su rendimiento en los puntos de referencia es competitivo con Llama 3.1 405B , particularmente en tareas relacionadas con la programación. [32] [33]
Codestral es el primer modelo de peso abierto centrado en código de Mistral. Codestral se lanzó el 29 de mayo de 2024. Es un modelo liviano creado específicamente para tareas de generación de código. A la fecha de su lanzamiento, este modelo supera a Llama3 70B de Meta y DeepSeek Coder 33B (78,2% - 91,6%), otro modelo centrado en código en el benchmark HumanEval FIM. [34] Mistral afirma que Codestral domina más de 80 lenguajes de programación [35] Codestral tiene su propia licencia que prohíbe el uso de Codestral con fines comerciales. [36]
Matemáticas 7B
Mathstral 7B es un modelo con 7 mil millones de parámetros publicado por Mistral AI el 16 de julio de 2024. Se centra en las disciplinas STEM y ha obtenido una puntuación del 56,6 % en el índice de referencia MATH y del 63,47 % en el índice de referencia MMLU. [37] El modelo se elaboró en colaboración con Project Numina, [38] y se publicó bajo la licencia Apache 2.0. Tiene una longitud de contexto de 32 000 tokens. [37]
Mamba 7B de Codestral
Codestral Mamba se basa en la arquitectura Mamba 2, que le permite generar respuestas incluso con entradas más largas. [38] A diferencia de Codestral, se lanzó bajo la licencia Apache 2.0. Si bien las versiones anteriores a menudo incluían tanto el modelo base como la versión instructiva, solo se lanzó la versión instructiva de Codestral Mamba. [39]
A diferencia de Mistral 7B, Mixtral 8x7B y Mixtral 8x22B, los siguientes modelos son de código cerrado y solo están disponibles a través de la API de Mistral. [40]
Mistral Large se lanzó el 26 de febrero de 2024 y Mistral afirma que es el segundo en el mundo, solo superado por GPT-4 de OpenAI.
Habla con fluidez inglés, francés, español, alemán e italiano, y Mistral afirma comprender tanto la gramática como el contexto cultural, y ofrece capacidades de codificación. A principios de 2024, es la IA insignia de Mistral. [41] También está disponible en Microsoft Azure.
En julio de 2024, se lanzó Mistral Large 2, que reemplazó al Mistral Large original. [42] A diferencia del modelo original, se lanzó con pesas abiertas. [33]
Mistral Medium está capacitado en varios idiomas, incluidos inglés, francés, italiano, alemán, español y código con una puntuación de 8,6 en MT-Bench. [43] Está clasificado en rendimiento por encima de Claude y por debajo de GPT-4 en el benchmark LMSys ELO Arena. [44]
Se desconoce el número de parámetros y la arquitectura de Mistral Medium, ya que Mistral no ha publicado información pública al respecto.
Al igual que el modelo Large, el Small se lanzó el 26 de febrero de 2024. Está destinado a ser un modelo liviano para baja latencia, con mejor rendimiento que Mixtral 8x7B. [45]