stringtranslate.com

Inteligencia artificial Mistral

Mistral AI es una empresa francesa especializada en productos de inteligencia artificial (IA). Fundada en abril de 2023 por ex empleados de Meta Platforms y Google DeepMind [1] , la empresa ha ganado rápidamente prominencia en el sector de la IA.

La empresa se centra en la producción de modelos de lenguaje de gran tamaño de código abierto , [2] enfatizando la importancia fundamental del software libre y de código abierto , y posicionándose como una alternativa a los modelos propietarios. [3]

En octubre de 2023, Mistral AI recaudó 385 millones de euros. [4] En diciembre de 2023, estaba valorada en más de 2000 millones de dólares. [5] [6] [7]

En junio de 2024, Mistral AI anunció una nueva ronda de financiación de 600 millones de euros (645 millones de dólares), lo que elevó significativamente su valoración a 5.800 millones de euros (6.200 millones de dólares). [8] Esta ronda fue liderada por la firma de capital de riesgo General Catalyst, con la participación de inversores existentes. [9]

Mistral AI ha publicado tres modelos de código abierto disponibles como ponderaciones. [10] Además, tres modelos más (Pequeño, Mediano y Grande) están disponibles solo a través de API. [11] [12]

Según la valoración , la empresa está en el cuarto lugar en la carrera mundial de IA y en el primer lugar fuera del Área de la Bahía de San Francisco , por delante de varios de sus pares, como Cohere , Hugging Face , Inflection , Perplexity y Together. [13] Mistral AI tiene como objetivo "democratizar" la IA centrándose en la innovación de código abierto. [14]

Historia

Mistral AI fue cofundada en abril de 2023 por Arthur Mensch, Guillaume Lample y Timothée Lacroix. [ cita requerida ]

Antes de cofundar Mistral AI, Arthur Mensch trabajó en Google DeepMind , el laboratorio de inteligencia artificial de Google, mientras que Guillaume Lample y Timothée Lacroix trabajaron en Meta Platforms . [15] Los cofundadores se conocieron mientras estudiaban en la École Polytechnique . Mistral recibe su nombre de un fuerte viento que sopla en Francia. [16]

En junio de 2023, la start-up realizó una primera recaudación de fondos de 105 millones de euros (117 millones de dólares) con inversores como el fondo estadounidense Lightspeed Venture Partners , Eric Schmidt , Xavier Niel y JCDecaux . El Financial Times estimó entonces la valoración en 240 millones de euros (267 millones de dólares).

El 27 de septiembre de 2023, la empresa puso a disposición su modelo de procesamiento del lenguaje “Mistral 7B” bajo la licencia gratuita Apache 2.0 . Este modelo tiene 7 mil millones de parámetros, un tamaño pequeño en comparación con sus competidores.

El 10 de diciembre de 2023, Mistral AI anunció que había recaudado 385 millones de euros (428 millones de dólares) en el marco de su segunda ronda de financiación. En esta ronda de financiación participan, en particular, el fondo californiano Andreessen Horowitz , BNP Paribas y el editor de software Salesforce . [17]

El 11 de diciembre de 2023, la empresa lanzó el modelo Mixtral 8x7B con 46,7 mil millones de parámetros pero utilizando solo 12,9 mil millones por token gracias a la arquitectura de mezcla de expertos . El modelo domina 5 idiomas (francés, español, italiano, inglés y alemán) y supera, según las pruebas de sus desarrolladores, al modelo "LLama 2 70B" de Meta . También se ofrece una versión entrenada para seguir instrucciones y llamada "Mixtral 8x7B Instruct". [18]

El 26 de febrero de 2024, Microsoft anunció una nueva asociación con la empresa para ampliar su presencia en la industria de la inteligencia artificial , que evoluciona rápidamente . Según el acuerdo, los modelos de lenguaje enriquecido de Mistral estarán disponibles en la nube Azure de Microsoft , mientras que el asistente de conversación multilingüe "Le Chat" se lanzará al estilo de ChatGPT . [19]

El 10 de abril de 2024, la compañía lanzó la mezcla de modelos expertos, Mixtral 8x22B, que ofrece un alto rendimiento en varios puntos de referencia en comparación con otros modelos abiertos. [ cita requerida ]

El 16 de abril de 2024, un informe reveló que Mistral estaba en conversaciones para recaudar 500 millones de euros, un acuerdo que duplicaría su valoración actual a al menos 5.000 millones de euros. [20]

Modelos

Modelos de peso abierto

Mistral 7B

Mistral 7B es un modelo de lenguaje de parámetros 7.3B que utiliza la arquitectura de transformadores. Lanzado oficialmente el 27 de septiembre de 2023, a través de un enlace magnético de BitTorrent , [21] y Hugging Face . [22] El modelo fue lanzado bajo la licencia Apache 2.0 . La publicación del blog de lanzamiento afirmó que el modelo supera a LLaMA 2 13B en todos los puntos de referencia probados y está a la par con LLaMA 34B en muchos puntos de referencia probados. [23]

Mistral 7B utiliza atención de consulta agrupada (GQA), que es una variante del mecanismo de atención estándar. En lugar de calcular la atención sobre todos los estados ocultos, calcula la atención sobre grupos de estados ocultos. [24]

Se lanzaron tanto un modelo básico como un modelo de "instrucciones", y este último recibió ajustes adicionales para seguir las indicaciones de estilo chat. El modelo ajustado solo está destinado a fines de demostración y no tiene barandillas ni moderación incorporadas. [23]

Mezcla 8x7B

Al igual que el primer modelo de Mistral, Mixtral 8x7B se lanzó a través de un enlace de BitTorrent publicado en Twitter el 9 de diciembre de 2023, [2] y luego Hugging Face y una publicación de blog se publicaron dos días después. [18]

A diferencia del modelo Mistral anterior, Mixtral 8x7B utiliza una arquitectura de mezcla dispersa de expertos . El modelo tiene 8 grupos distintos de "expertos", lo que le da al modelo un total de 46,7 mil millones de parámetros utilizables. [25] [26] Cada token individual solo puede usar 12,9 mil millones de parámetros, lo que proporciona la velocidad y el costo que incurriría un modelo de 12,9 mil millones de parámetros. [18]

Las pruebas de Mistral AI muestran que el modelo supera tanto a LLaMA 70B como a GPT-3.5 en la mayoría de los puntos de referencia . [27]

En marzo de 2024, una investigación realizada por Patronus AI que comparó el desempeño de los LLM en una prueba de 100 preguntas con indicaciones para generar texto a partir de libros protegidos por la ley de derechos de autor de EE. UU. encontró que GPT-4 de Open AI , Mixtral, LLaMA-2 de Meta AI y Claude2 de Anthropic generaron texto protegido por derechos de autor textualmente en el 44 %, 22 %, 10 % y 8 % de las respuestas respectivamente. [28] [29]

Mezcla 8x22B

Al igual que los modelos abiertos anteriores de Mistral, Mixtral 8x22B se lanzó a través de un enlace de BitTorrent en Twitter el 10 de abril de 2024, [30] con un lanzamiento en Hugging Face poco después. [31] El modelo utiliza una arquitectura similar a la de Mistral 8x7B, pero cada experto tiene 22 mil millones de parámetros en lugar de 7. En total, el modelo contiene 141 mil millones de parámetros, ya que algunos parámetros se comparten entre los expertos. [31]

Mistral Grande 2

Mistral Large 2 se anunció el 24 de julio de 2024 y se lanzó en Hugging Face. A diferencia del Mistral Large anterior, esta versión se lanzó con pesos abiertos. Está disponible de forma gratuita con una licencia de investigación de Mistral y con una licencia comercial para fines comerciales. Mistral AI afirma que habla con fluidez docenas de lenguajes, incluidos muchos lenguajes de programación. El modelo tiene 123 mil millones de parámetros y una longitud de contexto de 128 000 tokens. Su rendimiento en los puntos de referencia es competitivo con Llama 3.1 405B , particularmente en tareas relacionadas con la programación. [32] [33]

Código 22B

Codestral es el primer modelo de peso abierto centrado en código de Mistral. Codestral se lanzó el 29 de mayo de 2024. Es un modelo liviano creado específicamente para tareas de generación de código. A la fecha de su lanzamiento, este modelo supera a Llama3 70B de Meta y DeepSeek Coder 33B (78,2% - 91,6%), otro modelo centrado en código en el benchmark HumanEval FIM. [34] Mistral afirma que Codestral domina más de 80 lenguajes de programación [35] Codestral tiene su propia licencia que prohíbe el uso de Codestral con fines comerciales. [36]

Matemáticas 7B

Mathstral 7B es un modelo con 7 mil millones de parámetros publicado por Mistral AI el 16 de julio de 2024. Se centra en las disciplinas STEM y ha obtenido una puntuación del 56,6 % en el índice de referencia MATH y del 63,47 % en el índice de referencia MMLU. [37] El modelo se elaboró ​​en colaboración con Project Numina, [38] y se publicó bajo la licencia Apache 2.0. Tiene una longitud de contexto de 32 000 tokens. [37]

Mamba 7B de Codestral

Codestral Mamba se basa en la arquitectura Mamba 2, que le permite generar respuestas incluso con entradas más largas. [38] A diferencia de Codestral, se lanzó bajo la licencia Apache 2.0. Si bien las versiones anteriores a menudo incluían tanto el modelo base como la versión instructiva, solo se lanzó la versión instructiva de Codestral Mamba. [39]

Modelos solo de API

A diferencia de Mistral 7B, Mixtral 8x7B y Mixtral 8x22B, los siguientes modelos son de código cerrado y solo están disponibles a través de la API de Mistral. [40]

Mistral grande

Mistral Large se lanzó el 26 de febrero de 2024 y Mistral afirma que es el segundo en el mundo, solo superado por GPT-4 de OpenAI.

Habla con fluidez inglés, francés, español, alemán e italiano, y Mistral afirma comprender tanto la gramática como el contexto cultural, y ofrece capacidades de codificación. A principios de 2024, es la IA insignia de Mistral. [41] También está disponible en Microsoft Azure.

En julio de 2024, se lanzó Mistral Large 2, que reemplazó al Mistral Large original. [42] A diferencia del modelo original, se lanzó con pesas abiertas. [33]

Mistral Medio

Mistral Medium está capacitado en varios idiomas, incluidos inglés, francés, italiano, alemán, español y código con una puntuación de 8,6 en MT-Bench. [43] Está clasificado en rendimiento por encima de Claude y por debajo de GPT-4 en el benchmark LMSys ELO Arena. [44]

Se desconoce el número de parámetros y la arquitectura de Mistral Medium, ya que Mistral no ha publicado información pública al respecto.

Mistral Pequeño

Al igual que el modelo Large, el Small se lanzó el 26 de febrero de 2024. Está destinado a ser un modelo liviano para baja latencia, con mejor rendimiento que Mixtral 8x7B. [45]

Referencias

  1. ^ "La start-up francesa Mistral AI encarna sus esperanzas en el campo de la inteligencia artificial". Le Monde.fr. 12 de diciembre de 2023. Consultado el 16 de diciembre de 2023 .
  2. ^ ab "Una startup de moda simplemente publica un modelo de inteligencia artificial que supera a GPT-3.5 en un enlace de torrent". Gizmodo. 12 de diciembre de 2023. Consultado el 16 de diciembre de 2023 .
  3. ^ "Llevando modelos de IA abiertos a la frontera". Mistral AI. 27 de septiembre de 2023. Consultado el 4 de enero de 2024 .
  4. ^ Metz, Cade (10 de diciembre de 2023). «Mistral, start-up francesa de inteligencia artificial, está valorada en 2.000 millones de dólares en una ronda de financiación». The New York Times.
  5. ^ Fink, Charlie. "Esta semana en XR: Epic triunfa sobre Google, Mistral AI recauda 415 millones de dólares y 56,5 millones de dólares para Essential AI". Forbes . Consultado el 16 de diciembre de 2023 .
  6. ^ "Una start-up francesa de inteligencia artificial puede haber iniciado una revolución en este campo, en silencio". Hindustan Times. 12 de diciembre de 2023.
  7. ^ "La start-up francesa de inteligencia artificial Mistral consigue una valoración de 2.000 millones de euros". ft.com Financial Times.
  8. ^ Kharpal, Arjun (24 de mayo de 2024). "Los directores ejecutivos de las empresas emergentes de inteligencia artificial respaldadas por Microsoft y Amazon son las nuevas estrellas del rock tecnológico". CNBC . Consultado el 13 de junio de 2024 .
  9. ^ "Triplicando la apuesta por Mistral AI | General Catalyst". www.generalcatalyst.com . Consultado el 13 de junio de 2024 .
  10. ^ "Modelos de peso abierto y modelos de lenguaje grande de Mistral AI". docs.mistral.ai . Consultado el 4 de enero de 2024 .
  11. ^ "Puntos finales y modelos de lenguaje grandes de Mistral AI". docs.mistral.ai.
  12. ^ "Puntos finales y puntos de referencia | Modelos de lenguaje grandes de Mistral AI". docs.mistral.ai . Consultado el 6 de marzo de 2024 .
  13. ^ Bratton, Laura (12 de junio de 2024). «El rival francés de OpenAI, Mistral AI, ahora vale 6.000 millones de dólares. Eso sigue siendo una fracción de sus principales competidores». Quartz (publicación) . Consultado el 13 de junio de 2024 .
  14. ^ Webb, Maria (2 de enero de 2024). «Mistral AI: explorando el último unicornio tecnológico de Europa». techopedia.com . Consultado el 13 de junio de 2024 .
  15. ^ "La start-up francesa Mistral AI encarna sus aspiraciones en el ámbito de la inteligencia artificial". Le Monde.fr . 12 de diciembre de 2023.
  16. ^ Journal, Sam Schechner | Fotografías de Edouard Jacquinet para The Wall Street. "La startup de inteligencia artificial de 9 meses de antigüedad que desafía a los gigantes de Silicon Valley". WSJ . Consultado el 31 de marzo de 2024 .
  17. ^ "Mistral lève 385 M€ et devient une licorne française - le Monde Informatique". 11 de diciembre de 2023.
  18. ^ abc "Mixtral de expertos". mistral.ai . 2023-12-11 . Consultado el 2024-01-04 .
  19. ^ Bableshwar (26 de febrero de 2024). "Mistral Large, el LLM insignia de Mistral AI, debuta en Azure AI Models-as-a-Service". techcommunity.microsoft.com . Consultado el 26 de febrero de 2024 .
  20. ^ "Mistral negocia una captación de 500 millones de euros con una valoración de 5.000 millones de euros". www.ft.com . Consultado el 19 de abril de 2024 .
  21. ^ Goldman, Sharon (8 de diciembre de 2023). "Mistral AI se opone a la tendencia de lanzamiento al publicar un enlace torrent al nuevo LLM de código abierto". VentureBeat . Consultado el 4 de enero de 2024 .
  22. ^ Coldewey, Devin (27 de septiembre de 2023). «Mistral AI hace que su primer modelo de lenguaje de gran tamaño sea gratuito para todos». TechCrunch . Consultado el 4 de enero de 2024 .
  23. ^ ab "Mistral 7B". mistral.ai . Mistral AI. 27 de septiembre de 2023 . Consultado el 4 de enero de 2024 .
  24. ^ Jiang, Albert Q.; Sablayrolles, Alexandre; Mensch, Arturo; Bamford, Chris; Chaplot, Devendra Singh; Casas, Diego de las; Bressand, Florián; Lengyel, Gianna; Lampe, Guillaume (10 de octubre de 2023). "Mistral 7B". arXiv : 2310.06825v1 [cs.CL].
  25. ^ "Explicación de la mezcla de expertos". huggingface.co . Consultado el 4 de enero de 2024 .
  26. ^ Marie, Benjamin (15 de diciembre de 2023). "Mixtral-8x7B: comprensión y ejecución de la mezcla dispersa de expertos". Medium . Consultado el 4 de enero de 2024 .
  27. ^ Franzen, Carl (11 de diciembre de 2023). "Mistral sorprende a la comunidad de IA ya que el último modelo de código abierto eclipsa el rendimiento de GPT-3.5". VentureBeat . Consultado el 4 de enero de 2024 .
  28. ^ Field, Hayden (6 de marzo de 2024). "Los investigadores probaron los principales modelos de IA para detectar infracciones de derechos de autor utilizando libros populares, y GPT-4 tuvo el peor desempeño". CNBC . Consultado el 6 de marzo de 2024 .
  29. ^ "Presentamos CopyrightCatcher, la primera API de detección de derechos de autor para LLM". Patronus AI. 6 de marzo de 2024. Consultado el 6 de marzo de 2024 .
  30. ^ @MistralAI (10 de abril de 2024). "Torrent" ( Tweet ) – vía Twitter .
  31. ^ ab "mistralai/Mixtral-8x22B-v0.1 · Hugging Face". huggingface.co . Consultado el 5 de mayo de 2024 .
  32. ^ AI, Mistral (24 de julio de 2024). "Suficientemente grande". mistral.ai . Consultado el 24 de julio de 2024 .
  33. ^ ab "mistralai/Mistral-Large-Instruct-2407 · Hugging Face". huggingface.co . Consultado el 24 de agosto de 2024 .
  34. ^ AI, Mistral (29 de mayo de 2024). "Codestral: ¡Hola, mundo!". mistral.ai . Consultado el 30 de mayo de 2024 .
  35. ^ Sharma, Shubham (29 de mayo de 2024). «Mistral anuncia Codestral, su primer modelo de IA centrado en la programación». VentureBeat . Consultado el 30 de mayo de 2024 .
  36. ^ Wiggers, Kyle (29 de mayo de 2024). «Mistral lanza Codestral, su primer modelo de IA generativa para código». TechCrunch . Consultado el 30 de mayo de 2024 .
  37. ^ ab AI, Mistral (16 de julio de 2024). "MathΣtral". mistral.ai . Consultado el 16 de julio de 2024 .
  38. ^ ab David, Emilia (16 de julio de 2024). "Mistral lanza Codestral Mamba para una generación de código más rápida y extensa". VentureBeat . Consultado el 17 de julio de 2024 .
  39. ^ AI, Mistral (16 de julio de 2024). "Codestral Mamba". mistral.ai . Consultado el 16 de julio de 2024 .
  40. ^ "Precios y límites de tarifas | Modelos de lenguaje grandes de Mistral AI". docs.mistral.ai . Consultado el 22 de enero de 2024 .
  41. ^ AI, Mistral (26 de febrero de 2024). "Au Large". mistral.ai . Consultado el 6 de marzo de 2024 .
  42. ^ "Modelos | Modelos de lenguaje grandes de Mistral AI". docs.mistral.ai . Consultado el 24 de agosto de 2024 .
  43. ^ IA, Mistral (11 de diciembre de 2023). "La plataforma". mistral.ai . Consultado el 22 de enero de 2024 .
  44. ^ "LMSys Chatbot Arena Leaderboard - un espacio de Hugging Face de lmsys". huggingface.co . Consultado el 22 de enero de 2024 .
  45. ^ AI, Mistral (26 de febrero de 2024). "Au Large". mistral.ai . Consultado el 6 de marzo de 2024 .

Enlaces externos