Modelo de lenguaje generador de texto 2023
IBM Granite es una serie de modelos de base de IA basados únicamente en decodificadores creados por IBM . Se anunció el 7 de septiembre de 2023, [3] [4] y se publicó un artículo inicial 4 días después. [5] Inicialmente destinado a usarse en la plataforma de inteligencia artificial generativa y de datos basada en la nube Watsonx de IBM junto con otros modelos, [6] IBM abrió el código fuente de algunos modelos de código. [7] Los modelos Granite se entrenan en conjuntos de datos seleccionados de Internet , publicaciones académicas , conjuntos de datos de código , documentos legales y financieros. [8] [9] [1]
Modelos de fundación
Un modelo de base es un modelo de IA entrenado con datos amplios a escala, de modo que pueda adaptarse a una amplia gama de tareas posteriores. [10]
Los primeros modelos básicos de Granite fueron Granite.13b.instruct y Granite.13b.chat. El "13b" en su nombre proviene de 13 mil millones, la cantidad de parámetros que tienen como modelos, menor que la mayoría de los modelos más grandes de la época. Los modelos posteriores varían de 3 a 34 mil millones de parámetros. [3] [11]
El 6 de mayo de 2024, IBM publicó el código fuente de cuatro variaciones de Granite Code Models bajo Apache 2 , una licencia permisiva de código abierto que permite el uso, la modificación y el intercambio completamente gratuitos del software, y los puso en Hugging Face para uso público. [12] [13] Según el propio informe de IBM, Granite 8b supera a Llama 3 en varias tareas relacionadas con la codificación dentro de un rango similar de parámetros. [14] [15]
Véase también
Referencias
- ^ ab McDowell, Steve. "Los nuevos modelos Granite Foundation de IBM permiten una inteligencia artificial empresarial segura". Forbes .
- ^ ibm-granite/granite-code-models, IBM Granite, 8 de mayo de 2024 , consultado el 8 de mayo de 2024
- ^ ab Nirmal, Dinesh (7 de septiembre de 2023). "Construyendo IA para empresas: modelos de base Granite de IBM". IBM .
- ^ "IBM presenta la serie Granite de modelos de lenguajes eficientes en términos de hardware". 7 de septiembre de 2023.
- ^ "Modelos de cimientos de granito" (PDF) . IBM. 2023-11-30.
- ^ Fritts, Harold (22 de abril de 2024). "IBM agrega Meta Llama 3 a Watsonx y amplía su oferta de inteligencia artificial". StorageReview.com . Consultado el 8 de mayo de 2024 .
- ^ Jindal, Siddharth (7 de mayo de 2024). "IBM lanza modelos de código Granite de código abierto y supera a Llama 3". Revista Analytics India . Consultado el 8 de mayo de 2024 .
- ^ Azhar, Ali (8 de abril de 2024). "IBM patenta un método más rápido para formar a titulados en derecho para empresas". Datanami . Consultado el 8 de mayo de 2024 .
- ^ Wiggers, Kyle (7 de septiembre de 2023). "IBM presenta nuevas funciones y modelos de inteligencia artificial generativa". TechCrunch . Consultado el 8 de mayo de 2024 .
- ^ "Presentación del Centro de Investigación sobre Modelos de Cimentación (CRFM)". Stanford HAI . 18 de agosto de 2021.
- ^ Pawar, Sahil (11 de septiembre de 2023). "IBM presenta los modelos LLM de la serie Granite para la plataforma Watsonx". Analytics Drift . Consultado el 9 de mayo de 2024 .
- ^ Nine, Adrianna (7 de mayo de 2024). "IBM hace que los modelos de IA de Granite sean de código abierto bajo la nueva plataforma InstructLab". ExtremeTech .
- ^ "IBM publica en código abierto sus modelos de IA Granite, y lo hace en serio". ZDNET . Consultado el 21 de mayo de 2024 .
- ^ Jindal, Siddharth (7 de mayo de 2024). "IBM lanza modelos de código Granite de código abierto y supera a Llama 3". Revista Analytics India . Consultado el 9 de mayo de 2024 .
- ^ Synced (13 de mayo de 2024). "IBM's Granite Code: potenciando el desarrollo de software empresarial con precisión de IA | Synced". syncedreview.com . Consultado el 21 de mayo de 2024 .
Enlaces externos