GPT-4o ("o" de "omni") es un transformador generativo multimodal y multilingüe previamente entrenado desarrollado por OpenAI y lanzado en mayo de 2024. [1] GPT-4o es gratuito, pero con un límite de uso que es cinco veces mayor para los suscriptores de ChatGPT Plus . [2] Puede procesar y generar texto, imágenes y audio. [3] Su interfaz de programación de aplicaciones (API) es el doble de rápida y la mitad del precio de su predecesor, GPT-4 Turbo . [1]
Originalmente, se lanzaron en secreto varias versiones de GPT-4o con diferentes nombres en el Chatbot Arena de Large Model Systems Organization (LMSYS) como tres modelos diferentes. Estos tres modelos se denominaban gpt2-chatbot, im-a-good-gpt2-chatbot y im-also-a-good-gpt2-chatbot. [4] El 7 de mayo de 2024, Sam Altman tuiteó "im-a-good-gpt2-chatbot", lo que se interpretó comúnmente como una confirmación de que se trataba de nuevos modelos de OpenAI que se estaban probando A/B . [5]
GPT-4o logró resultados de vanguardia en los puntos de referencia de voz, multilingüe y visión, estableciendo nuevos récords en reconocimiento y traducción de voz en audio. [6] [7] GPT-4o obtuvo una puntuación de 88,7 en el punto de referencia Massive Multitask Language Understanding ( MMLU ) en comparación con el 86,5 de GPT-4. [8] A diferencia de GPT-3.5 y GPT-4, que dependen de otros modelos para procesar el sonido, GPT-4o admite de forma nativa la voz a voz. [8] Sam Altman señaló el 15 de mayo de 2024 que las capacidades de voz a voz de GPT-4o aún no estaban integradas en ChatGPT y que la versión anterior todavía se estaba utilizando. [9] Este nuevo modo, llamado Modo de voz avanzado, se encuentra actualmente en una versión alfa limitada. [10]
El modelo admite más de 50 idiomas, [1] que según OpenAI cubren más del 97 % de los hablantes. [11] Mira Murati demostró la capacidad multilingüe del modelo al hablarle en italiano y hacer que tradujera entre inglés e italiano durante el evento de demostración de OpenAI transmitido en vivo el 13 de mayo de 2024. Además, el nuevo tokenizador usa menos tokens para ciertos idiomas, especialmente los idiomas que no se basan en el alfabeto latino , lo que lo hace más económico para esos idiomas. [8]
GPT-4o tiene conocimiento hasta octubre de 2023, [12] [13] pero puede acceder a Internet si se necesita información actualizada. Tiene una longitud de contexto de 128k tokens [12] con un límite de tokens de salida limitado a 4096, [13] y después de una actualización posterior (gpt-4o-2024-08-06) a 16 384. [14]
A partir de mayo de 2024, es el modelo líder en los LMSYS Elo Arena Benchmarks de la Universidad de California, Berkeley . [15]
En agosto de 2024, OpenAI introdujo una nueva función que permite a los clientes corporativos personalizar GPT-4o, su modelo de IA más avanzado, utilizando datos patentados de la empresa. Esta personalización, conocida como ajuste fino , permite a las empresas adaptar GPT-4o a tareas o industrias específicas, mejorando su utilidad en áreas como el servicio al cliente y los dominios de conocimiento especializados. Anteriormente, el ajuste fino solo estaba disponible en el modelo menos potente GPT-4o mini. [16] [17]
El proceso de ajuste requiere que los clientes carguen sus datos en los servidores de OpenAI, y la capacitación suele llevar entre una y dos horas. Inicialmente, la personalización se limitará a los datos basados en texto. El objetivo de OpenAI con esta implementación es reducir la complejidad y el esfuerzo que requieren las empresas para adaptar las soluciones de IA a sus necesidades, lo que podría aumentar la adopción y la eficacia de la IA en los entornos corporativos. [18] [16]
El 18 de julio de 2024, OpenAI lanzó una versión más pequeña y económica, GPT-4o mini . [19]
Según OpenAI, se espera que su bajo coste sea especialmente útil para empresas, startups y desarrolladores que quieran integrarlo en sus servicios, que suelen realizar una gran cantidad de llamadas a la API . Su API cuesta 0,15 dólares por millón de tokens de entrada y 0,6 dólares por millón de tokens de salida, frente a los 5 y 15 dólares respectivamente de GPT-4o. También es significativamente más capaz y un 60% más barata que GPT-3.5 Turbo, al que sustituyó en la interfaz ChatGPT. [19] El precio tras el ajuste fino se duplica: 0,3 dólares por millón de tokens de entrada y 1,2 dólares por millón de tokens de salida. [20]
GPT-4o mini es el modelo predeterminado para usuarios que no han iniciado sesión y usan ChatGPT como invitados y para aquellos que han alcanzado el límite de GPT-4o.
GPT-4o mini estará disponible en el otoño de 2024 en los dispositivos móviles de Apple y en las computadoras de escritorio Mac, a través de la función Apple Intelligence . [19]
Según se publicó, GPT-4o ofrecía cinco voces: Breeze, Cove, Ember, Juniper y Sky. Rápidamente se notó una similitud entre la voz de la actriz estadounidense Scarlett Johansson y Sky. El 14 de mayo, Entertainment Weekly se preguntó si esta semejanza era intencional. [21] El 18 de mayo, el esposo de Johansson, Colin Jost , bromeó sobre la similitud en un segmento de Saturday Night Live . [22] El 20 de mayo de 2024, OpenAI deshabilitó la voz de Sky y emitió un comunicado que decía: "Hemos escuchado preguntas sobre cómo elegimos las voces en ChatGPT, especialmente Sky. Estamos trabajando para pausar el uso de Sky mientras las abordamos". [23]
Scarlett Johansson protagonizó la película de ciencia ficción Her en 2013, interpretando el papel de Samantha, una asistente virtual con inteligencia artificial personificada a través de una voz femenina. Como parte de la promoción previa al lanzamiento de GPT-4o, Sam Altman tuiteó el 13 de mayo una sola palabra: "her" (her). [24] [25]
OpenAI afirmó que cada voz se basaba en el trabajo de voz de un actor contratado. En concreto, OpenAI afirmó que "la voz de Sky no es una imitación de Scarlett Johansson, sino que pertenece a una actriz profesional diferente que utiliza su propia voz natural al hablar". [23] Ya en septiembre de 2023, OpenAI había afirmado que su próxima nueva versión parlante de su asistente ChatGPT que sonaba como Scarlett Johansson "no estaba destinada a parecerse" a la actriz. [26] La directora técnica Mira Murati declaró: "No sé nada sobre la voz. De hecho, tuve que ir a escuchar la voz de Scarlett Johansson". OpenAI afirmó además que el talento de la voz fue reclutado antes de contactar a Johansson. [25]
El 21 de mayo, Johansson emitió un comunicado en el que explicaba que OpenAI le había ofrecido repetidamente un trato para obtener permiso para usar su voz desde nueve meses antes del estreno, un trato que ella rechazó. Dijo que estaba "sorprendida, enojada e incrédula de que el Sr. Altman buscara una voz que sonaba tan extrañamente similar a la mía que mis amigos más cercanos y los medios de comunicación no podían notar la diferencia". En el comunicado, Johansson también utilizó el incidente para llamar la atención sobre la falta de garantías legales en torno al uso del trabajo creativo para impulsar las principales herramientas de inteligencia artificial, ya que su asesor legal exigió a OpenAI que detallara los detalles de cómo se creó la voz de Sky. [25] [27]
Los observadores notaron similitudes con la forma en que Johansson había demandado y llegado a un acuerdo previamente con The Walt Disney Company por incumplimiento de contrato durante el lanzamiento directo a streaming de su película de Marvel Black Widow , [28] un acuerdo que se especuló ampliamente que le había reportado alrededor de $40 millones. [29]
También el 21 de mayo, Shira Ovide en The Washington Post compartió su lista de "las voces más estúpidas" de las empresas de tecnología, y la decisión de seguir adelante con una voz que se pareciera a la de Johansson a pesar de su oposición y luego negar las similitudes ocupó el sexto lugar. [26] El 24 de mayo, Derek Robertson en Politico escribió sobre la "reacción masiva" y concluyó que "apropiarse de la voz de una de las estrellas de cine más famosas del mundo, en referencia [...] a una película que sirve como advertencia sobre la excesiva dependencia de la IA, es poco probable que ayude a que el público vuelva a apoyar a [Sam Altman] en el corto plazo". [30]