GPT-4o

GPT-4o ("o" de "omni") es un transformador generativo multimodal y multilingüe previamente entrenado desarrollado por OpenAI y lanzado en mayo de 2024. ^[1] GPT-4o es gratuito, pero con un límite de uso que es cinco veces mayor para los suscriptores de ChatGPT Plus . ^[2] Puede procesar y generar texto, imágenes y audio. ^[3] Su interfaz de programación de aplicaciones (API) es el doble de rápida y la mitad del precio de su predecesor, GPT-4 Turbo . ^[1]

Fondo

Originalmente, se lanzaron en secreto varias versiones de GPT-4o con diferentes nombres en el Chatbot Arena de Large Model Systems Organization (LMSYS) como tres modelos diferentes. Estos tres modelos se denominaban gpt2-chatbot, im-a-good-gpt2-chatbot y im-also-a-good-gpt2-chatbot. ^[4] El 7 de mayo de 2024, Sam Altman tuiteó "im-a-good-gpt2-chatbot", lo que se interpretó comúnmente como una confirmación de que se trataba de nuevos modelos de OpenAI que se estaban probando A/B . ^[5]

Capacidades

GPT-4o logró resultados de vanguardia en los puntos de referencia de voz, multilingüe y visión, estableciendo nuevos récords en reconocimiento y traducción de voz en audio. ^[6]^[7] GPT-4o obtuvo una puntuación de 88,7 en el punto de referencia Massive Multitask Language Understanding ( MMLU ) en comparación con el 86,5 de GPT-4. ^[8] A diferencia de GPT-3.5 y GPT-4, que dependen de otros modelos para procesar el sonido, GPT-4o admite de forma nativa la voz a voz. ^[8] Sam Altman señaló el 15 de mayo de 2024 que las capacidades de voz a voz de GPT-4o aún no estaban integradas en ChatGPT y que la versión anterior todavía se estaba utilizando. ^[9] Este nuevo modo, llamado Modo de voz avanzado, se encuentra actualmente en una versión alfa limitada. ^[10]

El modelo admite más de 50 idiomas, ^[1] que según OpenAI cubren más del 97 % de los hablantes. ^[11] Mira Murati demostró la capacidad multilingüe del modelo al hablarle en italiano y hacer que tradujera entre inglés e italiano durante el evento de demostración de OpenAI transmitido en vivo el 13 de mayo de 2024. Además, el nuevo tokenizador usa menos tokens para ciertos idiomas, especialmente los idiomas que no se basan en el alfabeto latino , lo que lo hace más económico para esos idiomas. ^[8]

GPT-4o tiene conocimiento hasta octubre de 2023, ^[12]^[13] pero puede acceder a Internet si se necesita información actualizada. Tiene una longitud de contexto de 128k tokens ^[12] con un límite de tokens de salida limitado a 4096, ^[13] y después de una actualización posterior (gpt-4o-2024-08-06) a 16 384. ^[14]

A partir de mayo de 2024, es el modelo líder en los LMSYS Elo Arena Benchmarks de la Universidad de California, Berkeley . ^[15]

Personalización corporativa

En agosto de 2024, OpenAI introdujo una nueva función que permite a los clientes corporativos personalizar GPT-4o, su modelo de IA más avanzado, utilizando datos patentados de la empresa. Esta personalización, conocida como ajuste fino , permite a las empresas adaptar GPT-4o a tareas o industrias específicas, mejorando su utilidad en áreas como el servicio al cliente y los dominios de conocimiento especializados. Anteriormente, el ajuste fino solo estaba disponible en el modelo menos potente GPT-4o mini. ^[16]^[17]

El proceso de ajuste requiere que los clientes carguen sus datos en los servidores de OpenAI, y la capacitación suele llevar entre una y dos horas. Inicialmente, la personalización se limitará a los datos basados en texto. El objetivo de OpenAI con esta implementación es reducir la complejidad y el esfuerzo que requieren las empresas para adaptar las soluciones de IA a sus necesidades, lo que podría aumentar la adopción y la eficacia de la IA en los entornos corporativos. ^[18]^[16]

GPT-4o mini

El 18 de julio de 2024, OpenAI lanzó una versión más pequeña y económica, GPT-4o mini . ^[19]

Según OpenAI, se espera que su bajo coste sea especialmente útil para empresas, startups y desarrolladores que quieran integrarlo en sus servicios, que suelen realizar una gran cantidad de llamadas a la API . Su API cuesta 0,15 dólares por millón de tokens de entrada y 0,6 dólares por millón de tokens de salida, frente a los 5 y 15 dólares respectivamente de GPT-4o. También es significativamente más capaz y un 60% más barata que GPT-3.5 Turbo, al que sustituyó en la interfaz ChatGPT. ^[19] El precio tras el ajuste fino se duplica: 0,3 dólares por millón de tokens de entrada y 1,2 dólares por millón de tokens de salida. ^[20]

GPT-4o mini es el modelo predeterminado para usuarios que no han iniciado sesión y usan ChatGPT como invitados y para aquellos que han alcanzado el límite de GPT-4o.

GPT-4o mini estará disponible en el otoño de 2024 en los dispositivos móviles de Apple y en las computadoras de escritorio Mac, a través de la función Apple Intelligence . ^[19]

La polémica de Scarlett Johansson

Según se publicó, GPT-4o ofrecía cinco voces: Breeze, Cove, Ember, Juniper y Sky. Rápidamente se notó una similitud entre la voz de la actriz estadounidense Scarlett Johansson y Sky. El 14 de mayo, Entertainment Weekly se preguntó si esta semejanza era intencional. ^[21] El 18 de mayo, el esposo de Johansson, Colin Jost , bromeó sobre la similitud en un segmento de Saturday Night Live . ^[22] El 20 de mayo de 2024, OpenAI deshabilitó la voz de Sky y emitió un comunicado que decía: "Hemos escuchado preguntas sobre cómo elegimos las voces en ChatGPT, especialmente Sky. Estamos trabajando para pausar el uso de Sky mientras las abordamos". ^[23]

Scarlett Johansson protagonizó la película de ciencia ficción Her en 2013, interpretando el papel de Samantha, una asistente virtual con inteligencia artificial personificada a través de una voz femenina. Como parte de la promoción previa al lanzamiento de GPT-4o, Sam Altman tuiteó el 13 de mayo una sola palabra: "her" (her). ^[24]^[25]

OpenAI afirmó que cada voz se basaba en el trabajo de voz de un actor contratado. En concreto, OpenAI afirmó que "la voz de Sky no es una imitación de Scarlett Johansson, sino que pertenece a una actriz profesional diferente que utiliza su propia voz natural al hablar". ^[23] Ya en septiembre de 2023, OpenAI había afirmado que su próxima nueva versión parlante de su asistente ChatGPT que sonaba como Scarlett Johansson "no estaba destinada a parecerse" a la actriz. ^[26] La directora técnica Mira Murati declaró: "No sé nada sobre la voz. De hecho, tuve que ir a escuchar la voz de Scarlett Johansson". OpenAI afirmó además que el talento de la voz fue reclutado antes de contactar a Johansson. ^[25]

El 21 de mayo, Johansson emitió un comunicado en el que explicaba que OpenAI le había ofrecido repetidamente un trato para obtener permiso para usar su voz desde nueve meses antes del estreno, un trato que ella rechazó. Dijo que estaba "sorprendida, enojada e incrédula de que el Sr. Altman buscara una voz que sonaba tan extrañamente similar a la mía que mis amigos más cercanos y los medios de comunicación no podían notar la diferencia". En el comunicado, Johansson también utilizó el incidente para llamar la atención sobre la falta de garantías legales en torno al uso del trabajo creativo para impulsar las principales herramientas de inteligencia artificial, ya que su asesor legal exigió a OpenAI que detallara los detalles de cómo se creó la voz de Sky. ^[25]^[27]

Los observadores notaron similitudes con la forma en que Johansson había demandado y llegado a un acuerdo previamente con The Walt Disney Company por incumplimiento de contrato durante el lanzamiento directo a streaming de su película de Marvel Black Widow , ^[28] un acuerdo que se especuló ampliamente que le había reportado alrededor de $40 millones. ^[29]

También el 21 de mayo, Shira Ovide en The Washington Post compartió su lista de "las voces más estúpidas" de las empresas de tecnología, y la decisión de seguir adelante con una voz que se pareciera a la de Johansson a pesar de su oposición y luego negar las similitudes ocupó el sexto lugar. ^[26] El 24 de mayo, Derek Robertson en Politico escribió sobre la "reacción masiva" y concluyó que "apropiarse de la voz de una de las estrellas de cine más famosas del mundo, en referencia [...] a una película que sirve como advertencia sobre la excesiva dependencia de la IA, es poco probable que ayude a que el público vuelva a apoyar a [Sam Altman] en el corto plazo". ^[30]

Véase también

Referencias

^ abc Wiggers, Kyle (13 de mayo de 2024). "OpenAI presenta el modelo 'omni' GPT-4o que ahora impulsa ChatGPT". TechCrunch . Consultado el 13 de mayo de 2024 .
^ Campo, Hayden (13 de mayo de 2024). "OpenAI lanza el nuevo modelo de IA GPT-4o y la versión de escritorio de ChatGPT". CNBC . Consultado el 14 de mayo de 2024 .
^ Colburn, Thomas. «OpenAI presenta GPT-4o, un nuevo modelo insignia de IA multimodal». The Register . Consultado el 18 de mayo de 2024 .
^ Edwards, Benj (13 de mayo de 2024). "Antes de su lanzamiento, GPT-4o batió récords en la clasificación de chatbots con un nombre secreto". Ars Technica . Consultado el 17 de mayo de 2024 .
^ Zeff, Maxwell (7 de mayo de 2024). "Un nuevo y poderoso chatbot regresa misteriosamente en mitad de la noche". Gizmodo . Consultado el 17 de mayo de 2024 .
^ van Rijmenam, Mark (13 de mayo de 2024). «OpenAI lanzó GPT-4o: el futuro de las interacciones con IA ya está aquí». The Digital Speaker . Consultado el 17 de mayo de 2024 .
^ Daws, Ryan (14 de mayo de 2024). "GPT-4o ofrece interacción de IA similar a la humana con integración de texto, audio y visión". AI News . Consultado el 18 de mayo de 2024 .
^ a b "Hola GPT-4o". AbiertoAI .
^ "OpenAI GPT-4o: Cómo acceder al modo de voz de GPT-4o; información de Sam Altman". The Times of India . 2024-05-16. ISSN 0971-8257 . Consultado el 2024-05-18 .
^ Morrison, Ryan (19 de julio de 2024). "OpenAI hará que GPT-4o Advanced Voice esté disponible a finales de mes para un grupo selecto de usuarios". Tom's Guide . Consultado el 10 de septiembre de 2024 .
^ Edwards, Benj (13 de mayo de 2024). "La importante actualización de ChatGPT-4o permite conversaciones de audio y video con un chatbot de IA "emocional". Ars Technica . Consultado el 17 de mayo de 2024 .
^ ab "Modelos: API OpenAI". AbiertoAI . Consultado el 17 de mayo de 2024 .
^ ab Conway, Adam (13 de mayo de 2024). "¿Qué es GPT-4o? Todo lo que necesitas saber sobre el nuevo modelo OpenAI que todos pueden usar de forma gratuita". XDA Developers . Consultado el 17 de mayo de 2024 .
^ "Modelos".
^ Franzen, Carl (13 de mayo de 2024). «OpenAI anuncia el nuevo modelo gratuito GPT-4o y ChatGPT para escritorio». VentureBeat . Consultado el 18 de mayo de 2024 .
^ ab "OpenAI permite a las empresas personalizar su modelo de IA más potente". South China Morning Post . 2024-08-21 . Consultado el 2024-08-22 .
^ "OpenAI permitirá a las empresas personalizar su modelo de IA más potente". Bloomberg . 2024-08-20 . Consultado el 2024-08-22 .
^ The Hindu Bureau (21 de agosto de 2024). «OpenAI permitirá a las empresas personalizar GPT-4o para casos de uso específicos». The Hindu . ISSN 0971-751X . Consultado el 22 de agosto de 2024 .
^ abc Franzen, Carl (18 de julio de 2024). «OpenAI presenta GPT-4o mini, un modelo de IA multimodal más pequeño y mucho más económico». VentureBeat . Consultado el 18 de julio de 2024 .
^ "Precios de OpenAI".
^ Stenzel, Wesley (14 de mayo de 2024). "ChatGPT lanza una IA parlante que suena exactamente como Scarlett Johansson en 'Her', ¿a propósito?". Entertainment Weekly . Consultado el 21 de mayo de 2024 .
^ Caruso, Nick (20 de mayo de 2024). "Scarlett Johansson dice que estaba 'conmocionada, enojada e incrédula' después de escuchar una voz de ChatGPT que sonaba como la suya. Lea la declaración". TVLine . Consultado el 21 de mayo de 2024 .
^ ab "Cómo se eligieron las voces para ChatGPT". OpenAI . 19 de mayo de 2024.
^ "ella". X (anteriormente Twitter) . 13 de mayo de 2024. Consultado el 21 de mayo de 2024 .
^ abc Allyn, Bobby (20 de mayo de 2024). "Scarlett Johansson dice que está 'conmocionada y enojada' por la nueva voz de ChatGPT". NPR .
^ ab Ovide, Shira (30 de mayo de 2024). "Perspectiva | ¿Qué tan estúpido fue exactamente lo que OpenAI le hizo a Scarlett Johansson?". The Washington Post .
^ Mickle, Tripp (20 de mayo de 2024). "Scarlett Johansson dijo que no, pero el asistente virtual de OpenAI suena igual que ella". The New York Times . ISSN 0362-4331 . Consultado el 21 de mayo de 2024 .
^ "Scarlett Johansson se enfrentó a Disney. Ahora está luchando contra OpenAI por una voz de ChatGPT que suena como la suya". Yahoo Finance . 2024-05-21 . Consultado el 2024-05-21 .
^ Pulver, Andrew (1 de octubre de 2021). «Scarlett Johansson resuelve la demanda de Black Widow con Disney». The Guardian . ISSN 0261-3077 . Consultado el 21 de mayo de 2024 .
^ Robertson, Derek (22 de mayo de 2024). "El error de Scarlett Johansson de Sam Altman hizo que la IA fuera más difícil de vender en Washington". Politico .