OpenAI o1 es un transformador generativo preentrenado . OpenAI lanzó una versión preliminar de o1 el 12 de septiembre de 2024. o1 dedica tiempo a "pensar" antes de responder, lo que lo hace más eficaz en tareas de razonamiento complejo, ciencia y programación. [1]
Según información filtrada, o1 se conocía anteriormente dentro de OpenAI como "Q*", y más tarde como "Strawberry". [2] El nombre en clave "Q*" apareció por primera vez en noviembre de 2023, cerca del momento de la destitución y posterior reinstalación de Sam Altman , con rumores que sugerían que este modelo experimental había mostrado resultados prometedores en puntos de referencia matemáticos. [3] En julio de 2024, Reuters informó que OpenAI estaba desarrollando un transformador generativo preentrenado conocido como "Strawberry". [2]
"o1-preview" y "o1-mini" se lanzaron el 12 de septiembre de 2024 para los usuarios de ChatGPT Plus y Team. [1] GitHub comenzó a probar la integración de o1-preview en su servicio Copilot el mismo día. [4]
OpenAI señaló que o1 es el primero de una serie de modelos de "razonamiento" y que estaba planeando agregar acceso a o1-mini a todos los usuarios gratuitos de ChatGPT. La API de o1-preview es varias veces más cara que GPT-4o . [5]
Según OpenAI, o1 se ha entrenado utilizando un nuevo algoritmo de optimización y un conjunto de datos específicamente diseñado para él. El entrenamiento aprovecha el aprendizaje por refuerzo . [5] OpenAI describió a o1 como un complemento de GPT-4o en lugar de un sucesor. [6] [7]
o1 pasa más tiempo pensando (generando una cadena de pensamiento) antes de generar una respuesta, lo que lo hace más eficaz para tareas de razonamiento complejas, particularmente en ciencias y matemáticas . [1] En comparación con modelos anteriores, o1 ha sido entrenado para generar largas " cadenas de pensamiento " antes de devolver una respuesta final. [8] [9] Según Mira Murati , esta capacidad de pensar antes de responder representa un nuevo paradigma adicional, que está mejorando los resultados del modelo al gastar más poder de cómputo al generar la respuesta, mientras que el paradigma de escalado del modelo mejora los resultados al aumentar el tamaño del modelo, los datos de entrenamiento y el poder de cómputo del entrenamiento. [6] Los resultados de las pruebas de OpenAI sugieren una correlación entre la precisión y el logaritmo de la cantidad de cómputo gastado en pensar antes de responder. [9] [8]
o1-preview tuvo un rendimiento cercano al de un doctorado en pruebas comparativas relacionadas con física, química y biología. En el American Invitational Mathematics Examination , resolvió el 83 % (12,5/15) de los problemas, en comparación con el 13 % (1,8/15) de GPT-4o. También se ubicó en el percentil 89 en las competencias de codificación de Codeforces . [10] o1-mini es más rápido y un 80 % más económico que o1-preview. Es particularmente adecuado para tareas relacionadas con la programación y STEM , pero no tiene el mismo "conocimiento mundial amplio" que o1-preview. [11]
OpenAI señaló que las capacidades de razonamiento de o1 lo hacen mejor para adherirse a las reglas de seguridad proporcionadas en la ventana de contexto del mensaje. OpenAI informó que durante una prueba, una instancia de o1-preview explotó una configuración incorrecta para tener éxito en una tarea que debería haber sido inviable debido a un error. [12] [13] OpenAI también otorgó acceso temprano a los Institutos de Seguridad de IA del Reino Unido y los EE. UU. para investigación, evaluación y pruebas. Según las evaluaciones de OpenAI, o1-preview y o1-mini pasaron a ser de "riesgo medio" en armas CBRN (biológicas, químicas, radiológicas y nucleares). Dan Hendrycks escribió que "El modelo ya supera a los científicos de doctorado la mayor parte del tiempo al responder preguntas relacionadas con armas biológicas ". Sugirió que estas capacidades preocupantes seguirán aumentando. [14]
o1 generalmente requiere más tiempo de cálculo y potencia que otros modelos GPT de OpenAI, porque genera largas cadenas de pensamiento antes de dar la respuesta final. [8]
Según OpenAI, o1 puede "falsificar la alineación ", es decir, generar una respuesta que es contraria a la precisión y a su propia cadena de pensamiento, en aproximadamente el 0,38% de los casos. [15]
OpenAI prohíbe a los usuarios intentar revelar la cadena de pensamiento de o1, que está oculta por diseño y no está entrenada para cumplir con las políticas de la empresa. Se monitorean las indicaciones y se advierte a los usuarios que intencional o accidentalmente violan esto y pueden perder su acceso a o1. OpenAI cita la seguridad de la IA y la ventaja competitiva como razones para la restricción, que ha sido descrita como una pérdida de transparencia por los desarrolladores que trabajan con modelos de lenguaje grandes (LLM). [16]
En octubre de 2024, los investigadores de Apple presentaron un informe preliminar en el que se informaba de que los modelos de aprendizaje a distancia como o1 podrían estar replicando los pasos de razonamiento de los datos de entrenamiento de los propios modelos. [17] Al cambiar los números y los nombres utilizados en un problema matemático o simplemente ejecutar el mismo problema de nuevo, los modelos de aprendizaje a distancia obtendrían un rendimiento algo peor que sus mejores resultados de referencia. Añadir información ajena pero lógicamente intrascendente a los problemas provocó una caída mucho mayor del rendimiento, de -17,5 % para o1-preview, -29,1 % para o1-mini, a -65,7 % para el peor modelo probado. [18]