Sora es un modelo de inteligencia artificial generativa en ascenso desarrollado por OpenAI , que se especializa en la generación de texto a video . El modelo genera videoclips cortos que corresponden a las indicaciones de los usuarios. Sora también puede extender videos cortos existentes. A partir de octubre de 2024, no se lanzó y aún no está disponible para el público. [1]
Se habían creado varios otros modelos de generación de texto a video antes de Sora, incluidos Make-A-Video de Meta , Gen-2 de Runway y Lumiere de Google , el último de los cuales, a febrero de 2024, [actualizar]también se encuentra todavía en su fase de investigación. [2] OpenAI , la compañía detrás de Sora, había lanzado DALL·E 3 , el tercero de sus modelos de texto a imagen DALL-E , en septiembre de 2023. [3]
El equipo que desarrolló Sora lo nombró así por la palabra japonesa para cielo para significar su "potencial creativo ilimitado". [4] El 15 de febrero de 2024, OpenAI presentó por primera vez Sora al publicar varios clips de videos de alta definición que creó, incluido un SUV conduciendo por una carretera de montaña, una animación de un "monstruo pequeño y esponjoso" junto a una vela, dos personas caminando por Tokio en la nieve y metraje histórico falso de la fiebre del oro de California , y afirmó que podía generar videos de hasta un minuto de duración. [2] Luego, la compañía compartió un informe técnico, que destacó los métodos utilizados para entrenar el modelo. [5] [6] El director ejecutivo de OpenAI, Sam Altman , también publicó una serie de tuits, respondiendo a las indicaciones de los usuarios de Twitter con videos generados por Sora de las indicaciones.
OpenAI ha declarado que planea poner Sora a disposición del público, pero que no sería pronto; no ha especificado cuándo. [2] [1] La empresa proporcionó acceso limitado a un pequeño " equipo rojo ", que incluía expertos en desinformación y sesgo, para realizar pruebas adversas en el modelo. [3] La empresa también compartió Sora con un pequeño grupo de profesionales creativos, incluidos realizadores de videos y artistas, para buscar comentarios sobre su utilidad en campos creativos. [7]
La tecnología detrás de Sora es una adaptación de la tecnología detrás de DALL-E 3. Según OpenAI, Sora es un transformador de difusión [8] , un modelo de difusión latente de eliminación de ruido con un transformador como eliminador de ruido. Se genera un video en el espacio latente eliminando el ruido de "parches" 3D, luego se transforma al espacio estándar mediante un descompresor de video. Se utiliza la re-subtitulación para aumentar los datos de entrenamiento , mediante el uso de un modelo de video a texto para crear subtítulos detallados en los videos. [6]
OpenAI entrenó el modelo usando videos disponibles públicamente, así como videos con derechos de autor autorizados para ese propósito, pero no reveló el número ni la fuente exacta de los videos. [4] Tras su lanzamiento, OpenAI reconoció algunas de las deficiencias de Sora, incluida su lucha por simular la física compleja, comprender la causalidad y diferenciar la izquierda de la derecha. [9] Un ejemplo muestra a un grupo de cachorros de lobo aparentemente multiplicándose y convergiendo, creando un escenario difícil de seguir. [10] OpenAI también declaró que, en cumplimiento de las prácticas de seguridad existentes de la empresa, Sora restringirá las indicaciones de texto para imágenes sexuales, violentas, de odio o de celebridades, así como el contenido que presente propiedad intelectual preexistente . [3]
Tim Brooks, un investigador de Sora, afirmó que el modelo descubrió cómo crear gráficos 3D solo a partir de su conjunto de datos, mientras que Bill Peebles, también investigador de Sora, dijo que el modelo creó automáticamente diferentes ángulos de video sin que se le pidiera. [2] Según OpenAI, los videos generados por Sora están etiquetados con metadatos C2PA para indicar que fueron generados por IA. [4]
Will Douglas Heaven, del MIT Technology Review, calificó los videos de demostración como "impresionantes", pero señaló que deben haber sido seleccionados cuidadosamente y pueden no ser representativos de la producción típica de Sora. [7] El académico estadounidense Oren Etzioni expresó su preocupación por la capacidad de la tecnología para crear desinformación en línea para campañas políticas. [4] Para Wired , Steven Levy escribió de manera similar que tenía el potencial de convertirse en "un desastre de desinformación" y opinó que sus clips de vista previa eran "impresionantes" pero "no perfectos" y que "mostraban una comprensión emergente de la gramática cinematográfica" debido a sus cambios de tomas espontáneos. Levy agregó: "[p]ara mucho tiempo, si es que alguna vez, antes de que el texto a video amenace la realización cinematográfica real". [2] Lisa Lacy de CNET calificó sus videos de ejemplo como "notablemente realistas, excepto quizás cuando aparece un rostro humano de cerca o cuando las criaturas marinas están nadando". [3]
El cineasta Tyler Perry anunció que suspendería una expansión planificada de 800 millones de dólares de su estudio en Atlanta , expresando su preocupación por el posible impacto de Sora en la industria cinematográfica. [11] [12]