Sora (modelo de texto a vídeo)

Sora es un modelo de inteligencia artificial generativa en ascenso desarrollado por OpenAI , que se especializa en la generación de texto a video . El modelo genera videoclips cortos que corresponden a las indicaciones de los usuarios. Sora también puede extender videos cortos existentes. A partir de octubre de 2024, no se lanzó y aún no está disponible para el público. ^[1]

Historia

Se habían creado varios otros modelos de generación de texto a video antes de Sora, incluidos Make-A-Video de Meta , Gen-2 de Runway y Lumiere de Google , el último de los cuales, a febrero de 2024, ^[actualizar]también se encuentra todavía en su fase de investigación. ^[2] OpenAI , la compañía detrás de Sora, había lanzado DALL·E 3 , el tercero de sus modelos de texto a imagen DALL-E , en septiembre de 2023. ^[3]

El equipo que desarrolló Sora lo nombró así por la palabra japonesa para cielo para significar su "potencial creativo ilimitado". ^[4] El 15 de febrero de 2024, OpenAI presentó por primera vez Sora al publicar varios clips de videos de alta definición que creó, incluido un SUV conduciendo por una carretera de montaña, una animación de un "monstruo pequeño y esponjoso" junto a una vela, dos personas caminando por Tokio en la nieve y metraje histórico falso de la fiebre del oro de California , y afirmó que podía generar videos de hasta un minuto de duración. ^[2] Luego, la compañía compartió un informe técnico, que destacó los métodos utilizados para entrenar el modelo. ^[5]^[6] El director ejecutivo de OpenAI, Sam Altman , también publicó una serie de tuits, respondiendo a las indicaciones de los usuarios de Twitter con videos generados por Sora de las indicaciones.

OpenAI ha declarado que planea poner Sora a disposición del público, pero que no sería pronto; no ha especificado cuándo. ^[2]^[1] La empresa proporcionó acceso limitado a un pequeño " equipo rojo ", que incluía expertos en desinformación y sesgo, para realizar pruebas adversas en el modelo. ^[3] La empresa también compartió Sora con un pequeño grupo de profesionales creativos, incluidos realizadores de videos y artistas, para buscar comentarios sobre su utilidad en campos creativos. ^[7]

Capacidades y limitaciones

Un video generado por Sora de alguien acostado en una cama con un gato encima, que contiene varios errores.

La tecnología detrás de Sora es una adaptación de la tecnología detrás de DALL-E 3. Según OpenAI, Sora es un transformador de difusión ^[8] , un modelo de difusión latente de eliminación de ruido con un transformador como eliminador de ruido. Se genera un video en el espacio latente eliminando el ruido de "parches" 3D, luego se transforma al espacio estándar mediante un descompresor de video. Se utiliza la re-subtitulación para aumentar los datos de entrenamiento , mediante el uso de un modelo de video a texto para crear subtítulos detallados en los videos. ^[6]

OpenAI entrenó el modelo usando videos disponibles públicamente, así como videos con derechos de autor autorizados para ese propósito, pero no reveló el número ni la fuente exacta de los videos. ^[4] Tras su lanzamiento, OpenAI reconoció algunas de las deficiencias de Sora, incluida su lucha por simular la física compleja, comprender la causalidad y diferenciar la izquierda de la derecha. ^[9] Un ejemplo muestra a un grupo de cachorros de lobo aparentemente multiplicándose y convergiendo, creando un escenario difícil de seguir. ^{[10] OpenAI también declaró que, en cumplimiento de las prácticas de seguridad existentes de la empresa, Sora restringirá las indicaciones de texto para imágenes sexuales, violentas, de odio o de celebridades, así como el contenido que presente}propiedad intelectual preexistente . ^[3]

Tim Brooks, un investigador de Sora, afirmó que el modelo descubrió cómo crear gráficos 3D solo a partir de su conjunto de datos, mientras que Bill Peebles, también investigador de Sora, dijo que el modelo creó automáticamente diferentes ángulos de video sin que se le pidiera. ^[2] Según OpenAI, los videos generados por Sora están etiquetados con metadatos C2PA para indicar que fueron generados por IA. ^[4]

Recepción

Will Douglas Heaven, del MIT Technology Review, calificó los videos de demostración como "impresionantes", pero señaló que deben haber sido seleccionados cuidadosamente y pueden no ser representativos de la producción típica de Sora. ^[7] El académico estadounidense Oren Etzioni expresó su preocupación por la capacidad de la tecnología para crear desinformación en línea para campañas políticas. ^[4] Para Wired , Steven Levy escribió de manera similar que tenía el potencial de convertirse en "un desastre de desinformación" y opinó que sus clips de vista previa eran "impresionantes" pero "no perfectos" y que "mostraban una comprensión emergente de la gramática cinematográfica" debido a sus cambios de tomas espontáneos. Levy agregó: "[p]ara mucho tiempo, si es que alguna vez, antes de que el texto a video amenace la realización cinematográfica real". ^[2] Lisa Lacy de CNET calificó sus videos de ejemplo como "notablemente realistas, excepto quizás cuando aparece un rostro humano de cerca o cuando las criaturas marinas están nadando". ^[3]

El cineasta Tyler Perry anunció que suspendería una expansión planificada de 800 millones de dólares de su estudio en Atlanta , expresando su preocupación por el posible impacto de Sora en la industria cinematográfica. ^[11]^[12]

Véase también

Dream Machine (modelo de texto a vídeo)

Referencias

^ ab Yang, Angela (15 de febrero de 2024). «OpenAI adelanta 'Sora', su nuevo modelo de IA de texto a video». NBC News . Archivado desde el original el 15 de febrero de 2024. Consultado el 16 de febrero de 2024 .
^ abcde Levy, Steven (15 de febrero de 2024). «Sora de OpenAI convierte los mensajes de IA en vídeos fotorrealistas». Wired . Archivado desde el original el 15 de febrero de 2024. Consultado el 16 de febrero de 2024 .
^ abcd Lacy, Lisa (15 de febrero de 2024). «Conoce a Sora, el generador de texto a video de OpenAI». CNET . Archivado desde el original el 16 de febrero de 2024 . Consultado el 16 de febrero de 2024 .
^ abcd Metz, Cade (15 de febrero de 2024). «OpenAI presenta una IA que genera instantáneamente vídeos que dejan atónitos a los usuarios». The New York Times . Archivado desde el original el 15 de febrero de 2024. Consultado el 15 de febrero de 2024 .
^ Brooks, Tim; Peebles, Bill; Holmes, Connor; DePue, Will; Guo, Yufei; Jing, Li; Schnurr, David; Taylor, Joe; Luhman, Troy; Luhman, Eric; Ng, Clarence Wing Yin; Wang, Ricky; Ramesh, Aditya (15 de febrero de 2024). «Modelos de generación de vídeo como simuladores del mundo». OpenAI . Archivado desde el original el 16 de febrero de 2024. Consultado el 16 de febrero de 2024 .
^ ab Edwards, Benj (16 de febrero de 2024). «OpenAI colapsa la realidad de los medios con Sora, un generador de vídeo de IA fotorrealista». Ars Technica . Archivado desde el original el 17 de febrero de 2024. Consultado el 17 de febrero de 2024 .
^ ab Heaven, Will Douglas (15 de febrero de 2024). «OpenAI presenta un nuevo y sorprendente modelo de video generativo llamado Sora». MIT Technology Review . Archivado desde el original el 15 de febrero de 2024. Consultado el 15 de febrero de 2024 .
^ Peebles, William; Xie, Saining (2023). "Modelos de difusión escalables con transformadores". Conferencia internacional sobre visión artificial (ICCV) IEEE/CVF de 2023. págs. 4172–4182. arXiv : 2212.09748 . doi :10.1109/ICCV51070.2023.00387. ISBN 979-8-3503-0718-4. ISSN 2380-7504. S2CID 254854389. Archivado desde el original el 17 de febrero de 2024 . Consultado el 17 de febrero de 2024 .
^ Pequeño IV, Antonio (15 de febrero de 2024). «OpenAI revela 'Sora': un modelo de vídeo con IA capaz de ofrecer indicaciones realistas de texto a vídeo». Forbes . Archivado desde el original el 15 de febrero de 2024 . Consultado el 15 de febrero de 2024 .
^ "Vídeo generado por Sora de lobos jugando con algunos problemas de vídeo". ABC News Australia . Consultado el 16 de mayo de 2024 .
^ Kilkenny, Katie (23 de febrero de 2024). «Tyler Perry suspende la ampliación de su estudio valorada en 800 millones de dólares tras ver a Sora de OpenAI: "Se van a perder puestos de trabajo"». The Hollywood Reporter . Archivado desde el original el 26 de febrero de 2024. Consultado el 26 de febrero de 2024 .
^ Edwards, Benj (23 de febrero de 2024). «Tyler Perry suspende la ampliación de su estudio de 800 millones de dólares debido a Sora de OpenAI». Ars Technica . Archivado desde el original el 26 de febrero de 2024 . Consultado el 26 de febrero de 2024 .

Enlaces externos

Wikimedia Commons alberga una categoría multimedia sobre Sora .

Sitio web oficial