Modelo de texto a vídeo

Un video generado utilizando el modelo de texto a video Sora de código abierto inédito de OpenAI , utilizando el mensaje:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Un modelo de texto a video es un modelo de aprendizaje automático que utiliza una descripción en lenguaje natural como entrada para producir un video relevante para el texto de entrada. ^[1] Los avances durante la década de 2020 en la generación de videos de alta calidad y condicionados por texto han sido impulsados en gran medida por el desarrollo de modelos de difusión de video . ^[2]

Modelos

Existen diferentes modelos, incluidos modelos de código abierto . Entrada en idioma chino ^[3] CogVideo es el primer modelo de texto a video "de 9.4 mil millones de parámetros" que se ha desarrollado, con su versión demo de códigos de fuente abierta presentada por primera vez en GitHub en 2022. ^[4] Ese año, Meta Platforms lanzó un modelo parcial de texto a video llamado "Make-A-Video", ^[5]^[6]^[7] y Google 's Brain (más tarde Google DeepMind ) presentó Imagen Video, un modelo de texto a video con 3D U-Net . ^[8]^[9]^[10]^[11]^[12]

En marzo de 2023, se publicó un artículo de investigación titulado "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad", que presenta un enfoque novedoso para la generación de videos. ^[13] El modelo VideoFusion descompone el proceso de difusión en dos componentes: ruido base y ruido residual, que se comparten entre fotogramas para garantizar la coherencia temporal. Al utilizar un modelo de difusión de imágenes entrenado previamente como generador base, el modelo generó de manera eficiente videos coherentes y de alta calidad. El ajuste fino del modelo entrenado previamente en datos de video abordó la brecha de dominio entre los datos de imagen y video, lo que mejoró la capacidad del modelo para producir secuencias de video realistas y consistentes. ^[14]

Matthias Niessner y Lourdes Agapito , de la empresa de inteligencia artificial Synthesia, trabajan en el desarrollo de técnicas de renderizado neuronal 3D que pueden sintetizar vídeos realistas mediante el uso de representaciones neuronales 2D y 3D de formas, apariencias y movimiento para la síntesis de vídeo controlable de avatares. ^[15] En junio de 2024, Luma Labs lanzó su herramienta de vídeo Dream Machine . ^[16]^[17] Ese mismo mes, ^[18] Kuaishou amplió su modelo de texto a vídeo Kling AI a usuarios internacionales. En julio de 2024, el propietario de TikTok , ByteDance, lanzó Jimeng AI en China, a través de su filial, Faceu Technology. ^[19]

Los enfoques alternativos a los modelos de texto a video incluyen ^[20] Phenaki, Hour One, Colossyan de Google , ^[21] Gen-3 Alpha de Runway , ^[22]^{[23] y}Sora de OpenAI (a agosto de 2024) , ^[24] disponible solo para probadores alfa. ^[25]

Comparación de modelos existentes

Véase también

Modelo de texto a imagen
VideoPoet , el modelo inédito de Google, precursor de Lumière
Falsificación profunda
Síntesis de imágenes humanas
ChatGPT

Referencias

^ Informe del índice de inteligencia artificial 2023 (PDF) (Informe). Instituto Stanford de Inteligencia Artificial Centrada en el Ser Humano. p. 98. En 2022 se lanzaron varios modelos de texto a video de alta calidad, sistemas de IA que pueden generar videoclips a partir de texto solicitado.
^ Melnik, Andrew; Ljubljanac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge (6 de mayo de 2024). "Modelos de difusión de vídeo: un estudio". arXiv : 2405.03150 [cs.CV].
^ Modelos de IA generativos de texto a video: la lista definitiva AI Business consultado el 19 de agosto de 2024.
^ CogVideo, THUDM, 12 de octubre de 2022 , consultado el 12 de octubre de 2022
^ Davies, Teli (29 de septiembre de 2022). "Make-A-Video: el nuevo modelo de Meta AI para la generación de texto a video". Pesos y sesgos . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .
^ "La inteligencia artificial Make-A-Video de Meta crea videos a partir de texto". www.fonearena.com . Consultado el 12 de octubre de 2022 .
^ "google: Google se enfrenta a Meta y presenta su propia IA generadora de videos". The Economic Times . 6 de octubre de 2022 . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear un vídeo a partir de un mensaje de texto". Medium . Consultado el 12 de octubre de 2022 .
^ "No, Meta, también podemos hacer inteligencia artificial de texto a video, dice Google". www.theregister.com . Consultado el 12 de octubre de 2022 .
^ "Documentos con código: ver, planificar, predecir: planificación cognitiva guiada por el lenguaje con predicción por video". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ "Documentos con código: predicción de video basada en texto". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). "VideoFusion: modelos de difusión descompuestos para generación de vídeo de alta calidad". arXiv : 2303.08320 [cs.CV].
^ "VideoFusion: modelos de difusión descompuestos para la generación de videos de alta calidad". ar5iv . Consultado el 30 de agosto de 2024 .
^ "Texto a voz para vídeos" . Consultado el 17 de octubre de 2023 .
^ Luma AI presenta 'Dream Machine' para la generación de videos realistas, lo que calienta la carrera mediática de IA VentureBeat consultado el 16 de agosto de 2024.
^ Apple estrena inteligencia, Mistral recauda 600 millones de dólares y nueva inteligencia artificial de texto a video Forbes consultado el 16 de agosto de 2024.
^ Lo que necesitas saber sobre Kling, el generador de videos de IA rival de Sora que está sorprendiendo a los creadores VentureBeat consultado el 16 de agosto de 2024.
^ ByteDance se une a los rivales de Sora de OpenAI con el lanzamiento de una aplicación de video con inteligencia artificial Reuters consultado el 16 de agosto de 2024.
^ Text2Video-Zero, Picsart AI Research (PAIR), 12 de agosto de 2023 , consultado el 12 de agosto de 2023
^ Modelos de IA generativos de texto a video: la lista definitiva AI Business consultado el 16 de agosto de 2024.
^ El competidor de Sora de Runway, Gen-3 Alpha, ya está disponible The Decoder accedido el 16 de agosto de 2024.
^ La próxima frontera de la IA generativa es el vídeo Bloomberg, consultado el 16 de agosto de 2024.
^ OpenAI adelanta 'Sora', su nuevo modelo de inteligencia artificial de texto a video NBC News, consultado el 16 de agosto de 2024.
^ Toys R Us crea la primera película de marca que utiliza la herramienta de texto a video de OpenAI Marketing Dive consultado el 16 de agosto de 2024.
^ abcdef "Los mejores modelos de generación de video con IA de 2024". Deepgram . Consultado el 30 de agosto de 2024 .
^ ab "Runway Research | Gen-2: Genera nuevos vídeos con texto, imágenes o videoclips". runwayml.com . Consultado el 30 de agosto de 2024 .
^ ab Sharma, Shubham (26 de diciembre de 2023). "La plataforma de inteligencia artificial de texto a video de Pika Labs está abierta a todos: aquí se explica cómo usarla". VentureBeat . Consultado el 30 de agosto de 2024 .
^ ab "Runway Research | Presentamos Gen-3 Alpha: una nueva frontera para la generación de video". runwayml.com . Consultado el 30 de agosto de 2024 .
^ ab "Sora | OpenAI". openai.com . Consultado el 30 de agosto de 2024 .