Modelo de texto a vídeo

Un modelo de texto a video es un modelo de aprendizaje automático que toma una descripción en lenguaje natural como entrada y produce uno o varios videos a partir de la entrada. ^[1]

La predicción de video para hacer que los objetos sean realistas en un fondo estable se realiza mediante el uso de una red neuronal recurrente para un modelo de secuencia a secuencia con un conector de red neuronal convolucional que codifica y decodifica cada cuadro píxel por píxel, ^[2] creando video mediante aprendizaje profundo . ^[3] La prueba del conjunto de datos en el modelo generativo condicional para la información existente del texto se puede realizar mediante un codificador automático variacional y una red generativa adversarial (GAN).

Modelos

Existen diferentes modelos, incluidos los modelos de código abierto . La versión de demostración de CogVideo es uno de los primeros modelos de conversión de texto a vídeo "de 9,4 mil millones de parámetros", con sus códigos presentados en GitHub . ^[4] Meta Platforms tiene un modelo parcial de conversión de texto a video ^{[nota 1]} llamado "Make-A-Video". ^[5]^[6]^[7] Brain de Google ha publicado un artículo de investigación que presenta Imagen Video, un modelo de conversión de texto a vídeo con 3D U-Net . ^[8]^[9]^[10]^[11]^[12]

En marzo de 2023, se publicó un artículo de investigación histórico de Alibaba, que aplica muchos de los principios encontrados en los modelos de difusión de imágenes latentes a la generación de videos. ^[13]^[14] Desde entonces, servicios como Kaiber y Reemix han adoptado enfoques similares para la generación de video en sus respectivos productos.

Matthias Niessner y Lourdes Agapito de la empresa de inteligencia artificial Synthesia trabajan en el desarrollo de técnicas de representación neuronal 3D que pueden sintetizar videos realistas mediante el uso de representaciones neuronales 2D y 3D de formas, apariencias y movimientos para una síntesis de video controlable de avatares. ^[15]

Existen enfoques alternativos a los modelos de texto a vídeo. ^[dieciséis]

Ver también

Modelo de texto a imagen
VideoPoet , modelo inédito de Google, precursor de Lumiere
Sora , modelo OpenAI inédito
Runway , la empresa que desarrolla los modelos Gen-1 y Gen-2

Notas a pie de página

^ También puede generar videos a partir de imágenes, inserción de videos entre dos imágenes y variaciones de videos.

Referencias

^ Informe del índice de inteligencia artificial 2023 (PDF) (Reporte). Instituto Stanford para la Inteligencia Artificial Centrada en el Humano. pag. 98. En 2022 se lanzaron múltiples modelos de conversión de texto a video de alta calidad, sistemas de inteligencia artificial que pueden generar videoclips a partir de texto solicitado.
^ "India líder" (PDF) .
^ Narain, Rohit (29 de diciembre de 2021). "Generación de vídeo inteligente a partir de texto mediante redes neuronales profundas" . Consultado el 12 de octubre de 2022 .
^ CogVideo, THUDM, 12 de octubre de 2022 , consultado el 12 de octubre de 2022
^ Davies, Teli (29 de septiembre de 2022). "Make-A-Video: el nuevo modelo de Meta AI para la generación de texto a video". Pesos y sesgos . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear vídeos a partir de mensajes de texto". Medio . Consultado el 12 de octubre de 2022 .
^ "La IA Make-A-Video de Meta crea videos a partir de texto". www.fonearena.com . Consultado el 12 de octubre de 2022 .
^ "google: Google asume Meta e introduce su propia IA generadora de videos". Los tiempos económicos . 6 de octubre de 2022 . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear vídeos a partir de mensajes de texto". Medio . Consultado el 12 de octubre de 2022 .
^ "No, Meta, también podemos hacer IA de texto a video, dice Google". www.theregister.com . Consultado el 12 de octubre de 2022 .
^ "Documentos con código: ver, planificar, predecir: planificación cognitiva guiada por el lenguaje con predicción en vídeo". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ "Papeles con código: predicción de vídeo basada en texto". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ "Inicio - Academia DAMO". damo.alibaba.com . Consultado el 12 de agosto de 2023 .
^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). "VideoFusion: modelos de difusión descompuestos para generación de vídeo de alta calidad". arXiv : 2303.08320 [cs.CV].
^ "Texto a voz para vídeos" . Consultado el 17 de octubre de 2023 .
^ Text2Video-Zero, Picsart AI Research (PAR), 2023-08-12 , consultado el 2023-08-12