Modelo de texto a vídeo

Un modelo de texto a video es un modelo de aprendizaje automático que toma como entrada una descripción en lenguaje natural y produce un video que coincide con esa descripción. ^[1]

La predicción de video para hacer que los objetos sean realistas en un fondo estable se realiza mediante el uso de una red neuronal recurrente para un modelo de secuencia a secuencia con un conector de red neuronal convolucional que codifica y decodifica cada cuadro píxel por píxel, ^[2] creando video mediante aprendizaje profundo . ^[3]

Metodología

Recopilación de datos y preparación de conjuntos de datos utilizando videos claros de videos cinéticos de acción humana.
Entrenamiento de la red neuronal convolucional para realizar videos.
Extracción de palabras clave de texto mediante programación en lenguaje natural .
Prueba de conjunto de datos en un modelo generativo condicional para información estática y dinámica existente a partir de texto mediante codificador automático variacional y red adversaria generativa .

Modelos

Existen diferentes modelos, incluidos los modelos de código abierto . CogVideo presentó su código en GitHub . ^[4] Meta Platforms utiliza conversión de texto a video con makeavideo.studio. ^[5]^[6]^[7] Google utilizó Imagen Video para convertir texto a video. ^[8]^[9]^[10]^[11]^[12]

Antonia Antonova presentó otro modelo. ^[13]

En marzo de 2023, se publicó un artículo de investigación histórico de Alibaba Research, que aplica muchos de los principios encontrados en los modelos de difusión de imágenes latentes a la generación de videos. ^[14]^[15] Desde entonces, servicios como Kaiber o Reemix han adoptado enfoques similares para la generación de vídeo en sus respectivos productos.

Matthias Niessner (TUM) y Lourdes Agapito (UCL) de la empresa de inteligencia artificial Synthesia trabajan en el desarrollo de técnicas de renderizado neuronal 3D que sintetizan vídeos realistas. El objetivo es mejorar el modelo existente de texto a video mediante representaciones neuronales 2D y 3D de apariencia de forma y movimiento para una síntesis de video controlable de avatares que se ven y suenan como personas reales. ^[dieciséis]

Aunque existen enfoques alternativos, ^[17] los modelos de difusión latente completa se consideran actualmente lo último en difusión de vídeo.

Ver también

Modelo de texto a imagen
VideoPoet , primer modelo de Google precursor de Lumiere
Sora , modelo OpenAI
Runway , la empresa que desarrolla los modelos Gen-1 y Gen-2

Referencias

^ Informe del índice de inteligencia artificial 2023 (PDF) (Reporte). Instituto Stanford para la Inteligencia Artificial Centrada en el Humano. pag. 98. En 2022 se lanzaron múltiples modelos de conversión de texto a video de alta calidad, sistemas de inteligencia artificial que pueden generar videoclips a partir de texto solicitado.
^ "India líder" (PDF) .
^ Narain, Rohit (29 de diciembre de 2021). "Generación de vídeo inteligente a partir de texto mediante redes neuronales profundas" . Consultado el 12 de octubre de 2022 .
^ CogVideo, THUDM, 12 de octubre de 2022 , consultado el 12 de octubre de 2022
^ Davies, Teli (29 de septiembre de 2022). "Make-A-Video: el nuevo modelo de Meta AI para la generación de texto a video". W&B . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear vídeos a partir de mensajes de texto". Medio . Consultado el 12 de octubre de 2022 .
^ "La IA Make-A-Video de Meta crea videos a partir de texto". www.fonearena.com . Consultado el 12 de octubre de 2022 .
^ "google: Google asume Meta e introduce su propia IA generadora de videos - The Economic Times". m.economictimes.com . Consultado el 12 de octubre de 2022 .
^ Monge, Jim Clyde (3 de agosto de 2022). "Esta IA puede crear vídeos a partir de mensajes de texto". Medio . Consultado el 12 de octubre de 2022 .
^ "No, Meta, también podemos hacer IA de texto a video, dice Google". www.theregister.com . Consultado el 12 de octubre de 2022 .
^ "Documentos con código: ver, planificar, predecir: planificación cognitiva guiada por el lenguaje con predicción en vídeo". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ "Papeles con código: predicción de vídeo basada en texto". paperswithcode.com . Consultado el 12 de octubre de 2022 .
^ "Generación de texto a vídeo". Antonia Antónova . Consultado el 12 de octubre de 2022 .
^ "Inicio - Academia DAMO". damo.alibaba.com . Consultado el 12 de agosto de 2023 .
^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu (2023). "VideoFusion: modelos de difusión descompuestos para generación de vídeo de alta calidad". arXiv : 2303.08320 [cs.CV].
^ "Texto a voz para vídeos" . Consultado el 17 de octubre de 2023 .
^ Text2Video-Zero, Picsart AI Research (PAR), 2023-08-12 , consultado el 2023-08-12