Modelo de texto a vídeo

Un modelo de texto a video es un modelo de aprendizaje automático que toma como entrada una descripción en lenguaje natural y produce un video que coincide con esa descripción.

Al procesar la descripción textual, el modelo selecciona imágenes, videos o animaciones relevantes para crear una representación visual coherente con el texto original.

[10]​ Desde entonces, servicios como Kaiber o Reemix han adoptado enfoques similares para la generación de video en sus respectivos productos.

Su enfoque se centra en la síntesis de videos realistas utilizando representaciones neuronales 2D y 3D.

Estas representaciones capturan la apariencia, la forma y el movimiento de los avatares generados.