Sora (inteligencia artificial)

Sora también puede crear múltiples tomas dentro de un solo vídeo generado que conservan con precisión los personajes y el estilo visual.El modelo comprende no solo lo que el usuario ha pedido en la solicitud, sino también cómo existen esas cosas en el mundo físico, según la empresa.Estos tokens permiten que los LLM manejen diferentes tipos de texto, como código, matemáticas y lenguajes naturales.Los parches visuales permiten que Sora interprete y genere contenido visual de la misma manera que los tokens de texto permiten a los LLM procesar y generar lenguaje.Sora se entrena y luego crea vídeos dentro de este espacio latente reducido.La representación basada en parches le permite a Sora entrenarse en videos e imágenes con diferentes resoluciones, duraciones y proporciones.Esta técnica fue introducida en Dall-e 3, una herramienta que crea imágenes a partir de texto.Esto permite a Sora crear contenido para diferentes dispositivos directamente en sus relaciones de aspecto nativas».
Observa cómo el ‘gato’ en el video tiene tres patas delanteras, y la ‘mano’ se desprende de la ‘persona’