La televisión de punto de vista libre ( FTV ) es un sistema para ver videos naturales que permite al usuario controlar de forma interactiva el punto de vista y generar nuevas vistas de una escena dinámica desde cualquier posición 3D. [1] El sistema equivalente para videos simulados por computadora se conoce como realidad virtual . Con FTV, el foco de atención puede ser controlado por los espectadores en lugar de un director, lo que significa que cada espectador puede estar observando un punto de vista único. Queda por ver cómo afectará FTV a la observación de televisión como una actividad grupal.
Los sistemas para reproducir vistas arbitrarias de escenas naturales son bien conocidos en la comunidad de visión por computadora desde hace mucho tiempo, pero recién en los últimos años [ ¿cuándo? ] la velocidad y la calidad han alcanzado niveles adecuados para ser considerados seriamente como un sistema para el usuario final. [ cita requerida ]
El profesor Masayuki Tanimoto de la Universidad de Nagoya (Japón) ha hecho mucho para promover el uso del término "televisión de punto de vista libre" y ha publicado muchos artículos sobre la representación del espacio de rayos, [ cita requerida ] [ aclaración necesaria ] aunque se pueden usar y se usan otras técnicas para FTV.
QuickTime VR podría considerarse un predecesor de FTV. [ cita requerida ]
Para obtener las vistas necesarias que permitan una representación de alta calidad de la escena desde cualquier ángulo, se colocan varias cámaras alrededor de la escena, ya sea en un entorno de estudio o en un lugar al aire libre, como un estadio deportivo, por ejemplo. El vídeo de múltiples vistas (MVV) de salida debe empaquetarse de forma adecuada para que los datos se puedan comprimir y también para que el dispositivo de visualización del usuario pueda acceder fácilmente a las vistas pertinentes para interpolar nuevas vistas. [ cita requerida ]
No basta con colocar cámaras alrededor de la escena que se va a capturar. La geometría de la configuración de la cámara debe medirse mediante un proceso conocido en visión artificial como "calibración de la cámara". [ cita requerida ] La alineación manual sería demasiado engorrosa, por lo que normalmente se realiza una alineación de "máximo esfuerzo" antes de capturar un patrón de prueba que se utiliza para generar parámetros de calibración.
Se pueden capturar vistas de televisión de puntos de vista libres restringidos para entornos grandes desde un sistema de cámara de ubicación única montado en una plataforma móvil. [ cita requerida ] También se deben capturar datos de profundidad, lo que es necesario para generar el punto de vista libre. El sistema de captura de Google Street View es un ejemplo con funcionalidad limitada. La primera implementación comercial completa, iFlex , fue entregada en 2009 por Real Time Race . [2]
La captura de video multivista varía desde una cobertura parcial (generalmente de unos 30 grados) hasta una cobertura completa (360 grados) de la escena. Por lo tanto, es posible obtener vistas estereoscópicas adecuadas para su visualización con una pantalla 3D u otros métodos 3D. Los sistemas con más cámaras físicas pueden capturar imágenes con una mayor cobertura de la escena visible; sin embargo, es probable que ciertas regiones siempre queden ocluidas desde cualquier punto de vista. Una mayor cantidad de cámaras debería permitir obtener una salida de alta calidad porque se necesita menos interpolación.
Más cámaras significan que se requiere una codificación eficiente del video multivista. Esto puede no ser una desventaja tan grande ya que existen representaciones que pueden eliminar la redundancia en MVV; como la codificación de entrevistas usando MPEG-4 o codificación de video multivista , la representación del espacio de rayos, videos de geometría, [3] [ aclaración necesaria ], etc.
En términos de hardware, el usuario requiere un dispositivo de visualización que pueda decodificar MVV y sintetizar nuevos puntos de vista, y una pantalla 2D o 3D.
El Moving Picture Experts Group (MPEG) normalizó el Anexo H de MPEG-4 AVC en marzo de 2009, denominado Multiview Video Coding, tras el trabajo de un grupo denominado '3DAV' (3D Audio and Visual) dirigido por Aljoscha Smolic [4] en el Instituto Heinrich-Hertz .