Televisión con punto de vista gratuito

La televisión de punto de vista libre ( FTV ) es un sistema para ver videos naturales que permite al usuario controlar de forma interactiva el punto de vista y generar nuevas vistas de una escena dinámica desde cualquier posición 3D. ^[1] El sistema equivalente para videos simulados por computadora se conoce como realidad virtual . Con FTV, el foco de atención puede ser controlado por los espectadores en lugar de un director, lo que significa que cada espectador puede estar observando un punto de vista único. Queda por ver cómo afectará FTV a la observación de televisión como una actividad grupal.

Historia

Los sistemas para reproducir vistas arbitrarias de escenas naturales son bien conocidos en la comunidad de visión por computadora desde hace mucho tiempo, pero recién en los últimos años ^{[ ¿cuándo? ]} la velocidad y la calidad han alcanzado niveles adecuados para ser considerados seriamente como un sistema para el usuario final. ^{[ cita requerida ]}

El profesor Masayuki Tanimoto de la Universidad de Nagoya (Japón) ha hecho mucho para promover el uso del término "televisión de punto de vista libre" y ha publicado muchos artículos sobre la representación del espacio de rayos, ^{[ cita requerida ]}^{[ aclaración necesaria ]} aunque se pueden usar y se usan otras técnicas para FTV.

QuickTime VR podría considerarse un predecesor de FTV. ^{[ cita requerida ]}

Capturar y visualizar

Para obtener las vistas necesarias que permitan una representación de alta calidad de la escena desde cualquier ángulo, se colocan varias cámaras alrededor de la escena, ya sea en un entorno de estudio o en un lugar al aire libre, como un estadio deportivo, por ejemplo. El vídeo de múltiples vistas (MVV) de salida debe empaquetarse de forma adecuada para que los datos se puedan comprimir y también para que el dispositivo de visualización del usuario pueda acceder fácilmente a las vistas pertinentes para interpolar nuevas vistas. ^{[ cita requerida ]}

No basta con colocar cámaras alrededor de la escena que se va a capturar. La geometría de la configuración de la cámara debe medirse mediante un proceso conocido en visión artificial como "calibración de la cámara". ^{[ cita requerida ]} La alineación manual sería demasiado engorrosa, por lo que normalmente se realiza una alineación de "máximo esfuerzo" antes de capturar un patrón de prueba que se utiliza para generar parámetros de calibración.

Se pueden capturar vistas de televisión de puntos de vista libres restringidos para entornos grandes desde un sistema de cámara de ubicación única montado en una plataforma móvil. ^{[ cita requerida ]} También se deben capturar datos de profundidad, lo que es necesario para generar el punto de vista libre. El sistema de captura de Google Street View es un ejemplo con funcionalidad limitada. La primera implementación comercial completa, iFlex , fue entregada en 2009 por Real Time Race . ^[2]

La captura de video multivista varía desde una cobertura parcial (generalmente de unos 30 grados) hasta una cobertura completa (360 grados) de la escena. Por lo tanto, es posible obtener vistas estereoscópicas adecuadas para su visualización con una pantalla 3D u otros métodos 3D. Los sistemas con más cámaras físicas pueden capturar imágenes con una mayor cobertura de la escena visible; sin embargo, es probable que ciertas regiones siempre queden ocluidas desde cualquier punto de vista. Una mayor cantidad de cámaras debería permitir obtener una salida de alta calidad porque se necesita menos interpolación.

Más cámaras significan que se requiere una codificación eficiente del video multivista. Esto puede no ser una desventaja tan grande ya que existen representaciones que pueden eliminar la redundancia en MVV; como la codificación de entrevistas usando MPEG-4 o codificación de video multivista , la representación del espacio de rayos, videos de geometría, ^[3]^{[ aclaración necesaria ],} etc.

En términos de hardware, el usuario requiere un dispositivo de visualización que pueda decodificar MVV y sintetizar nuevos puntos de vista, y una pantalla 2D o 3D.

Normalización

El Moving Picture Experts Group (MPEG) normalizó el Anexo H de MPEG-4 AVC en marzo de 2009, denominado Multiview Video Coding, tras el trabajo de un grupo denominado '3DAV' (3D Audio and Visual) dirigido por Aljoscha Smolic ^[4] en el Instituto Heinrich-Hertz .

Véase también

Referencias

^ Tanimoto, Masayuki. "FTV (televisión de punto de vista libre)." APSIPA Transactions on Signal and Information Processing 1 (2012).
^ "Carreras en tiempo real | Noticias de automoción". Diseno-art.com. 2009-11-02. Archivado desde el original el 2011-04-17 . Consultado el 2010-09-13 .
^ "Vídeos de geometría: una nueva representación para animaciones 3D" . Consultado el 8 de diciembre de 2016 .
^ "La casa de Joschi (Aljoscha Smolic)". Iphome.hhi.de. Archivado desde el original el 26 de noviembre de 2009. Consultado el 13 de septiembre de 2010 .

Bibliografía

Carranza, Joel; Theobalt, Christian; Magnor, Marcus A.; Seidel, Hans-Peter (julio de 2003). "Vídeo de actores humanos desde un punto de vista libre" (PDF) . ACM Transactions on Graphics . 22 (3). ACM : 569–577. doi :10.1145/882262.882309.

Enlaces externos

Canon anunció el desarrollo de un sistema de televisión Free Viewpoint el 21 de septiembre de 2017, que se exhibirá en Inter BEE 2017.
iview es un proyecto DTI británico entre BBC , Snell & Wilcox y la Universidad de Surrey para desarrollar un sistema FTV.
Eye Vision es un sistema desarrollado por el profesor Takeo Kanade en la CMU para la cobertura de la Super Bowl XXXV por parte de la CBS . El usuario no puede cambiar el punto de vista, pero el operador de cámara puede elegir cualquier punto de vista virtual sintetizando imágenes de un sistema de visión activa .
Replay Technologies creó la primera reconstrucción 3D en vivo durante los Juegos Olímpicos de Londres 2012; su sitio web ahora parece apuntar a Intel freeD 360 Replay