La sincronización de audio y vídeo ( sincronización AV , también conocida como sincronización de labios o, en su defecto, error de sincronización de labios o aleteo de labios ) se refiere a la sincronización relativa de las partes de audio (sonido) y vídeo (imagen) durante la creación, la posproducción (mezcla), la transmisión , la recepción y el procesamiento de reproducción. La sincronización AV puede ser un problema en televisión , videoconferencia o cine .
En la terminología de la industria, el error de sincronización de labios se expresa como la cantidad de tiempo que el audio se aleja de la sincronización perfecta con el video, donde un número de tiempo positivo indica que el audio adelanta el video y un número negativo indica que el audio se retrasa con respecto al video. [1] Esta terminología y estandarización del error numérico de sincronización de labios se utiliza en la industria de la transmisión profesional como lo evidencian los diversos documentos profesionales, [2] estándares como ITU-R BT.1359-1 y otras referencias a continuación.
Los archivos de vídeo o transmisiones de audio y vídeo digitales o analógicos suelen contener algún tipo de mecanismo de sincronización, ya sea en forma de datos de audio y vídeo intercalados o mediante una marca de tiempo relativa explícita de los datos.
Hay diferentes formas en las que la sincronización AV puede sincronizarse incorrectamente.
Durante la creación, los errores de sincronización AV ocurren debido a un error de sincronización AV interno debido a diferentes retrasos en el procesamiento de señales entre la imagen y el sonido en la cámara de video y el micrófono . El retraso de sincronización AV normalmente es fijo. Pueden ocurrir errores de sincronización AV externos si un micrófono se coloca lejos de la fuente de sonido, el audio estará desincronizado porque la velocidad del sonido es mucho menor que la velocidad de la luz . Si la fuente de sonido está a 340 metros del micrófono, entonces el sonido llega aproximadamente 1 segundo más tarde que la luz. El retraso de sincronización AV aumenta con la distancia. Durante la mezcla de videoclips, normalmente, el audio o el video deben retrasarse para que estén sincronizados. El retraso de sincronización AV es estático, pero puede variar con el clip individual. Los efectos de edición de video pueden retrasar el video y hacer que se desfase con el audio.
Transmisión ( emisión ), recepción y reproducción que pueden introducir errores de sincronización AV. Una cámara de vídeo con micrófonos incorporados o entrada de línea puede no retrasar las rutas de sonido y vídeo en la misma cantidad. Las cámaras de vídeo de estado sólido (por ejemplo, dispositivos acoplados por carga (CCD) y sensores de imagen CMOS ) pueden retrasar la señal de vídeo en uno o más fotogramas. Los circuitos de procesamiento de señales de audio y vídeo existen con retrasos significativos (y potencialmente no constantes) en los sistemas de televisión. Los circuitos de procesamiento de señales de vídeo particulares que se utilizan ampliamente y contribuyen a retrasos de vídeo significativos incluyen sincronizadores de fotogramas, procesadores de efectos de vídeo digitales, reducción de ruido de vídeo, convertidores de formato y sistemas de compresión .
Los circuitos de procesamiento de conversión de formato y procesamiento de desentrelazado en monitores de video pueden agregar uno o más cuadros de retraso de video. Un monitor de video con parlantes incorporados o salida de línea puede no retrasar las rutas de sonido y video de la misma manera. Algunos monitores de video contienen retrasos de audio internos ajustables por el usuario para ayudar a corregir errores.
Algunos protocolos de transmisión como RTP requieren un método fuera de banda para sincronizar los flujos de medios. En algunos sistemas RTP, cada flujo de medios tiene su propia marca de tiempo que utiliza una frecuencia de reloj independiente y un valor de inicio aleatorio por flujo. Es posible que se necesite un Informe de remitente (SR) RTCP para cada flujo a fin de sincronizar los flujos. [3]
Cuando una transmisión de un sistema AV digital o analógico no tiene un método o mecanismo de sincronización, la transmisión puede desincronizarse. En las películas, estos errores de sincronización suelen deberse a películas desgastadas que se saltan las ruedas dentadas del proyector de películas porque la película tiene agujeros rotos en las ruedas dentadas. Los errores también pueden deberse a que el proyeccionista enhebra mal la película en el proyector.
Los errores de sincronización se han convertido en un problema importante en la industria de la televisión digital debido al uso de grandes cantidades de procesamiento de señales de vídeo en la producción de televisión, la transmisión de televisión y las pantallas de televisión pixeladas , como las pantallas LCD , DLP y de plasma . Las pantallas pixeladas utilizan un procesamiento complejo de señales de vídeo para convertir la resolución de la señal de vídeo entrante a la resolución nativa de la pantalla pixelada, por ejemplo, convirtiendo el vídeo de definición estándar para que se muestre en una pantalla de alta definición. Los problemas de sincronización se producen comúnmente cuando se realizan cantidades significativas de procesamiento de vídeo en la parte de vídeo del programa de televisión. Las fuentes típicas de retrasos de vídeo significativos en el campo de la televisión incluyen sincronizadores de vídeo y codificadores y decodificadores de compresión de vídeo. Se utilizan codificadores y decodificadores particularmente problemáticos en los sistemas de compresión MPEG utilizados para la transmisión de televisión digital y el almacenamiento de programas de televisión en dispositivos de grabación y reproducción de consumo y profesionales.
En la televisión abierta, no es inusual que el error de sincronización de labios varíe en más de 100 ms (varios fotogramas de vídeo) de vez en cuando. La sincronización AV se corrige y se mantiene habitualmente con un sincronizador de audio . Las organizaciones de normalización de la industria de la televisión han establecido cantidades aceptables de error de sincronización de audio y vídeo y han sugerido prácticas relacionadas con el mantenimiento de una sincronización aceptable. [4] [1] La Recomendación R37 de la UER "La sincronización relativa de los componentes de sonido e imagen de una señal de televisión" establece que la sincronización de audio/vídeo de extremo a extremo debe estar dentro de +40 ms y -60 ms (audio antes/después del vídeo, respectivamente) y que cada etapa debe estar dentro de +5 ms y -15 ms. [5]
El resultado suele ser que los movimientos de la boca de un personaje filmado o televisado no coinciden con el diálogo hablado, de ahí el término error de sincronización de labios o de sincronización de labios . El error de sincronización de audio y vídeo resultante puede resultar molesto para el espectador e incluso puede hacer que no disfrute del programa, que disminuya la eficacia del programa o que genere una percepción negativa del orador por parte del espectador. [6] La posible pérdida de eficacia es motivo de especial preocupación en el caso de los anuncios de productos y los candidatos políticos. Las organizaciones de normalización de la industria televisiva, como el Comité de Sistemas de Televisión Avanzada , se han involucrado en el establecimiento de normas para los errores de sincronización de audio y vídeo. [4]
Debido a estas molestias, el error de sincronización AV es una preocupación para la industria de la programación de televisión, incluidas las estaciones de televisión, las redes, los anunciantes y las compañías de producción de programas. Desafortunadamente, la llegada de las tecnologías de pantalla plana de alta definición (LCD, DLP y plasma), que pueden retrasar el video más que el audio, ha trasladado el problema al hogar del espectador y más allá del control de la industria de la programación de televisión por sí sola. Las compañías de productos de consumo ahora ofrecen ajustes de retardo de audio para compensar los cambios de retardo de video en televisores, barras de sonido y receptores A/V, [7] y varias compañías fabrican retardos de audio digitales dedicados hechos exclusivamente para la corrección de errores de sincronización de labios.
Para aplicaciones de televisión, el Comité de Sistemas Avanzados de Televisión recomienda que el audio no supere al video en más de15 ms y el audio no debe tener un retraso de más de 45 ms con respecto al video. [4] Sin embargo, la UIT realizó pruebas estrictamente controladas con espectadores expertos y descubrió que el umbral de detectabilidad es de 45 ms con un retraso de 125 ms. [1] Para el cine, se considera que una sincronización labial aceptable no debe superar los 22 milisegundos en ninguna dirección. [5] [8]
La Asociación de Electrónica de Consumo ha publicado un conjunto de recomendaciones sobre cómo los receptores de televisión digital deberían implementar la sincronización A/V. [9]
La norma SMPTE ST2064, publicada en 2015, [10] proporciona tecnología para reducir o eliminar los errores de sincronización de labios en la televisión digital. La norma utiliza huellas digitales de audio y vídeo tomadas de un programa de televisión. Las huellas digitales se pueden recuperar y utilizar para corregir el error de sincronización de labios acumulado. Cuando se han generado huellas digitales para un programa de televisión y se incorpora la tecnología necesaria, el televisor del espectador tiene la capacidad de medir y corregir continuamente los errores de sincronización de labios. [11] [12]
Las marcas de tiempo de presentación (PTS) se incorporan en los flujos de transporte MPEG para indicar con precisión cuándo se presentará cada segmento de audio y video y evitar errores de sincronización AV. Sin embargo, estas marcas de tiempo a menudo se agregan después de que el video se somete a sincronización de cuadros, conversión de formato y preprocesamiento, y por lo tanto los errores de sincronización de labios creados por estas operaciones no se corregirán con la adición y el uso de marcas de tiempo. [13] [14] [15] [16]
El Protocolo de Transporte en Tiempo Real sincroniza los medios utilizando marcas de tiempo de origen en una línea de tiempo arbitraria. Un reloj en tiempo real como el proporcionado por el Protocolo de Tiempo de Red o el Protocolo de Tiempo de Precisión y descrito en el Protocolo de Descripción de Sesión [17] asociado con los medios puede utilizarse para sincronizar los medios. A continuación, se puede utilizar un servidor para la sincronización entre múltiples receptores. [18]
Se han establecido límites de sincronización de A/V adecuados y el rango que se considera aceptable para películas es de
+/- 22 ms
. El rango para video, según la ATSC, es de hasta 15 ms de tiempo de anticipación y aproximadamente 45 ms de tiempo de demora