La conversión de estándares de televisión es el proceso de cambiar una transmisión o grabación de televisión de un sistema de video a otro. La conversión de video entre diferentes números de líneas, velocidades de cuadros y modelos de color en imágenes de video es un problema técnico complejo. Sin embargo, el intercambio internacional de programación de televisión hace que la conversión de estándares sea necesaria para que el video pueda verse en otro país con un estándar diferente. Por lo general, el video se introduce en un convertidor de estándares de video que produce una copia de acuerdo con un estándar de video diferente. Una de las conversiones más comunes es entre los estándares NTSC y PAL . [1]
El primer caso conocido de conversión de sistemas de televisión se produjo en Europa unos años después de la Segunda Guerra Mundial , principalmente con la RTF (Francia) y la BBC (Reino Unido) que intentaban intercambiar su programación en blanco y negro de 441 y 405 líneas . El problema empeoró con la introducción de los estándares de color PAL , SECAM (ambos de 625 líneas) y el servicio francés en blanco y negro de 819 líneas . Hasta la década de 1980, la conversión de estándares era tan difícil que la película de 16 mm o 35 mm de 24 fotogramas por segundo era el medio preferido para el intercambio de programación. [ cita requerida ]
Quizás la conversión técnicamente más difícil de realizar es la conversión de PAL y SÉCAM a NTSC.
El estándar NTSC es incompatible tanto temporal como espacialmente con PAL y SÉCAM. Además de que el número de líneas es diferente, la conversión a un formato que requiere 60 campos por segundo desde un formato que solo tiene 50 campos plantea dificultades. Cada segundo, se deben generar 10 campos adicionales: el conversor tiene que crear nuevos fotogramas (a partir de la entrada existente) en tiempo real.
La conversión entre PAL y SÉCAM no requiere cambios de tiempo similares, pero aún requiere codificación de color y conversión de sonido.
La televisión contiene muchas señales ocultas. Un tipo de señal que no se transfiere, excepto en algunos convertidores muy costosos, es la señal de subtítulos . Las señales de teletexto no necesitan transferirse, pero el flujo de datos de subtítulos sí debe hacerlo si es tecnológicamente posible hacerlo.
En el caso de las transmisiones de HDTV, esto no es tan problemático, ya que, en la mayoría de los casos, solo se pasa el flujo de datos de subtítulos al nuevo material de origen. Sin embargo, DVB y ATSC tienen tipos de flujo de datos de subtítulos significativamente diferentes.
La teoría de la información y el teorema de muestreo de Nyquist-Shannon implican que la conversión de un estándar de televisión a otro será más fácil si la conversión
El submuestreo en un sistema de vídeo se expresa habitualmente como una relación de tres partes. Los tres términos de la relación son el número de muestras de brillo ("luminancia", "luma", " Y ") y el número de muestras de los dos componentes de color ("croma") ( U/Cb y luego V/Cr ) para cada área de muestra completa.
Para la comparación de calidad, solo es importante la relación entre esos valores, por lo que 4:4:4 podría fácilmente llamarse 1:1:1; pero tradicionalmente el valor de brillo siempre es 4, y el resto de los valores se escalan en consecuencia.
Los principios de muestreo anteriores se aplican tanto a la televisión digital como a la analógica.
El proceso de conversión "3:2 pulldown" de películas de 24 fotogramas por segundo a televisión (telecine) crea un ligero error en la señal de vídeo en comparación con los fotogramas de la película original. Esta es una de las razones por las que el movimiento en películas de 24 fps vistas en equipos domésticos NTSC típicos puede no parecer tan fluido como cuando se ve en un cine. El fenómeno es particularmente evidente durante los movimientos lentos y constantes de la cámara, que parecen ligeramente espasmódicos cuando se realiza el telecine. Este proceso se denomina comúnmente trepidación del telecine .
El material PAL en el que se ha aplicado un pulldown 2:2:2:2:2:2:2:2:2:2:2:2:3 sufre una falta de suavidad similar, aunque este efecto no suele denominarse vibración de telecine. Cada 12º fotograma de la película se muestra durante 3 campos PAL (60 milisegundos), mientras que cada uno de los otros 11 fotogramas se muestra durante 2 campos PAL (40 milisegundos). Esto provoca un ligero "hipo" en el vídeo aproximadamente dos veces por segundo.
Los conversores de sistemas de televisión deben evitar la creación de efectos de vibración de telecine durante el proceso de conversión. Evitar esta vibración es de importancia económica, ya que gran parte del material con resolución NTSC (60 Hz, técnicamente 29,97 cuadros/s) que se origina en película tendrá este problema cuando se convierta a PAL o SECAM (ambos 50 Hz, 25 cuadros/s).
Este método se utilizó en Irlanda para convertir el servicio de 625 líneas al de 405. Es quizás la técnica de conversión de estándares de televisión más básica. RTÉ utilizó este método durante los últimos años de uso del sistema de 405 líneas.
Se utilizó un convertidor de estándares para proporcionar el servicio de 405 líneas, pero según más de una antigua fuente de ingeniería de RTÉ, el convertidor explotó y, posteriormente, el servicio de 405 líneas pasó a proporcionarse mediante una cámara de 405 líneas apuntando a un monitor. Esta no es la mejor técnica de conversión, pero puede funcionar si se pasa de una resolución más alta a una más baja, a la misma velocidad de cuadros. Se requieren fósforos lentos en ambos orticones .
Los primeros convertidores de estándares de vídeo fueron analógicos . Es decir, una cámara de vídeo profesional especial que utilizaba un tubo de cámara de vídeo se apuntaba a un monitor de vídeo de tubo de rayos catódicos . Tanto la cámara como el monitor podían cambiarse a NTSC o PAL, para convertir en ambos sentidos. La división Fernseh de Robert Bosch GmbH fabricó un gran convertidor de estándares de vídeo analógico de tres racks . Estos fueron los convertidores de gama alta de los años 1960 y 1970. Image Transform en Universal City, California, utilizó el convertidor Fernseh y en la década de 1980 fabricó su propio convertidor digital personalizado. Este también era un dispositivo de tres racks más grande. A medida que el tamaño de la memoria digital se hizo más grande en paquetes más pequeños, los convertidores llegaron a tener el tamaño de un horno microondas . Hoy en día, uno puede comprar un convertidor de consumo muy pequeño para uso doméstico. [2]
Las misiones Apolo a la Luna (finales de los años 1960, principios de los años 1970) utilizaron televisión de barrido lento (SSTV) en lugar de televisión de ancho de banda normal; esto se hizo principalmente para ahorrar energía de la batería (y ancho de banda de transmisión, ya que el video SSTV de las misiones Apolo se multiplexó con todas las demás comunicaciones de voz y telemetría de la nave espacial). La cámara utilizó solo 7 vatios de potencia.
El SSTV se utilizó para transmitir imágenes desde el interior de las misiones Apollo 7 , Apollo 8 y Apollo 9 , así como la televisión del módulo lunar Apollo 11 desde la Luna ; véase cámara de televisión Apollo . El sistema SSTV utilizado en las primeras misiones Apollo de la NASA transfería diez cuadros por segundo con una resolución de 320 líneas de cuadro utilizando menos ancho de banda que una transmisión de TV normal. Los primeros sistemas SSTV utilizados por la NASA difieren significativamente de los sistemas SSTV que utilizan actualmente los entusiastas de la radioafición. La conversión de estándares fue necesaria para que las misiones pudieran ser vistas por una audiencia mundial en resoluciones PAL/SECAM (625 líneas, 50 Hz) y NTSC (525 líneas, 60 Hz).
Las misiones Apolo posteriores incorporaron cámaras secuenciales de campo de color que producían vídeo a 60 fotogramas por segundo. Cada fotograma correspondía a uno de los colores primarios RGB. Este método es compatible con el sistema NTSC en blanco y negro, pero incompatible con el sistema NTSC en color. De hecho, incluso la compatibilidad con televisores monocromos NTSC es marginal. Un equipo monocromo podría haber reproducido las imágenes, pero éstas habrían parpadeado terriblemente. El vídeo en color de la cámara funcionaba a sólo 10 fotogramas por segundo. Además, el efecto Doppler en la señal lunar habría provocado que las imágenes se rompieran y se voltearan. Por estos motivos, las imágenes de la Luna del Apolo requerían técnicas de conversión especiales.
Los pasos de conversión fueron completamente electromecánicos y se llevaron a cabo casi en tiempo real. Primero, la estación de enlace descendente corrigió las imágenes para el desplazamiento Doppler. A continuación, en una grabadora de discos analógica, la estación de enlace descendente grabó y reprodujo cada campo de video seis veces. En la grabadora de seis pistas, la grabación y la reproducción se realizaron simultáneamente. Después de la grabadora, los procesadores de video analógicos agregaron los componentes faltantes de la señal de color NTSC: Estos componentes incluían: La ráfaga de color de 3,58 MHz, La señal monocromática de alta resolución, El sonido, Las señales de color I y Q.
El retraso de la conversión duró sólo unos 10 segundos. Luego, las imágenes en color de la Luna salieron de la estación de enlace descendente para su distribución mundial.
Esta técnica de conversión puede llegar a ser popular entre los fabricantes de decodificadores de HDTV --> NTSC y HDTV --> PAL para la conversión global en curso a HDTV. El submuestreo Nyquist múltiple fue utilizado por el sistema MUSE HDTV, que ya no existe, que se utilizaba en Japón. Existen chipsets MUSE que se pueden utilizar para la conversión de sistemas, o se pueden revisar para las necesidades de los decodificadores de HDTV --> TV analógica.
En una configuración típica de transmisión de imágenes, todas las imágenes fijas se transmiten a resolución completa. Las imágenes en movimiento tienen una resolución visual menor, en función de la complejidad del contenido de la imagen entre fotogramas.
Cuando se utiliza el submuestreo de Nyquist como técnica de conversión de estándares, se reduce la resolución horizontal y vertical del material; este es un método excelente para convertir HDTV a televisión de definición estándar, pero funciona muy mal a la inversa. A medida que el contenido horizontal y vertical cambia de fotograma a fotograma, las imágenes en movimiento se desenfocan (de manera similar a cuando se utiliza una película de 16 mm para la proyección de HDTV). De hecho, las panorámicas de toda la cámara darían como resultado una pérdida del 50% de la resolución horizontal.
El método de submuestreo de Nyquist para la conversión de sistemas solo funciona para la conversión de HDTV a televisión de definición estándar , por lo que como tecnología de conversión de estándares tiene un uso muy limitado. La correlación de fase suele ser la preferida para la conversión de HDTV a definición estándar.
Existe una gran diferencia en la velocidad de cuadros entre el formato de película (24,0 cuadros por segundo) y el formato NTSC (aproximadamente 29,97 cuadros por segundo). A diferencia de los otros dos formatos de vídeo más comunes , PAL y SECAM , esta diferencia no se puede superar con una simple aceleración , ya que la aceleración requerida del 25 % sería claramente perceptible.
Para convertir una película de 24 fotogramas por segundo a NTSC de 29,97 fotogramas por segundo (presentados como 59,94 campos entrelazados por segundo), se utiliza un proceso llamado " conversión 3:2 ", en el que cada fotograma de la película se duplica en un campo entrelazado adicional para lograr una velocidad de cuadros de 23,976 (el audio se ralentiza de forma imperceptible a partir de la fuente de 24 fotogramas por segundo para que coincida). Esto produce irregularidades en la secuencia de imágenes que algunas personas pueden percibir como un tartamudeo durante movimientos lentos y constantes de la cámara en el material de origen. Consulte telecine para obtener más detalles.
Para ver material nativo PAL o SECAM (como series de televisión europeas y algunas películas europeas) en equipos NTSC, se debe realizar una conversión de estándares. Básicamente, existen dos formas de lograr esto: La velocidad de cuadros se puede reducir de 25 a 23,976 cuadros por segundo (una desaceleración de aproximadamente el 4%) para luego aplicar un pulldown 3:2 . Interpolación de los contenidos de cuadros adyacentes para producir nuevos cuadros intermedios; esto introduce artefactos , e incluso los ojos más modestamente entrenados pueden detectar rápidamente el video que se ha convertido entre formatos.
Al convertir PAL (625 líneas a 25 cuadros por segundo) a NTSC (525 líneas a 30 cuadros por segundo), el conversor debe eliminar 100 líneas por cuadro. El conversor también debe crear cinco cuadros por segundo.
Para reducir la señal de 625 líneas a 525, los convertidores menos costosos eliminan 100 líneas. Estos convertidores mantienen la fidelidad de la imagen al espaciar uniformemente las líneas eliminadas. (Por ejemplo, el sistema podría descartar cada sexta línea de cada campo PAL. Después del descarte número 50, este proceso se detendría. Para entonces, el sistema habría superado el área visible del campo. En el campo siguiente, el proceso se repetiría, completando un cuadro). Para crear los cinco cuadros adicionales, el convertidor repite cada quinto cuadro.
Si hay poco movimiento entre fotogramas, este algoritmo de conversión es rápido, económico y eficaz. Muchos conversores de sistemas de televisión de consumo económicos han empleado esta técnica. Sin embargo, en la práctica, la mayoría de los vídeos presentan un movimiento entre fotogramas significativo. Para reducir los artefactos de conversión, los equipos más modernos o más caros pueden utilizar técnicas sofisticadas.
La forma más básica y literal de duplicar líneas es repetir cada línea de escaneo, aunque los resultados de esto son generalmente muy rudimentarios. La interpolación lineal utiliza la interpolación digital para recrear las líneas faltantes en una señal entrelazada, y la calidad resultante depende de la técnica utilizada. Generalmente, la versión bob del desentrelazador lineal solo interpolará dentro de un solo campo, en lugar de fusionar información de campos adyacentes, para preservar la suavidad del movimiento, lo que da como resultado una velocidad de cuadros igual a la velocidad del campo (es decir, una señal de 60i se convertiría a 60p). La primera técnica en áreas en movimiento y la segunda en áreas estáticas, lo que mejora la nitidez general.
La interpolación entre campos es una técnica en la que se crean nuevos fotogramas mediante la combinación de fotogramas adyacentes, en lugar de repetir un único fotograma. Esto es más complejo y costoso desde el punto de vista computacional que la interpolación lineal, porque requiere que el interpolador tenga conocimiento de los fotogramas anteriores y posteriores para producir un fotograma combinado intermedio. También puede ser necesario el desentrelazado para producir imágenes que se puedan interpolar sin problemas. La interpolación también se puede utilizar para reducir el número de líneas de exploración en la imagen promediando el color y la intensidad de los píxeles en las líneas vecinas, una técnica similar al filtrado bilineal , pero aplicada a un solo eje.
Existen convertidores simples de 2 y 4 líneas. El convertidor de 2 líneas crea una nueva línea comparando dos líneas adyacentes, mientras que un modelo de 4 líneas compara 4 líneas para promediar la quinta. La interpolación entre campos reduce la vibración, pero a expensas de la distorsión de la imagen. Cuanto mayor sea la combinación aplicada para suavizar la vibración, mayor será la distorsión causada por la combinación.
Algunas técnicas más avanzadas miden la naturaleza y el grado de movimiento entre fotogramas en la fuente y utilizan algoritmos adaptativos para combinar la imagen en función de los resultados. Algunas de estas técnicas se conocen como algoritmos de compensación de movimiento y son computacionalmente mucho más costosas que las técnicas más simples, por lo que requieren un hardware más potente para ser efectivas en la conversión en tiempo real.
Los algoritmos de movimiento adaptativo aprovechan la forma en que el ojo y el cerebro humanos procesan las imágenes en movimiento; en particular, los detalles se perciben con menos claridad en los objetos en movimiento.
La interpolación adaptativa requiere que el convertidor analice múltiples campos sucesivos y detecte la cantidad y el tipo de movimiento de diferentes áreas de la imagen.
La interpolación de movimiento adaptativa tiene muchas variantes y se encuentra comúnmente en convertidores de rango medio . La calidad y el costo dependen de la precisión en el análisis del tipo y la cantidad de movimiento, y de la selección del algoritmo más apropiado para procesar el tipo de movimiento.
La comparación de bloques implica dividir la imagen en bloques de mosaico (por ejemplo, quizás para explicarlo mejor, de 8 x 8 píxeles). Luego, los bloques se almacenan en la memoria. El siguiente campo leído también se divide en bloques de mosaico del mismo número y tamaño. Luego, la computadora del convertidor se pone a trabajar y comienza a comparar bloques. Los bloques que permanecieron en la misma posición relativa (léase: no hubo movimiento en esta parte de la imagen) reciben relativamente poco procesamiento.
Cuando se realiza un desplazamiento de izquierda a derecha (sobre, digamos, 10 campos), es seguro asumir que el undécimo campo será similar o muy cercano.
La técnica es muy eficaz, pero requiere una enorme cantidad de potencia de cálculo. Consideremos un bloque de tan solo 8x8 píxeles. Para cada bloque, el ordenador tiene 64 direcciones posibles y 64 píxeles que deben coincidir con el bloque del campo siguiente. Consideremos también que cuanto mayor sea el movimiento, más lejos debe realizarse la búsqueda. Tan solo para encontrar un bloque adyacente en el campo siguiente habría que hacer una búsqueda de 9 bloques. A 2 bloques de distancia se necesitaría una búsqueda y coincidencia de 25 bloques; a 3 bloques más de distancia, la cifra aumentaría a 49, etc.
El tipo de movimiento puede aumentar exponencialmente la potencia de procesamiento necesaria. Consideremos un objeto giratorio, donde un simple vector de movimiento en línea recta es de poca ayuda para predecir dónde debe coincidir el siguiente bloque. Se puede ver rápidamente que cuanto más movimiento entre cuadros se introduce, mayor es la potencia de procesamiento necesaria. Este es el concepto general de coincidencia de bloques. Los conversores de coincidencia de bloques pueden variar ampliamente en precio y rendimiento según la atención al detalle y la complejidad.
Un artefacto extraño de la coincidencia de bloques se debe al tamaño del bloque en sí. Si un objeto en movimiento es más pequeño que el bloque de mosaico, considere que es el bloque entero el que se mueve. En la mayoría de los casos, no es un problema, pero considere una pelota de béisbol lanzada. La pelota en sí tiene un vector de movimiento alto, pero su fondo que compone el resto del bloque podría no tener ningún movimiento. El fondo también se transporta en el bloque movido, según el vector de movimiento de la pelota de béisbol. Lo que puede ver es la pelota con una pequeña cantidad de campo exterior o lo que sea, siguiéndola. Como está en movimiento, el bloque puede ser "suave" según las técnicas adicionales que se hayan utilizado y apenas perceptible a menos que lo esté buscando.
La combinación de bloques requiere una cantidad asombrosa de potencia de procesamiento, pero los microprocesadores actuales la convierten en una solución viable.
La correlación de fase es quizás el algoritmo general más complejo computacionalmente.
El éxito de la correlación de fase radica en el hecho de que es eficaz para hacer frente al movimiento rápido y al movimiento aleatorio. La correlación de fase no se confunde fácilmente con objetos giratorios o que giran, lo que confunde a la mayoría de los demás tipos de convertidores de sistemas. La correlación de fase es elegante y, al mismo tiempo, técnica y conceptualmente compleja. Su funcionamiento exitoso se deriva de la realización de una transformada de Fourier para cada campo de vídeo.
Una transformada rápida de Fourier (FFT) es un algoritmo que se ocupa de la transformación de valores discretos (en este caso, píxeles de una imagen). Cuando se aplica a una muestra de valores finitos, una transformada rápida de Fourier expresa cualquier cambio (movimiento) en términos de componentes de frecuencia.
Dado que el resultado de la FFT representa únicamente los cambios entre cuadros en términos de distribución de frecuencia, hay muchos menos datos que deben procesarse para calcular los vectores de movimiento.
Un adaptador de televisión digital , ( CECB ), o convertidor (caja) de digital a analógico, es un dispositivo que recibe, por medio de una antena , una transmisión de televisión digital (DTV) , y convierte esa señal en una señal de televisión analógica que puede recibirse y mostrarse en un televisor analógico.
Estos decodificadores convierten de forma económica la señal HDTV (16:9 a 720 o 1080) a (NTSC o PAL a 4:3). Se sabe muy poco sobre las tecnologías de conversión específicas que utilizan estos decodificadores en las zonas PAL y NTSC.
Generalmente se requiere una conversión descendente, por lo que los espectadores perciben muy poca pérdida de calidad de imagen a la distancia de visualización recomendada con la mayoría de los televisores.
Gran parte de la conversión de formatos de televisión se realiza sin conexión. Existen varios paquetes de DVD que ofrecen conversión de PAL a NTSC sin conexión , incluida la conversión cruzada (técnicamente, MPEG a DTV ) a partir de la gran cantidad de formatos de video web basados en MPEG .
La conversión cruzada puede utilizar cualquier método que se utilice habitualmente para la conversión de formatos de sistemas de TV, pero normalmente (para reducir la complejidad y el uso de memoria) se deja en manos del códec la tarea de realizar la conversión. La mayoría de los DVD modernos se convierten de 525 <--> 625 líneas de esta manera, ya que resulta muy económico para la mayoría de la programación que se origina en la resolución EDTV .