Optimización de tasa-distorsión

La optimización de la tasa de distorsión ( RDO ) es un método para mejorar la calidad del vídeo en la compresión de vídeo . El nombre hace referencia a la optimización de la cantidad de distorsión (pérdida de calidad del vídeo) en relación con la cantidad de datos necesarios para codificar el vídeo, la tasa . Aunque la utilizan principalmente los codificadores de vídeo, la optimización de la tasa de distorsión se puede utilizar para mejorar la calidad en cualquier situación de codificación (imagen, vídeo, audio o de otro tipo) en la que se deban tomar decisiones que afecten tanto al tamaño del archivo como a la calidad de forma simultánea.

Fondo

El método clásico para tomar decisiones de codificación es que el codificador de vídeo elija el resultado que produzca la imagen de salida de mayor calidad. Sin embargo, esto tiene la desventaja de que la elección que haga puede requerir más bits y, al mismo tiempo, ofrecer un beneficio comparativamente menor en términos de calidad. Un ejemplo común de este problema se encuentra en la estimación de movimiento ^[1] y, en particular, en relación con el uso de la estimación de movimiento con precisión de un cuarto de píxel . Agregar precisión adicional al movimiento de un bloque durante la estimación de movimiento puede aumentar la calidad, pero en algunos casos esa calidad adicional no vale los bits adicionales necesarios para codificar el vector de movimiento con una precisión mayor.

Cómo funciona

La optimización de la tasa de distorsión resuelve el problema antes mencionado al actuar como una métrica de calidad de video, midiendo tanto la desviación del material de origen como el costo de bits para cada posible resultado de decisión. Los bits se miden matemáticamente multiplicando el costo de bits por el Lagrangiano , un valor que representa la relación entre el costo de bits y la calidad para un nivel de calidad particular. La desviación de la fuente generalmente se mide como el error cuadrático medio , para maximizar la métrica de calidad de video PSNR .

El cálculo del coste en bits se hace más difícil por los codificadores de entropía en los códecs de vídeo modernos, lo que requiere que el algoritmo de optimización de la tasa de distorsión pase cada bloque de vídeo que se va a probar al codificador de entropía para medir su coste en bits real. En los códecs MPEG , el proceso completo consta de una transformada de coseno discreta , seguida de cuantificación y codificación de entropía. Debido a esto, la optimización de la tasa de distorsión es mucho más lenta que la mayoría de las demás métricas de coincidencia de bloques, como la suma simple de diferencias absolutas (SAD) y la suma de diferencias transformadas absolutas (SATD). Como tal, normalmente se utiliza solo para los pasos finales del proceso de estimación de movimiento , como decidir entre diferentes tipos de partición en H.264/AVC .

Lista de codificadores compatibles con RDO

Codificador Ateme H.264
Codificadores Grass Valley ViBE (SD y HD MPEG-2/MPEG-4)
Codificador Harmonic Electra 8000 (SD y HD MPEG-2/MPEG-4)
código libav
Codificador H.264 de MainConcept
Codificador Microsoft VC-1
Televisión Tandberg SD MPEG-2 EN8100
Televisión Tandberg HD MPEG-4 EN8190
Televisión Tandberg SD y HD MPEG-4 iPlex
Theora 1.1-alpha1 y posteriores (la rama "Thusnelda")
Codificador H.264 x264
Codificador x265 H.265
Codificador ASP MPEG-4 Xvid
Software de referencia H.264/AVC JM (modelo conjunto)
Software de referencia HEVC HM (modelo de prueba HEVC)
Kvazaar (parcial) ^[2]

Referencias

^ Hoang, DT; Long, PM; Vitter, Jeffrey (agosto de 1998). "Optimizaciones de tasa de distorsión para estimación de movimiento en codificación de video de baja tasa de bits" (PDF) . Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 8 (4): 488–500. doi :10.1109/76.709413.Una versión más corta aparece en Hoang, DT; Long, PM; Vitter, JS (marzo de 1996). "Optimizaciones de tasa de distorsión para estimación de movimiento en codificación de video de baja tasa de bits". Compresión de video digital: algoritmos y tecnologías 1996. Vol. 2668. SPIE. págs. 18–27. doi :10.1117/12.235433.
^ "Grupo Ultra Vídeo".