Un artefacto de compresión (o artefacto ) es una distorsión notable de los medios (incluidas imágenes , audio y video ) causada por la aplicación de compresión con pérdida . La compresión de datos con pérdida implica descartar algunos de los datos del medio para que sean lo suficientemente pequeños como para almacenarlos en el espacio en disco deseado o transmitirlos ( transmitirlos ) dentro del ancho de banda disponible (conocido como velocidad de datos o velocidad de bits ). Si el compresor no puede almacenar suficientes datos en la versión comprimida, el resultado es una pérdida de calidad o la introducción de artefactos. Es posible que el algoritmo de compresión no sea lo suficientemente inteligente para discriminar entre distorsiones de poca importancia subjetiva y aquellas objetables para el usuario.
Los artefactos de compresión digital más comunes son los bloques DCT, causados por el algoritmo de compresión de transformación de coseno discreto (DCT) utilizado en muchos estándares de medios digitales , como los formatos de archivos de vídeo JPEG , MP3 y MPEG . [1] [2] [3] Estos artefactos de compresión aparecen cuando se aplica una compresión intensa, [1] y ocurren con frecuencia en medios digitales comunes, como DVD , formatos de archivos de computadora comunes, como archivos JPEG, MP3 y MPEG, y algunas alternativas. al disco compacto , como el formato MiniDisc de Sony . Los medios sin comprimir (como los discos láser , los CD de audio y los archivos WAV ) o los medios comprimidos sin pérdidas (como FLAC o PNG ) no sufren artefactos de compresión.
La minimización de artefactos perceptibles es un objetivo clave al implementar un algoritmo de compresión con pérdidas. Sin embargo, en ocasiones los artefactos se producen intencionalmente con fines artísticos, un estilo conocido como glitch art [4] o datamoshing. [5]
Técnicamente hablando, un artefacto de compresión es una clase particular de error de datos que suele ser consecuencia de la cuantificación en la compresión de datos con pérdida. Cuando se utiliza codificación de transformación , normalmente asume la forma de una de las funciones básicas del espacio de transformación del codificador.
Al realizar la codificación por transformada de coseno discreta (DCT) [1] basada en bloques para la cuantificación , como en las imágenes comprimidas JPEG , pueden aparecer varios tipos de artefactos.
Otros algoritmos con pérdida, que utilizan la coincidencia de patrones para deduplicar símbolos similares, son propensos a introducir errores difíciles de detectar en el texto impreso. Por ejemplo, es posible que se reemplacen los números "6" y "8". Se ha observado que esto sucede con JBIG2 en ciertas fotocopiadoras. [6] [7]
A velocidades de bits bajas, cualquier esquema de codificación basado en bloques con pérdida introduce artefactos visibles en los bloques de píxeles y en los límites de los bloques. Estos límites pueden ser límites de bloques de transformación, límites de bloques de predicción o ambos, y pueden coincidir con límites de macrobloques . El término macrobloqueo se utiliza comúnmente independientemente de la causa del artefacto. Otros nombres incluyen bloqueo, [8] mosaico, [9] mosaico, pixelado, acolchado y tablero de ajedrez.
Los artefactos de bloque son el resultado del principio mismo de la codificación por transformación de bloques . La transformación (por ejemplo, la transformada de coseno discreta) se aplica a un bloque de píxeles y, para lograr una compresión con pérdidas, se cuantifican los coeficientes de transformación de cada bloque . Cuanto menor sea la velocidad de bits, más burdamente se representan los coeficientes y más coeficientes se cuantifican a cero. Estadísticamente, las imágenes tienen más contenido de baja frecuencia que de alta frecuencia, por lo que es el contenido de baja frecuencia el que permanece después de la cuantificación, lo que da como resultado bloques borrosos y de baja resolución. En el caso más extremo, sólo se conserva el coeficiente DC, es decir, el coeficiente que representa el color medio de un bloque, y el bloque de transformación tiene sólo un color después de la reconstrucción.
Debido a que este proceso de cuantificación se aplica individualmente en cada bloque, los bloques vecinos cuantifican los coeficientes de manera diferente. Esto conduce a discontinuidades en los límites de los bloques. Estos son más visibles en áreas planas, donde hay pocos detalles para enmascarar el efecto.
Se han propuesto varios enfoques para reducir los efectos de la compresión de imágenes, pero para utilizar técnicas de compresión/descompresión estandarizadas y conservar los beneficios de la compresión (por ejemplo, menores costos de transmisión y almacenamiento), muchos de estos métodos se centran en el "postprocesamiento", es decir , procesando imágenes cuando se reciben o se ven. No se ha demostrado que ninguna técnica de posprocesamiento mejore la calidad de la imagen en todos los casos; en consecuencia, ninguno ha obtenido una aceptación generalizada, aunque algunos se han implementado y se utilizan en sistemas propietarios. Muchos programas de edición de fotografías, por ejemplo, tienen incorporados algoritmos patentados de reducción de artefactos JPEG. Los equipos de consumo suelen denominar a este posprocesamiento "Reducción de ruido MPEG". [10]
Los artefactos de límites en JPEG se pueden convertir en "granos" más agradables, similares a los de las películas fotográficas con ISO alto. En lugar de simplemente multiplicar los coeficientes cuantificados con el paso de cuantificación Q perteneciente a la frecuencia 2D, ruido inteligente en forma de un número aleatorio en el intervalo [- Q /2; Q /2] se puede sumar al coeficiente descuantificado. Este método se puede agregar como parte integral de los descompresores JPEG que trabajan con billones de imágenes JPEG existentes y futuras. Como tal, no se trata de una técnica de "postprocesamiento". [11]
El problema del timbre se puede reducir en el momento de la codificación sobrepasando los valores DCT y suprimiendo los anillos. [12]
La posterización generalmente solo ocurre en baja calidad, cuando a los valores de DC se les da muy poca importancia. Afinar la tabla de cuantización ayuda. [13]
Cuando se utiliza la predicción de movimiento, como en MPEG-1 , MPEG-2 o MPEG-4 , los artefactos de compresión tienden a permanecer en varias generaciones de cuadros descomprimidos y se mueven con el flujo óptico de la imagen, lo que genera un efecto peculiar, en parte. entre un efecto de pintura y "suciedad" que se mueve con los objetos de la escena.
Los errores de datos en el flujo de bits comprimido, posiblemente debidos a errores de transmisión, pueden provocar errores similares a grandes errores de cuantificación, o pueden interrumpir por completo el análisis del flujo de datos durante un breve periodo de tiempo, provocando una "ruptura" de la imagen. . Cuando se han producido errores graves en el flujo de bits, los decodificadores continúan aplicando actualizaciones a la imagen dañada durante un breve intervalo, creando un efecto de "imagen fantasma", hasta recibir el siguiente cuadro comprimido de forma independiente. En la codificación de imágenes MPEG, estos se conocen como " I-frames ", donde la 'I' significa "intra". Hasta que llegue el siguiente cuadro I, el decodificador puede ocultar errores .
Pueden ocurrir discontinuidades en los límites de los bloques en los bordes de los bloques de predicción de compensación de movimiento . En la compresión de vídeo con compensación de movimiento, la imagen actual se predice desplazando bloques (macrobloques, particiones o unidades de predicción) de píxeles de fotogramas previamente decodificados. Si dos bloques vecinos utilizan diferentes vectores de movimiento, habrá una discontinuidad en el borde entre los bloques.
Los artefactos de compresión de vídeo incluyen resultados acumulativos de la compresión de las imágenes fijas que lo componen, por ejemplo, zumbidos u otras ocupaciones de los bordes en imágenes fijas sucesivas que aparecen en secuencia como una mancha brillante de puntos alrededor de los bordes, llamada ruido de mosquito , ya que se parecen a los mosquitos que pululan alrededor del objeto. [14] [15] El llamado "ruido de mosquito" es causado por el algoritmo de compresión de transformación de coseno discreto (DCT) basado en bloques utilizado en la mayoría de los estándares de codificación de vídeo , como los formatos MPEG . [3]
Los artefactos en los límites de los bloques se pueden reducir aplicando un filtro de desbloqueo . Al igual que en la codificación de imágenes fijas, es posible aplicar un filtro de desbloqueo a la salida del decodificador como posprocesamiento.
En la codificación de vídeo con predicción de movimiento con un bucle de predicción cerrado, el codificador utiliza la salida del decodificador como referencia de predicción a partir de la cual se predicen fotogramas futuros. Para ello, el codificador integra conceptualmente un decodificador. Si este "descodificador" realiza un desbloqueo, la imagen desbloqueada se utiliza entonces como imagen de referencia para la compensación de movimiento, lo que mejora la eficacia de la codificación evitando la propagación de artefactos de bloque a través de fotogramas. Esto se conoce como filtro de desbloqueo en bucle. Los estándares que especifican un filtro de desbloqueo en bucle incluyen VC-1 , H.263 Anexo J, H.264/AVC y H.265/HEVC .
La compresión de audio con pérdida normalmente funciona con un modelo psicoacústico, un modelo de percepción auditiva humana. Los formatos de audio con pérdida generalmente implican el uso de una transformación en el dominio del tiempo/frecuencia, como una transformada de coseno discreta modificada . En el modelo psicoacústico se aprovechan efectos de enmascaramiento como el enmascaramiento de frecuencia y el enmascaramiento temporal, de modo que los sonidos que deberían ser imperceptibles no se graban. Por ejemplo, en general, los seres humanos son incapaces de percibir un tono suave reproducido simultáneamente con un tono similar pero más fuerte. Una técnica de compresión con pérdida podría identificar este tono tranquilo e intentar eliminarlo. Además, el ruido de cuantificación se puede "ocultar" donde quedaría enmascarado por sonidos más prominentes. Con baja compresión, se utiliza un modelo psy conservador con tamaños de bloques pequeños.
Cuando el modelo psicoacústico es inexacto, cuando el tamaño del bloque de transformación es restringido o cuando se utiliza una compresión agresiva, esto puede provocar artefactos de compresión. Los artefactos de compresión en el audio comprimido generalmente aparecen como zumbidos, pre-eco , "artefactos de pajarito", interrupciones, traqueteos, gorjeos, zumbidos metálicos, una sensación bajo el agua, silbidos o "granulosidad".
Un ejemplo de artefactos de compresión en audio son los aplausos en un archivo de audio relativamente altamente comprimido (por ejemplo, MP3 de 96 kbit/s). En general, los tonos musicales tienen formas de onda que se repiten y variaciones de volumen más predecibles, mientras que los aplausos son esencialmente aleatorios y, por lo tanto, difíciles de comprimir. Una pista de aplausos muy comprimida puede tener "sonidos metálicos" y otros artefactos de compresión.
Los artefactos de compresión pueden usarse intencionalmente como estilo visual, a veces conocido como glitch art . El arte de falla de Rosa Menkman hace uso de artefactos de compresión , [16] particularmente los bloques de transformación de coseno discretos (bloques DCT) que se encuentran en la mayoría de los formatos de compresión de datos de medios digitales , como imágenes digitales JPEG y audio digital MP3 . [2] En imágenes fijas, un ejemplo es Jpegs del fotógrafo alemán Thomas Ruff , que utiliza artefactos JPEG intencionales como base del estilo de la imagen. [17] [18]
En videoarte , una técnica utilizada es el datamoshing , donde se intercalan dos videos de modo que los fotogramas intermedios se interpolan desde dos fuentes separadas. Otra técnica implica simplemente transcodificar de un formato de vídeo con pérdida a otro, lo que aprovecha la diferencia en cómo los códecs de vídeo separados procesan la información de movimiento y color. [19] La técnica fue iniciada por los artistas Bertrand Planes en colaboración con Christian Jacquemin en 2006 con DivXPrime, [20] Sven König, Takeshi Murata , Jacques Perconte y Paul B. Davis en colaboración con Paperrad , y más recientemente utilizada por David OReilly y en los vídeos musicales de Chairlift y de Nabil Elderkin en el vídeo musical " Welcome to Heartbreak " de Kanye West . [21] [22]
También existe un género de memes de Internet en el que, a menudo, las imágenes sin sentido se comprimen fuertemente a propósito, a veces varias veces para lograr un efecto cómico. Las imágenes creadas con esta técnica a menudo se denominan "fritas". [23]