stringtranslate.com

Compresión con pérdida

Imagen compuesta que muestra la compresión de imágenes JPG y PNG. El lado izquierdo de la imagen es de una imagen JPEG de baja calidad, que muestra artefactos con pérdida; el lado derecho es de una imagen PNG.

En tecnología de la información , la compresión con pérdida o compresión irreversible es la clase de métodos de compresión de datos que utilizan aproximaciones inexactas y descarte parcial de datos para representar el contenido. Estas técnicas se utilizan para reducir el tamaño de los datos para almacenar, manipular y transmitir contenido. Los grados más altos de aproximación crean imágenes más burdas a medida que se eliminan más detalles. Esto se opone a la compresión de datos sin pérdida (compresión de datos reversible) que no degrada los datos. La cantidad de reducción de datos posible utilizando la compresión con pérdida es mucho mayor que utilizando técnicas sin pérdida.

Una tecnología de compresión con pérdida bien diseñada suele reducir significativamente el tamaño de los archivos antes de que el usuario final note la degradación. Incluso cuando el usuario la nota, puede ser conveniente una mayor reducción de datos (por ejemplo, para la comunicación en tiempo real o para reducir los tiempos de transmisión o las necesidades de almacenamiento). El algoritmo de compresión con pérdida más utilizado es la transformada de coseno discreta (DCT), publicada por primera vez por Nasir Ahmed , T. Natarajan y KR Rao en 1974.

La compresión con pérdida se utiliza con mayor frecuencia para comprimir datos multimedia ( audio , vídeo e imágenes ), especialmente en aplicaciones como la transmisión de medios y la telefonía por Internet . Por el contrario, la compresión sin pérdida se requiere normalmente para archivos de texto y datos, como registros bancarios y artículos de texto. Puede resultar ventajoso crear un archivo maestro sin pérdida que luego se pueda utilizar para producir copias adicionales. Esto permite evitar la creación de nuevas copias comprimidas a partir de un archivo fuente con pérdida, lo que produciría artefactos adicionales y una mayor pérdida de información innecesaria.

Tipos

Es posible comprimir muchos tipos de datos digitales de forma que se reduzca el tamaño del archivo informático necesario para almacenarlos o el ancho de banda necesario para transmitirlos, sin perder toda la información contenida en el archivo original. Por ejemplo, una imagen se convierte en un archivo digital considerándola como una matriz de puntos y especificando el color y el brillo de cada punto. Si la imagen contiene un área del mismo color, se puede comprimir sin pérdida diciendo "200 puntos rojos" en lugar de "punto rojo, punto rojo, ... (197 veces más)..., punto rojo".

Los datos originales contienen una cierta cantidad de información y existe un límite inferior para el tamaño de un archivo que aún puede contener toda la información. La teoría básica de la información dice que existe un límite absoluto para reducir el tamaño de estos datos. Cuando los datos se comprimen, su entropía aumenta y no puede aumentar indefinidamente. Por ejemplo, un archivo ZIP comprimido es más pequeño que su original, pero comprimir repetidamente el mismo archivo no reducirá el tamaño a nada. La mayoría de los algoritmos de compresión pueden reconocer cuándo una mayor compresión sería inútil y, de hecho, aumentaría el tamaño de los datos.

En muchos casos, los archivos o los flujos de datos contienen más información de la necesaria. Por ejemplo, una imagen puede tener más detalles de los que el ojo puede distinguir cuando se reproduce en el tamaño más grande previsto; de la misma manera, un archivo de audio no necesita muchos detalles finos durante un pasaje muy ruidoso. Desarrollar técnicas de compresión con pérdida que se adecuen lo más posible a la percepción humana es una tarea compleja. A veces, lo ideal es un archivo que proporcione exactamente la misma percepción que el original, con la mayor cantidad posible de información digital eliminada; otras veces, una pérdida perceptible de calidad se considera una compensación válida.

Los términos "irreversible" y "reversible" se prefieren a "con pérdida" y "sin pérdida" respectivamente para algunas aplicaciones, como la compresión de imágenes médicas, para evitar las implicaciones negativas de la "pérdida". El tipo y la cantidad de pérdida pueden afectar la utilidad de las imágenes. Los artefactos o efectos indeseables de la compresión pueden ser claramente discernibles, pero el resultado aún puede ser útil para el propósito previsto. O las imágenes comprimidas con pérdida pueden ser " visualmente sin pérdida " o, en el caso de las imágenes médicas, puede haberse aplicado la denominada compresión irreversible aceptable para el diagnóstico (DAIC) [1] .

Codificación de transformación

Algunas formas de compresión con pérdida pueden considerarse como una aplicación de la codificación de transformación , que es un tipo de compresión de datos que se utiliza para imágenes digitales , señales de audio digitales y vídeo digital . La transformación se utiliza normalmente para permitir una cuantificación mejor (más específica) . El conocimiento de la aplicación se utiliza para elegir la información que se va a descartar, lo que reduce su ancho de banda . La información restante se puede comprimir a través de una variedad de métodos. Cuando se decodifica la salida, el resultado puede no ser idéntico a la entrada original, pero se espera que sea lo suficientemente parecido para el propósito de la aplicación.

La forma más común de compresión con pérdida es un método de codificación de transformación, la transformada de coseno discreta (DCT), [2] que fue publicada por primera vez por Nasir Ahmed , T. Natarajan y KR Rao en 1974. [3] La DCT es la forma de compresión con pérdida más utilizada para formatos de compresión de imágenes populares (como JPEG ), [4] estándares de codificación de video (como MPEG y H.264/AVC ) y formatos de compresión de audio (como MP3 y AAC ).

En el caso de los datos de audio, una forma popular de codificación de transformación es la codificación perceptual , que transforma los datos sin procesar en un dominio que refleja con mayor precisión el contenido de la información. Por ejemplo, en lugar de expresar un archivo de sonido como los niveles de amplitud a lo largo del tiempo, se puede expresar como el espectro de frecuencia a lo largo del tiempo, que corresponde con mayor precisión a la percepción auditiva humana. Si bien la reducción de datos (compresión, ya sea con pérdida o sin pérdida) es un objetivo principal de la codificación de transformación, también permite otros objetivos: se pueden representar los datos con mayor precisión para la cantidad original de espacio [5] ; por ejemplo, en principio, si se comienza con un master analógico o digital de alta resolución , un archivo MP3 de un tamaño determinado debería proporcionar una mejor representación que un audio sin comprimir en formato WAV o AIFF del mismo tamaño. Esto se debe a que el audio sin comprimir solo puede reducir el tamaño del archivo al reducir la tasa de bits o la profundidad, mientras que la compresión de audio puede reducir el tamaño manteniendo la tasa de bits y la profundidad. Esta compresión se convierte en una pérdida selectiva de los datos menos significativos, en lugar de perder datos en general. Además, una codificación de transformación puede proporcionar un mejor dominio para manipular o editar los datos; por ejemplo, la ecualización del audio se expresa más naturalmente en el dominio de la frecuencia (aumentar los graves, por ejemplo) en lugar de en el dominio del tiempo puro.

Desde este punto de vista, la codificación perceptual no se trata esencialmente de descartar datos, sino más bien de una mejor representación de los datos. Otro uso es la compatibilidad con versiones anteriores y la degradación elegante : en la televisión en color, la codificación del color a través de un dominio de transformación de luminancia - crominancia (como YUV ) significa que los conjuntos en blanco y negro muestran la luminancia, mientras que ignoran la información del color. Otro ejemplo es el submuestreo de croma : el uso de espacios de color como YIQ , utilizado en NTSC , permite reducir la resolución de los componentes para que coincida con la percepción humana: los humanos tienen la resolución más alta para el blanco y negro (luma), una resolución más baja para los colores de espectro medio como el amarillo y el verde, y la más baja para el rojo y el azul; por lo tanto, NTSC muestra aproximadamente 350 píxeles de luma por línea de escaneo , 150 píxeles de amarillo frente a verde y 50 píxeles de azul frente a rojo, que son proporcionales a la sensibilidad humana a cada componente.

Pérdida de información

Los formatos de compresión con pérdida sufren de pérdida de generación : comprimir y descomprimir repetidamente el archivo hará que pierda calidad progresivamente. Esto contrasta con la compresión de datos sin pérdida , donde los datos no se perderán mediante el uso de dicho procedimiento. Los fundamentos teóricos de la información para la compresión de datos con pérdida los proporciona la teoría de la distorsión de la velocidad . Al igual que el uso de la probabilidad en la teoría de la codificación óptima, la teoría de la distorsión de la velocidad se basa en gran medida en la estimación bayesiana y la teoría de la decisión para modelar la distorsión perceptiva e incluso el juicio estético .

Hay dos esquemas básicos de compresión con pérdida:

En algunos sistemas se combinan ambas técnicas y se utilizan códecs de transformación para comprimir las señales de error generadas por la etapa predictiva.

Comparación

La ventaja de los métodos con pérdida sobre los métodos sin pérdida es que, en algunos casos, un método con pérdida puede producir un archivo comprimido mucho más pequeño que cualquier método sin pérdida, sin dejar de cumplir con los requisitos de la aplicación. Los métodos con pérdida se utilizan con mayor frecuencia para comprimir sonido, imágenes o vídeos. Esto se debe a que este tipo de datos están destinados a la interpretación humana, donde la mente puede "rellenar los espacios en blanco" fácilmente o ver más allá de errores o inconsistencias muy menores; idealmente, la compresión con pérdida es transparente (imperceptible), lo que se puede verificar mediante una prueba ABX . Los archivos de datos que utilizan compresión con pérdida son de menor tamaño y, por lo tanto, cuesta menos almacenarlos y transmitirlos a través de Internet, una consideración crucial para los servicios de transmisión de vídeo como Netflix y los servicios de transmisión de audio como Spotify .

Transparencia

Cuando un usuario adquiere un archivo comprimido con pérdida (por ejemplo, para reducir el tiempo de descarga), el archivo recuperado puede ser bastante diferente del original a nivel de bits , y ser indistinguible para el oído o el ojo humano en la mayoría de los casos. Muchos métodos de compresión se centran en las idiosincrasias de la fisiología humana , teniendo en cuenta, por ejemplo, que el ojo humano solo puede ver ciertas longitudes de onda de luz. El modelo psicoacústico describe cómo se puede comprimir mucho el sonido sin degradar la calidad percibida. Los defectos causados ​​por la compresión con pérdida que son perceptibles para el ojo o el oído humano se conocen como artefactos de compresión .

Relación de compresión

La relación de compresión (es decir, el tamaño del archivo comprimido comparado con el del archivo sin comprimir) de los códecs de vídeo con pérdida es casi siempre muy superior a la de sus equivalentes de audio e imágenes fijas.

Transcodificación y edición

Una advertencia importante sobre la compresión con pérdida (formalmente transcodificación) es que la edición de archivos comprimidos con pérdida provoca una pérdida de generación digital debido a la recodificación. Esto se puede evitar produciendo únicamente archivos con pérdida a partir de originales (sin pérdida) y editando únicamente (copias de) archivos originales, como imágenes en formato de imagen en bruto en lugar de JPEG . Si los datos que se han comprimido con pérdida se decodifican y comprimen sin pérdida, el tamaño del resultado puede ser comparable con el tamaño de los datos antes de la compresión con pérdida, pero los datos ya perdidos no se pueden recuperar. Al decidir utilizar la conversión con pérdida sin conservar el original, es posible que en el futuro se necesite una conversión de formato para lograr compatibilidad con software o dispositivos ( cambio de formato ) o para evitar pagar regalías de patentes por la decodificación o distribución de archivos comprimidos.

Edición de archivos con pérdida

Al modificar directamente los datos comprimidos sin decodificarlos ni volverlos a codificar, es posible realizar algunas modificaciones de archivos comprimidos con pérdidas sin que se degrade la calidad. A veces también es posible realizar modificaciones que reduzcan el tamaño del archivo como si se hubiera comprimido en mayor medida, pero sin mayores pérdidas.

JPEG

Los principales programas para la edición sin pérdida de archivos JPEG son jpegtran, y sus derivados exiftran(que también conservan la información Exif ) y Jpegcrop (que proporciona una interfaz de Windows).

Permiten recortar , rotar, voltear y voltear la imagen , o incluso convertirla a escala de grises (eliminando el canal de crominancia ). Si bien se destruye la información no deseada, la calidad de la parte restante permanece inalterada.

Algunas otras transformaciones son posibles hasta cierto punto, como unir imágenes con la misma codificación (componiendo una al lado de la otra, como en una cuadrícula) o pegar imágenes como logotipos en imágenes existentes (ambas a través de Jpegjoin), o escalar. [6]

Se pueden realizar algunos cambios en la compresión sin tener que volver a codificar:

IrfanView, un programa gratuito exclusivo para Windows, tiene algunas operaciones JPEG sin pérdida en su JPG_TRANSFORM complemento .

Metadatos

Los metadatos, como las etiquetas ID3 , los comentarios Vorbis o la información Exif , generalmente se pueden modificar o eliminar sin modificar los datos subyacentes.

Escalabilidad de representación comprimida/submuestreo

Se puede desear reducir la resolución de la señal de origen representada y la cantidad de datos utilizados para su representación comprimida sin volver a codificarla, como en el caso del descascarillado de la tasa de bits , pero esta funcionalidad no está disponible en todos los diseños, ya que no todos los códecs codifican los datos de una forma que permita simplemente omitir los detalles menos importantes. Algunos diseños conocidos que tienen esta capacidad incluyen JPEG 2000 para imágenes fijas y la codificación de video escalable basada en H.264/MPEG-4 AVC para video. Dichos esquemas también se han estandarizado para diseños más antiguos, como imágenes JPEG con codificación progresiva y video MPEG-2 y MPEG-4 Parte 2 , aunque esos esquemas anteriores tuvieron un éxito limitado en términos de adopción en el uso común del mundo real. Sin esta capacidad, que es a menudo el caso en la práctica, para producir una representación con menor resolución o menor fidelidad que una dada, es necesario empezar con la señal fuente original y codificarla, o empezar con una representación comprimida y luego descomprimirla y volver a codificarla ( transcodificación ), aunque esto último tiende a provocar pérdida de generación digital .

Otro enfoque es codificar la señal original a varias velocidades de bits diferentes y luego elegir cuál usar (como cuando se transmite por Internet, como en "SureStream" de RealNetworks , o se ofrecen descargas variables, como en la tienda iTunes de Apple ), o transmitir varias, donde se usa la mejor que se recibe con éxito, como en varias implementaciones de modulación jerárquica . Se utilizan técnicas similares en mapas MIP , representaciones piramidales y métodos de espacio de escala más sofisticados . Algunos formatos de audio presentan una combinación de un formato con pérdida y una corrección sin pérdida que, cuando se combinan, reproducen la señal original; la corrección se puede eliminar, dejando un archivo más pequeño y comprimido con pérdida. Dichos formatos incluyen MPEG-4 SLS (Scalable to Lossless), WavPack , OptimFROG DualStream y DTS-HD Master Audio en modo sin pérdida (XLL) ).

Métodos

Gráficos

Imagen

Gráficos de computadora en 3D

Video

Audio

General

Discurso

Otros datos

Los investigadores han realizado una compresión con pérdida de texto utilizando un tesauro para sustituir palabras cortas por palabras largas o técnicas de texto generativo , [14] aunque estas a veces caen en la categoría relacionada de conversión de datos con pérdida .

Disminuir la resolución

Un tipo general de compresión con pérdida es reducir la resolución de una imagen, como en el caso del escalado de imágenes , en particular la decimación . También se pueden eliminar partes de una imagen con menos "información", como por ejemplo mediante el tallado de costuras . Muchas transformaciones de medios, como el desenfoque gaussiano , son, al igual que la compresión con pérdida, irreversibles: la señal original no se puede reconstruir a partir de la señal transformada. Sin embargo, en general, tendrán el mismo tamaño que el original y no son una forma de compresión. La reducción de la resolución tiene usos prácticos, ya que la nave New Horizons de la NASA transmitió miniaturas de su encuentro con Plutón-Caronte antes de enviar las imágenes de mayor resolución. Otra solución para conexiones lentas es el uso del entrelazado de imágenes , que define progresivamente la imagen. Por lo tanto, una transmisión parcial es suficiente para obtener una vista previa de la imagen final, en una versión de menor resolución, sin crear también una versión escalada y una completa. [ cita requerida ]

Véase también

Notas

  1. ^ Sociedad Europea de Radiología (2011). "Usabilidad de la compresión irreversible de imágenes en imágenes radiológicas. Documento de posición de la Sociedad Europea de Radiología (ESR)". Insights Imaging . 2 (2): 103–115. doi :10.1007/s13244-011-0071-x. PMC  3259360 . PMID  22347940.
  2. ^ "Compresión de datos". Enciclopedia Británica . Consultado el 13 de agosto de 2019 .
  3. ^ Ahmed, Nasir ; Natarajan, T.; Rao, KR (enero de 1974), "Transformada discreta del coseno", IEEE Transactions on Computers , C-23 (1): 90–93, doi :10.1109/TC.1974.223784, S2CID  149806273
  4. ^ "T.81 – COMPRESIÓN DIGITAL Y CODIFICACIÓN DE IMÁGENES FIJAS DE TONO CONTINUO – REQUISITOS Y DIRECTRICES" (PDF) . CCITT. Septiembre de 1992 . Consultado el 12 de julio de 2019 .
  5. ^ “Aunque uno de los objetivos principales de los codificadores perceptuales de audio digital es la reducción de datos, esta no es una característica necesaria. Como veremos, la codificación perceptual se puede utilizar para mejorar la representación del audio digital mediante la asignación avanzada de bits”. Masking and Perceptual Coding, Victor Lombardi, noisebetweenstations.com
  6. ^ "Nuevas funciones de jpegtran". sylvana.net . Consultado el 20 de septiembre de 2019 .
  7. ^ abcdef Stanković, Radomir S.; Astola, Jaakko T. (2012). "Reminiscencias de los primeros trabajos en DCT: entrevista con KR Rao" (PDF) . Reimpresiones de los primeros días de las ciencias de la información . 60 . Consultado el 13 de octubre de 2019 .
  8. ^ ab KR Rao y JJ Hwang, Técnicas y estándares para codificación de imágenes, vídeo y audio , Prentice Hall, 1996; JPEG: Capítulo 8; H.261: Capítulo 9; MPEG-1: Capítulo 10; MPEG-2: Capítulo 11.
  9. ^ Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Consultado el 14 de julio de 2019 .
  10. ^ Brandenburg, Karlheinz (1999). "MP3 y AAC explicados" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
  11. ^ Darko, John H. (29 de marzo de 2017). "La verdad incómoda sobre el audio Bluetooth". DAR__KO . Archivado desde el original el 14 de enero de 2018. Consultado el 13 de enero de 2018 .
  12. ^ Ford, Jez (24 de agosto de 2015). "¿Qué es Sony LDAC y cómo lo hace?". AVHub . Consultado el 13 de enero de 2018 .
  13. ^ Ford, Jez (22 de noviembre de 2016). "aptX HD: ¿con o sin pérdida?". AVHub . Consultado el 13 de enero de 2018 .
  14. ^ IH WITTEN; et al. "Modelos semánticos y generativos para la compresión de texto con pérdida" (PDF) . The Computer Journal . Consultado el 13 de octubre de 2007 .

Enlaces externos