Compresión con pérdida

En tecnología de la información , la compresión con pérdida o compresión irreversible es la clase de métodos de compresión de datos que utiliza aproximaciones inexactas y descarte parcial de datos para representar el contenido. Estas técnicas se utilizan para reducir el tamaño de los datos para almacenar, manejar y transmitir contenido. Las diferentes versiones de la foto del gato en esta página muestran cómo mayores grados de aproximación crean imágenes más toscas a medida que se eliminan más detalles. Esto se opone a la compresión de datos sin pérdidas (compresión de datos reversible) que no degrada los datos. La cantidad de reducción de datos posible utilizando la compresión con pérdidas es mucho mayor que utilizando técnicas sin pérdidas.

La tecnología de compresión con pérdida bien diseñada a menudo reduce significativamente el tamaño de los archivos antes de que el usuario final note la degradación. Incluso cuando el usuario lo note, puede ser deseable una mayor reducción de datos (por ejemplo, para comunicación en tiempo real o para reducir los tiempos de transmisión o las necesidades de almacenamiento). El algoritmo de compresión con pérdida más utilizado es la transformada de coseno discreta (DCT), publicada por primera vez por Nasir Ahmed , T. Natarajan y KR Rao en 1974.

La compresión con pérdida se utiliza más comúnmente para comprimir datos multimedia ( audio , vídeo e imágenes ), especialmente en aplicaciones como transmisión de medios y telefonía por Internet . Por el contrario, la compresión sin pérdidas suele ser necesaria para archivos de texto y datos, como registros bancarios y artículos de texto. Puede resultar ventajoso crear un archivo maestro sin pérdidas que luego pueda usarse para producir copias adicionales. Esto permite evitar basar nuevas copias comprimidas en un archivo fuente con pérdidas, lo que produciría artefactos adicionales y una mayor pérdida de información innecesaria.

Tipos

Es posible comprimir muchos tipos de datos digitales de manera que se reduzca el tamaño de un archivo de computadora necesario para almacenarlo o el ancho de banda necesario para transmitirlo, sin perder toda la información contenida en el archivo original. Una imagen, por ejemplo, se convierte en un archivo digital considerándola una serie de puntos y especificando el color y el brillo de cada punto. Si la imagen contiene un área del mismo color, se puede comprimir sin pérdida diciendo "200 puntos rojos" en lugar de "punto rojo, punto rojo,... (197 veces más)..., punto rojo".

Los datos originales contienen una cierta cantidad de información y existe un límite inferior en el tamaño del archivo que puede contener toda la información. La teoría básica de la información dice que existe un límite absoluto para reducir el tamaño de estos datos. Cuando los datos se comprimen, su entropía aumenta y no puede aumentar indefinidamente. Por ejemplo, un archivo ZIP comprimido es más pequeño que su original, pero comprimir repetidamente el mismo archivo no reducirá el tamaño a nada. La mayoría de los algoritmos de compresión pueden reconocer cuándo una mayor compresión sería inútil y, de hecho, aumentaría el tamaño de los datos.

En muchos casos, los archivos o flujos de datos contienen más información de la necesaria. Por ejemplo, una imagen puede tener más detalles de los que el ojo puede distinguir cuando se reproduce en el tamaño más grande previsto; Del mismo modo, un archivo de audio no necesita muchos detalles finos durante un pasaje muy ruidoso. Desarrollar técnicas de compresión con pérdida que se ajusten lo más posible a la percepción humana es una tarea compleja. A veces lo ideal es un archivo que proporcione exactamente la misma percepción que el original, con la mayor cantidad de información digital posible eliminada; otras veces, una pérdida perceptible de calidad se considera una compensación válida.

Se prefieren los términos "irreversible" y "reversible" a "con pérdidas" y "sin pérdidas", respectivamente, para algunas aplicaciones, como la compresión de imágenes médicas, para evitar las implicaciones negativas de "pérdida". El tipo y la cantidad de pérdida pueden afectar la utilidad de las imágenes. Los artefactos o efectos indeseables de la compresión pueden ser claramente discernibles y aun así el resultado sigue siendo útil para el propósito previsto. O las imágenes comprimidas con pérdida pueden ser " visualmente sin pérdida " o, en el caso de imágenes médicas, es posible que se haya aplicado la llamada compresión irreversible diagnósticamente aceptable (DAIC) ^{[1] .}

Transformar codificación

Algunas formas de compresión con pérdida pueden considerarse como una aplicación de codificación de transformación , que es un tipo de compresión de datos utilizada para imágenes digitales , señales de audio digitales y vídeos digitales . La transformación se utiliza normalmente para permitir una cuantificación mejor (más específica) . El conocimiento de la aplicación se utiliza para elegir información a descartar, reduciendo así su ancho de banda . La información restante se puede comprimir mediante diversos métodos. Cuando se decodifica la salida, es posible que el resultado no sea idéntico a la entrada original, pero se espera que sea lo suficientemente parecido para el propósito de la aplicación.

La forma más común de compresión con pérdida es un método de codificación por transformada, la transformada de coseno discreta (DCT), ^[2] que fue publicada por primera vez por Nasir Ahmed , T. Natarajan y KR Rao en 1974. ^[3] La DCT es la más utilizada forma de compresión con pérdida, para formatos de compresión de imágenes populares (como JPEG ), ^[4] estándares de codificación de video (como MPEG y H.264/AVC ) y formatos de compresión de audio (como MP3 y AAC ).

En el caso de datos de audio, una forma popular de codificación de transformación es la codificación perceptual , que transforma los datos sin procesar en un dominio que refleja con mayor precisión el contenido de la información. Por ejemplo, en lugar de expresar un archivo de sonido como niveles de amplitud a lo largo del tiempo, se puede expresar como el espectro de frecuencia a lo largo del tiempo, que corresponde con mayor precisión a la percepción de audio humana. Si bien la reducción de datos (compresión, ya sea con o sin pérdidas) es un objetivo principal de la codificación de transformación, también permite otros objetivos: uno puede representar datos con mayor precisión para la cantidad de espacio original ^[5] ; por ejemplo, en principio, si comienza con un master analógico o digital de alta resolución , un archivo MP3 de un tamaño determinado debería proporcionar una mejor representación que un audio sin comprimir en formato WAV o AIFF del mismo tamaño. Esto se debe a que el audio sin comprimir solo puede reducir el tamaño del archivo al reducir la velocidad de bits o la profundidad, mientras que la compresión de audio puede reducir el tamaño manteniendo la velocidad de bits y la profundidad. Esta compresión se convierte en una pérdida selectiva de los datos menos significativos, en lugar de perder datos en todos los ámbitos. Además, una codificación de transformación puede proporcionar un mejor dominio para manipular o editar los datos; por ejemplo, la ecualización del audio se expresa más naturalmente en el dominio de la frecuencia (aumenta los graves, por ejemplo) en lugar de en el dominio del tiempo sin procesar.

Desde este punto de vista, la codificación perceptual no se trata esencialmente de descartar datos, sino más bien de una mejor representación de los datos. Otro uso es para compatibilidad con versiones anteriores y degradación elegante : en la televisión en color, codificar el color mediante un dominio de transformación de luminancia - crominancia (como YUV ) significa que los conjuntos en blanco y negro muestran la luminancia, ignorando la información de color. Otro ejemplo es el submuestreo de croma : el uso de espacios de color como YIQ , utilizado en NTSC , permite reducir la resolución de los componentes para adaptarlos a la percepción humana: los humanos tienen la resolución más alta para blanco y negro (luma), la resolución más baja para colores de espectro medio como amarillo y verde, y el más bajo para rojo y azul; por lo tanto, NTSC muestra aproximadamente 350 píxeles de luma por línea de exploración , 150 píxeles de amarillo frente a verde y 50 píxeles de azul frente a rojo, que son proporcionales al espectro humano. sensibilidad a cada componente.

Pérdida de información

Los formatos de compresión con pérdida sufren pérdida de generación : comprimir y descomprimir repetidamente el archivo hará que pierda calidad progresivamente. Esto contrasta con la compresión de datos sin pérdidas , donde los datos no se perderán mediante el uso de dicho procedimiento. Los fundamentos teóricos de la información para la compresión de datos con pérdida los proporciona la teoría de la distorsión de la velocidad . Al igual que el uso de la probabilidad en la teoría de la codificación óptima, la teoría de la distorsión de la tasa se basa en gran medida en la estimación bayesiana y la teoría de la decisión para modelar la distorsión perceptiva e incluso el juicio estético .

Hay dos esquemas básicos de compresión con pérdidas:

En los códecs de transformación con pérdida , se toman muestras de imagen o sonido, se cortan en pequeños segmentos, se transforman en un nuevo espacio base y se cuantifican . Los valores cuantificados resultantes se codifican luego mediante entropía .
En los códecs predictivos con pérdida , los datos decodificados anteriores y/o posteriores se utilizan para predecir la muestra de sonido o el cuadro de imagen actual. Luego se cuantifica y codifica el error entre los datos predichos y los datos reales, junto con cualquier información adicional necesaria para reproducir la predicción .

En algunos sistemas se combinan las dos técnicas, utilizándose códecs de transformación para comprimir las señales de error generadas por la etapa predictiva.

Comparación

La ventaja de los métodos con pérdida sobre los métodos sin pérdida es que, en algunos casos, un método con pérdida puede producir un archivo comprimido mucho más pequeño que cualquier método sin pérdida, sin dejar de cumplir con los requisitos de la aplicación. Los métodos con pérdida se utilizan con mayor frecuencia para comprimir sonido, imágenes o vídeos. Esto se debe a que este tipo de datos están destinados a la interpretación humana, donde la mente puede "llenar los espacios en blanco" fácilmente o ver más allá de errores o inconsistencias muy menores; idealmente, la compresión con pérdidas es transparente (imperceptible), lo que se puede verificar mediante una prueba ABX . Los archivos de datos que utilizan compresión con pérdida son de menor tamaño y, por lo tanto, cuestan menos almacenarlos y transmitirlos a través de Internet, una consideración crucial para los servicios de transmisión de video como Netflix y los servicios de transmisión de audio como Spotify .

Efectos emocionales

Un estudio realizado por la Audio Engineering Library concluyó que los formatos de compresión con pérdida de velocidad de bits más baja (112 kbps), como los MP3, tienen distintos efectos sobre las características tímbricas y emocionales, tendiendo a fortalecer las cualidades emocionales negativas y debilitar las positivas. ^[6] El estudio señaló además que la trompeta es el instrumento más afectado por la compresión, mientras que el cuerno es el menos afectado.

Transparencia

Cuando un usuario adquiere un archivo comprimido con pérdidas (por ejemplo, para reducir el tiempo de descarga), el archivo recuperado puede ser bastante diferente del original a nivel de bits y, al mismo tiempo, ser indistinguible para el oído o el ojo humano para la mayoría de los fines prácticos. Muchos métodos de compresión se centran en las idiosincrasias de la fisiología humana , teniendo en cuenta, por ejemplo, que el ojo humano sólo puede ver determinadas longitudes de onda de luz. El modelo psicoacústico describe cómo el sonido puede comprimirse mucho sin degradar la calidad percibida. Los defectos causados por la compresión con pérdidas que son perceptibles para el ojo o el oído humanos se conocen como artefactos de compresión .

Índice de compresión

La relación de compresión (es decir, el tamaño del archivo comprimido comparado con el del archivo sin comprimir) de los códecs de vídeo con pérdida es casi siempre muy superior a la de los equivalentes de audio e imágenes fijas.

El vídeo se puede comprimir enormemente (por ejemplo, 100:1) con poca pérdida de calidad visible.
El audio a menudo se puede comprimir a 10:1 con una pérdida de calidad casi imperceptible.
Las imágenes fijas a menudo se comprimen con pérdidas a 10:1, como ocurre con el audio, pero la pérdida de calidad es más notable, especialmente en una inspección más cercana.

Transcodificación y edición

Una advertencia importante sobre la compresión con pérdida (formalmente transcodificación) es que la edición de archivos comprimidos con pérdida provoca una pérdida de generación digital debido a la recodificación. Esto se puede evitar produciendo únicamente archivos con pérdida a partir de originales (sin pérdida) y editando (copias de) archivos originales únicamente, como imágenes en formato de imagen sin formato en lugar de JPEG . Si los datos que se han comprimido con pérdidas se decodifican y se comprimen sin pérdidas, el tamaño del resultado puede ser comparable con el tamaño de los datos antes de la compresión con pérdidas, pero los datos que ya se perdieron no se pueden recuperar. Al decidir utilizar la conversión con pérdida sin conservar el original, es posible que en el futuro sea necesaria la conversión de formato para lograr compatibilidad con software o dispositivos ( cambio de formato ), o para evitar pagar regalías de patente por la decodificación o distribución de archivos comprimidos.

Edición de archivos con pérdida

Al modificar los datos comprimidos directamente sin decodificarlos ni volverlos a codificar, es posible editar archivos comprimidos con pérdidas sin degradar la calidad. A veces también es posible realizar una edición que reduce el tamaño del archivo como si se hubiera comprimido en mayor medida, pero sin mayor pérdida que esta.

JPEG

Los principales programas para la edición de archivos JPEG sin pérdidas son jpegtran, and the derive exiftran(que también conserva la información Exif ) y Jpegcrop (que proporciona una interfaz de Windows).

Estos permiten recortar , rotar, voltear y voltear la imagen , o incluso convertirla a escala de grises (eliminando el canal de crominancia ). Aunque se destruye la información no deseada, la calidad de la parte restante no cambia.

Algunas otras transformaciones son posibles hasta cierto punto, como unir imágenes con la misma codificación (componer una al lado de la otra, como en una cuadrícula) o pegar imágenes como logotipos en imágenes existentes (ambas a través de Jpegjoin) o escalar. ^[7]

Se pueden realizar algunos cambios en la compresión sin volver a codificar:

Optimización de la compresión (para reducir el tamaño sin cambiar la imagen decodificada)
Conversión entre codificación progresiva y no progresiva.

El software gratuito IrfanView, exclusivo para Windows, tiene algunas operaciones JPEG sin pérdidas en su JPG_TRANSFORM complemento .

Metadatos

Los metadatos, como las etiquetas ID3 , los comentarios Vorbis o la información Exif , normalmente se pueden modificar o eliminar sin modificar los datos subyacentes.

Escalabilidad de representación comprimida/reducción de resolución

Es posible que desee reducir la resolución o disminuir la resolución de la señal fuente representada y la cantidad de datos utilizados para su representación comprimida sin volver a codificar, como en el pelado de velocidad de bits , pero esta funcionalidad no es compatible con todos los diseños, ya que no todos los códecs codifican. datos en una forma que permita simplemente eliminar detalles menos importantes. Algunos diseños conocidos que tienen esta capacidad incluyen JPEG 2000 para imágenes fijas y codificación de vídeo escalable basada en H.264/MPEG-4 AVC para vídeo. Dichos esquemas también se han estandarizado para diseños más antiguos, como imágenes JPEG con codificación progresiva y video MPEG-2 y MPEG-4 Parte 2 , aunque esos esquemas anteriores tuvieron un éxito limitado en términos de adopción en el uso común del mundo real. Sin esta capacidad, que suele ser el caso en la práctica, para producir una representación con menor resolución o menor fidelidad que una determinada, es necesario comenzar con la señal fuente original y codificarla, o comenzar con una representación comprimida y luego descomprimirla y volver a codificarla. -codificarlo ( transcodificación ), aunque esto último tiende a causar pérdida de generación digital .

Otro enfoque es codificar la señal original a varias velocidades de bits diferentes y luego elegir cuál usar (como cuando se transmite por Internet, como en "SureStream" de RealNetworks , u se ofrecen diferentes descargas, como en iTunes Store de Apple ), o transmitir varios, donde se utiliza lo mejor que se recibe con éxito, como en varias implementaciones de modulación jerárquica . Se utilizan técnicas similares en mapas MIP , representaciones piramidales y métodos espaciales de escala más sofisticados . Algunos formatos de audio presentan una combinación de un formato con pérdida y una corrección sin pérdida que, cuando se combinan, reproducen la señal original; la corrección se puede eliminar, dejando un archivo más pequeño y comprimido con pérdidas. Dichos formatos incluyen MPEG-4 SLS (escalable a sin pérdidas), WavPack , OptimFROG DualStream y DTS-HD Master Audio en modo sin pérdidas (XLL) .

Métodos

Gráficos

Imagen

Transformada de coseno discreta (DCT)
- JPEG ^[8]
- WebP (compresión con pérdida o sin pérdida de alta densidad de imágenes RGB y RGBA)
- Formato de imagen de alta eficiencia (HEIF)
- Mejores gráficos portátiles (BPG) (compresión con o sin pérdida)
- JPEG XR , un sucesor de JPEG compatible con formatos de píxeles de gama amplia y alto rango dinámico (compresión con o sin pérdida)
Compresión de ondas
- JPEG 2000 , el formato sucesor de JPEG que utiliza wavelets (compresión con o sin pérdidas)
- DjVu
- ICER , utilizado por los Mars Rovers, relacionado con JPEG 2000 en su uso de wavelets
- PGF , archivo de gráficos progresivos (compresión con o sin pérdida)
Compresión perceptiva cartesiana , también conocida como CPC
Compresión fractal
JBIG2 (compresión sin pérdidas o con pérdidas)
Compresión de texturas S3TC para hardware de gráficos por computadora 3D

gráficos por computadora en 3D

glTF

Video

Transformada de coseno discreta (DCT)
- H.261 ^[8]
- JPEG en movimiento ^[8]
- MPEG-1 Parte 2 ^[9]
- MPEG-2 Parte 2 (H.262) ^[9]
- MPEG-4 Parte 2 ( H.263 ) ^[8]
- Codificación de vídeo avanzada (AVC/H.264/ MPEG-4 AVC) ^[8] (también puede ser sin pérdidas, incluso en determinadas secciones de vídeo)
- Codificación de vídeo de alta eficiencia (HEVC/H.265) ^[8]
- Ogg Theora (conocido por su falta de restricciones de patentes)
- VC-1
Compresión de ondas
- JPEG en movimiento 2000
- Dirac
Códec de vídeo Sorenson

Audio

General

Transformada de coseno discreta modificada (MDCT)
- Dolby Digital (AC-3)
- Codificación acústica de transformación adaptativa (ATRAC)
- MPEG Capa III (MP3) ^[10]
- Codificación de audio avanzada ( audio AAC / MP4 ) ^[11]
- Vorbis
- Windows Media Audio (WMA) (los perfiles Estándar y Pro tienen pérdidas. WMA Lossless también está disponible).
- LDAC ^[12]^[13]
- Opus (Notable por la falta de restricciones de patentes, bajo retraso y alta calidad de voz y audio general).
Modulación diferencial adaptativa de código de impulsos (ADPCM)
- Calidad maestra autenticada (MQA)
Capa de audio MPEG-1 II (MP2)
Musepack (basado en Musicam)
aptX/aptX-HD ^[14]

Discurso

Codificación predictiva lineal (LPC)
- Codificación predictiva adaptativa (APC)
- Predicción lineal excitada por código (CELP)
- Predicción lineal excitada por código algebraico (ACELP)
- Predicción lineal excitada por código relajado (RCELP)
- CELP de bajo retardo (LD-CELP)
- Multitasa adaptativa (utilizada en GSM y 3GPP )
- Codec2 (destacado por su falta de restricciones de patentes)
- Speex (conocido por su falta de restricciones de patentes)
Transformada de coseno discreta modificada (MDCT)
- AAC-LD
- Transformada superpuesta de energía restringida (CELT)
- Opus (principalmente para aplicaciones en tiempo real)

Otros datos

Los investigadores han realizado compresión de texto con pérdida mediante el uso de un diccionario de sinónimos para sustituir palabras largas por palabras cortas o técnicas de texto generativo , ^[15] aunque estas a veces caen en la categoría relacionada de conversión de datos con pérdida .

Bajando la resolución

Un tipo general de compresión con pérdida consiste en reducir la resolución de una imagen, como en el escalado de imágenes , en particular el diezmado . También se pueden eliminar partes de una imagen con menos "información inferior", como mediante el tallado de costuras . Muchas transformaciones de medios, como el desenfoque gaussiano , son, al igual que la compresión con pérdida, irreversibles: la señal original no se puede reconstruir a partir de la señal transformada. Sin embargo, en general estos tendrán el mismo tamaño que el original y no son una forma de compresión. Reducir la resolución tiene usos prácticos, ya que la nave New Horizons de la NASA transmitió miniaturas de su encuentro con Plutón-Caronte antes de enviar imágenes de mayor resolución. Otra solución para conexiones lentas es el uso de entrelazado de imágenes que define progresivamente la imagen. Así, una transmisión parcial es suficiente para previsualizar la imagen final, en una versión de menor resolución, sin crear una versión escalada y también completa. ^[^{cita necesaria}^]

Ver también

Notas

^ Sociedad Europea de Radiología (2011). "Usabilidad de la compresión de imágenes irreversible en imágenes radiológicas. Un documento de posición de la Sociedad Europea de Radiología (ESR)". Imágenes de conocimientos . 2 (2): 103–115. doi :10.1007/s13244-011-0071-x. PMC 3259360 . PMID 22347940.
^ "Compresión de datos". Enciclopedia Británica . Consultado el 13 de agosto de 2019 .
^ Ahmed, Nasir ; Natarajan, T.; Rao, KR (enero de 1974), "Transformada de coseno discreta", IEEE Transactions on Computers , C-23 (1): 90–93, doi :10.1109/TC.1974.223784, S2CID 149806273
^ "T.81 - COMPRESIÓN DIGITAL Y CODIFICACIÓN DE IMÁGENES FIJAS DE TONOS CONTINUOS - REQUISITOS Y DIRECTRICES" (PDF) . CCITT. Septiembre de 1992 . Consultado el 12 de julio de 2019 .
^ “Aunque uno de los objetivos principales de los codificadores perceptivos de audio digital es la reducción de datos, esta no es una característica necesaria. Como veremos, la codificación perceptiva se puede utilizar para mejorar la representación del audio digital mediante la asignación avanzada de bits”. Enmascaramiento y codificación perceptual, Victor Lombardi, noisebetweenstations.com
^ Svetlik, Joe (5 de diciembre de 2016). "Los MP3 te hacen menos feliz, según un estudio". ¿Qué Hola Fi? . Consultado el 17 de diciembre de 2018 .
^ "Nuevas funciones de jpegtran". sylvana.net . Consultado el 20 de septiembre de 2019 .
^ abcdef Stanković, Radomir S.; Astola, Jaakko T. (2012). "Reminiscencias de los primeros trabajos en DCT: entrevista con KR Rao" (PDF) . Reimpresiones de los primeros días de las ciencias de la información . 60 . Consultado el 13 de octubre de 2019 .
^ ab KR Rao y JJ Hwang, Técnicas y estándares para codificación de imágenes, vídeo y audio , Prentice Hall, 1996; JPEG: Capítulo 8; H.261: Capítulo 9; MPEG-1: Capítulo 10; MPEG-2: Capítulo 11.
^ Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Consultado el 14 de julio de 2019 .
^ Brandeburgo, Karlheinz (1999). "Explicación de MP3 y AAC" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
^ Darko, John H. (29 de marzo de 2017). "La incómoda verdad sobre el audio Bluetooth". DAR__KO . Archivado desde el original el 14 de enero de 2018 . Consultado el 13 de enero de 2018 .
^ Ford, Jez (24 de agosto de 2015). "¿Qué es Sony LDAC y cómo lo hace?". AVHub . Consultado el 13 de enero de 2018 .
^ Ford, Jez (22 de noviembre de 2016). "aptX HD: ¿sin pérdidas o con pérdidas?". AVHub . Consultado el 13 de enero de 2018 .
^ IH ESCRITO; et al. "Modelos semánticos y generativos para la compresión de texto con pérdida" (PDF) . La revista informática . Consultado el 13 de octubre de 2007 .

enlaces externos

Formatos de audio con pérdida, comparando la velocidad y la fuerza de compresión de cinco formatos de audio con pérdida.
Conceptos básicos de compresión de datos, incluidos capítulos sobre compresión con pérdida de imágenes, audio y video.
Compresión de imágenes PNG con pérdida en Wayback Machine (archivado el 3 de octubre de 2005)
Uso de compresión GIF/PNG con pérdida para la web (artículo)
JPG para archivar, comparando la idoneidad de JPG y la compresión sin pérdidas para archivos de imágenes
Herramienta de compresión de imágenes JPG, Jpg, Png