stringtranslate.com

Transformada de coseno discreta

Una transformada de coseno discreta ( DCT ) expresa una secuencia finita de puntos de datos en términos de una suma de funciones coseno que oscilan a diferentes frecuencias . La DCT, propuesta por primera vez por Nasir Ahmed en 1972, es una técnica de transformación ampliamente utilizada en el procesamiento de señales y la compresión de datos . Se utiliza en la mayoría de los medios digitales , incluidas imágenes digitales (como JPEG y HEIF ), vídeo digital (como MPEG y H.26x ), audio digital (como Dolby Digital , MP3 y AAC ), televisión digital (como SDTV). , HDTV y VOD ), radio digital (como AAC+ y DAB+ ) y codificación de voz (como AAC-LD , Siren y Opus ). Las DCT también son importantes para muchas otras aplicaciones en ciencia e ingeniería , como el procesamiento de señales digitales , dispositivos de telecomunicaciones , reducción del uso del ancho de banda de la red y métodos espectrales para la solución numérica de ecuaciones diferenciales parciales .

Una DCT es una transformada relacionada con Fourier similar a la transformada discreta de Fourier (DFT), pero que utiliza solo números reales . Las DCT generalmente están relacionadas con coeficientes de la serie de Fourier de una secuencia extendida periódica y simétricamente, mientras que las DFT están relacionadas con coeficientes de la serie de Fourier de secuencias extendidas solo periódicamente. Las DCT son equivalentes a DFT de aproximadamente el doble de longitud y operan con datos reales con simetría par (ya que la transformada de Fourier de una función real e par es real y par), mientras que en algunas variantes los datos de entrada o salida se desplazan media muestra. .

Hay ocho variantes estándar de DCT, de las cuales cuatro son comunes. La variante más común de la transformada de coseno discreta es la DCT de tipo II, que a menudo se denomina simplemente DCT . Este fue el DCT original propuesto por primera vez por Ahmed. Su inversa, la DCT de tipo III, a menudo se denomina simplemente DCT inversa o IDCT . Dos transformaciones relacionadas son la transformada de seno discreta (DST), que es equivalente a una DFT de funciones reales e impares , y la transformada de coseno discreta modificada (MDCT), que se basa en una DCT de datos superpuestos. Las DCT multidimensionales (MD DCT) se desarrollan para extender el concepto de DCT a señales multidimensionales. Se han desarrollado una variedad de algoritmos rápidos para reducir la complejidad computacional de la implementación de DCT. Uno de ellos es el DCT entero (IntDCT), [1] una aproximación entera del estándar DCT, [2] : ix, xiii, 1, 141–304  utilizado en varios estándares internacionales ISO/IEC y ITU-T . [1] [2]

La compresión DCT, también conocida como compresión de bloques, comprime datos en conjuntos de bloques DCT discretos. [3] Tamaños de bloques DCT que incluyen 8x8 píxeles para el DCT estándar y tamaños de DCT enteros variados entre 4x4 y 32x32 píxeles. [1] [4] El DCT tiene una fuerte propiedad de compactación de energía , [5] [6] capaz de lograr alta calidad con altos índices de compresión de datos . [7] [8] Sin embargo, pueden aparecer artefactos de compresión en bloques cuando se aplica una compresión DCT intensa.

Historia

El DCT fue concebido por primera vez por Nasir Ahmed , T. Natarajan y KR Rao mientras trabajaban en la Universidad Estatal de Kansas . El concepto fue propuesto a la Fundación Nacional de Ciencias en 1972. Originalmente, el DCT estaba destinado a la compresión de imágenes . [9] [1] Ahmed desarrolló un algoritmo DCT práctico con sus estudiantes de doctorado T. Raj Natarajan, Wills Dietrich y Jeremy Fries, y su amigo el Dr. KR Rao en la Universidad de Texas en Arlington en 1973. [9] Presentaron sus resultados en un artículo de enero de 1974, titulado Discrete Cosine Transform . [5] [6] [10] Describió lo que ahora se llama DCT tipo II (DCT-II), [2] : 51  así como el DCT inverso tipo III (IDCT). [5]

Desde su introducción en 1974, se han realizado importantes investigaciones sobre la DCT. [10] En 1977, Wen-Hsiung Chen publicó un artículo con C. Harrison Smith y Stanley C. Fralick presentando un algoritmo DCT rápido. [11] [10] Otros desarrollos incluyen un artículo de 1978 de MJ Narasimha y AM Peterson, y un artículo de 1984 de BG Lee. [10] Estos artículos de investigación, junto con el artículo original de Ahmed de 1974 y el artículo de Chen de 1977, fueron citados por el Joint Photographic Experts Group como base para el algoritmo de compresión de imágenes con pérdida de JPEG en 1992. [10] [12]

La transformada sinusoidal discreta (DST) se derivó de la DCT, reemplazando la condición de Neumann en x=0 con una condición de Dirichlet . [2] : 35-36  El DST fue descrito en el artículo DCT de 1974 por Ahmed, Natarajan y Rao. [5] Anil K. Jain describió más tarde una DST de tipo I (DST-I) en 1976, y HB Kekra y JK Solanka describieron una DST de tipo II (DST-II) en 1978. [13]

En 1975, John A. Roese y Guner S. Robinson adaptaron el DCT para la codificación de vídeo con compensación de movimiento entre cuadros . Experimentaron con la DCT y la transformada rápida de Fourier (FFT), desarrollando codificadores híbridos entre cuadros para ambas, y descubrieron que la DCT es la más eficiente debido a su complejidad reducida, capaz de comprimir datos de imágenes hasta 0,25 bits por píxel . para una escena de videoteléfono con una calidad de imagen comparable a la de un codificador intracuadro que requiere 2 bits por píxel. [14] [15] En 1979, Anil K. Jain y Jaswant R. Jain desarrollaron aún más la compresión de video DCT con compensación de movimiento, [16] [17] también llamada compensación de movimiento en bloque. [17] Esto llevó a Chen a desarrollar un algoritmo práctico de compresión de video, llamado DCT con compensación de movimiento o codificación de escena adaptativa, en 1981. [17] La ​​DCT con compensación de movimiento se convirtió más tarde en la técnica de codificación estándar para la compresión de video desde finales de la década de 1980 en adelante. [18] [19]

John P. Princen, AW Johnson y Alan B. Bradley desarrollaron una variante de DCT, la transformada de coseno discreta modificada (MDCT), en la Universidad de Surrey en 1987, [20] siguiendo trabajos anteriores de Princen y Bradley en 1986 . 21] La MDCT se utiliza en la mayoría de los formatos de compresión de audio modernos , como Dolby Digital (AC-3), [22] [23] MP3 (que utiliza un algoritmo híbrido DCT- FFT ), [24] Codificación de audio avanzada (AAC) , [25] y Vorbis ( Ogg ). [26]

Nasir Ahmed también desarrolló un algoritmo DCT sin pérdidas con Giridhar Mandyam y Neeraj Magotra en la Universidad de Nuevo México en 1995. Esto permite utilizar la técnica DCT para la compresión de imágenes sin pérdidas. Es una modificación del algoritmo DCT original, e incorpora elementos de DCT inversa y modulación delta . Es un algoritmo de compresión sin pérdidas más eficaz que la codificación entrópica . [27] La ​​DCT sin pérdidas también se conoce como LDCT. [28]

Aplicaciones

La DCT es la técnica de transformación más utilizada en el procesamiento de señales , [29] y, con diferencia, la transformada lineal más utilizada en la compresión de datos . [30] Los medios digitales sin comprimir , así como la compresión sin pérdidas , tienen altos requisitos de memoria y ancho de banda , lo que se reduce significativamente mediante la técnica de compresión con pérdidas DCT, [7] [8] capaz de lograr relaciones de compresión de datos de 8:1 a 14:1 para calidad cercana al estudio, [7] hasta 100:1 para contenido de calidad aceptable. [8] Los estándares de compresión DCT se utilizan en tecnologías de medios digitales, como imágenes digitales , fotografías digitales , [31] [32] video digital , [18] [33] medios de transmisión por secuencias , [34] televisión digital , televisión por secuencias , video en demanda (VOD), [8] cine digital , [22] vídeo de alta definición (vídeo HD) y televisión de alta definición (HDTV). [7] [35]

El DCT, y en particular el DCT-II, se utiliza a menudo en el procesamiento de señales e imágenes, especialmente para la compresión con pérdidas, porque tiene una fuerte propiedad de compactación de energía . [5] [6] En aplicaciones típicas, la mayor parte de la información de la señal tiende a concentrarse en unos pocos componentes de baja frecuencia del DCT. Para procesos de Markov fuertemente correlacionados , la DCT puede acercarse a la eficiencia de compactación de la transformada de Karhunen-Loève (que es óptima en el sentido de descorrelación). Como se explica a continuación, esto se debe a las condiciones de frontera implícitas en las funciones cosenos.

Las DCT se emplean ampliamente para resolver ecuaciones diferenciales parciales mediante métodos espectrales , donde las diferentes variantes de la DCT corresponden a condiciones de contorno pares e impares ligeramente diferentes en los dos extremos de la matriz.

Los DCT están estrechamente relacionados con los polinomios de Chebyshev , y los algoritmos DCT rápidos (a continuación) se utilizan en la aproximación de Chebyshev de funciones arbitrarias mediante series de polinomios de Chebyshev, por ejemplo en la cuadratura de Clenshaw-Curtis .

Aplicaciones generales

La DCT se utiliza ampliamente en muchas aplicaciones, entre las que se incluyen las siguientes.

Estándares de medios visuales

El DCT-II es una importante técnica de compresión de imágenes. Se utiliza en estándares de compresión de imágenes como JPEG y estándares de compresión de vídeo como H.26x , MJPEG , MPEG , DV , Theora y Daala . Allí, se calcula el DCT-II bidimensional de bloques y los resultados se cuantifican y codifican entropía . En este caso, normalmente es 8 y la fórmula DCT-II se aplica a cada fila y columna del bloque. El resultado es una matriz de coeficientes de transformación de 8 × 8 en la que el elemento (arriba a la izquierda) es el componente DC (frecuencia cero) y las entradas con valores de índice vertical y horizontal crecientes representan frecuencias espaciales verticales y horizontales más altas.

El DCT entero, una aproximación entera del DCT, [2] [1] se utiliza en la codificación de vídeo avanzada (AVC), [52] [1] introducida en 2003, y en la codificación de vídeo de alta eficiencia (HEVC), [4] [ 1] introducido en 2013. El DCT entero también se utiliza en el formato de imagen de alta eficiencia (HEIF), que utiliza un subconjunto del formato de codificación de vídeo HEVC para codificar imágenes fijas. [4] AVC utiliza bloques de 4 x 4 y 8 x 8. HEVC y HEIF utilizan tamaños de bloque variados entre 4 x 4 y 32 x 32 píxeles . [4] [1] A partir de 2019 , AVC es, con diferencia, el formato más utilizado para la grabación, compresión y distribución de contenido de vídeo, utilizado por el 91% de los desarrolladores de vídeo, seguido de HEVC, que es utilizado por el 43% de los desarrolladores. [43]

Formatos de imagen

Formatos de vídeo

Estándares de audio MDCT

Audio general

codificación de voz

MD DCT

Las DCT multidimensionales (MD DCT) tienen varias aplicaciones, principalmente DCT 3-D, como la DCT 3-D-II, que tiene varias aplicaciones nuevas, como sistemas de codificación de imágenes hiperespectrales, [ 85] codificación DCT 3-D de longitud temporal variable, [86 ] algoritmos de codificación de vídeo , [87] codificación de vídeo adaptativa [88] y compresión 3-D. [89] Debido a las mejoras en el hardware, el software y la introducción de varios algoritmos rápidos, la necesidad de utilizar MD DCT está aumentando rápidamente. DCT-IV ha ganado popularidad por sus aplicaciones en la implementación rápida de bancos de filtrado polifásicos de valor real, [90] transformadas ortogonales superpuestas [91] [92] y bases wavelet moduladas en coseno. [93]

Procesamiento de señales digitales

DCT juega un papel muy importante en el procesamiento de señales digitales . Utilizando el DCT, las señales se pueden comprimir. La DCT se puede utilizar en electrocardiografía para la compresión de señales de ECG. DCT2 proporciona una mejor relación de compresión que DCT.

El DCT se implementa ampliamente en procesadores de señales digitales (DSP), así como en software de procesamiento de señales digitales. Muchas empresas han desarrollado DSP basados ​​en tecnología DCT. Los DCT se utilizan ampliamente para aplicaciones como codificación , decodificación, vídeo, audio, multiplexación , señales de control, señalización y conversión de analógico a digital . Los DCT también se utilizan comúnmente para chips codificadores/decodificadores de televisión de alta definición (HDTV) . [1]

Artefactos de compresión

Un problema común con la compresión DCT en medios digitales son los artefactos de compresión en bloques , [94] causados ​​por bloques DCT. [3] El algoritmo DCT puede provocar artefactos basados ​​en bloques cuando se aplica una compresión intensa. Debido a que DCT se utiliza en la mayoría de los estándares de codificación de imágenes y vídeos digitales (como los formatos JPEG , H.26x y MPEG ), los artefactos de compresión en bloques basados ​​en DCT están muy extendidos en los medios digitales . En un algoritmo DCT, una imagen (o fotograma en una secuencia de imágenes) se divide en bloques cuadrados que se procesan independientemente unos de otros, luego se toma la DCT de estos bloques y se cuantifican los coeficientes DCT resultantes . Este proceso puede causar artefactos de bloqueo, principalmente en índices de compresión de datos altos . [94] Esto también puede causar el efecto " ruido de mosquito ", que se encuentra comúnmente en videos digitales (como los formatos MPEG). [95]

Los bloques DCT se utilizan a menudo en glitch art . [3] La artista Rosa Menkman hace uso de artefactos de compresión basados ​​en DCT en su arte glitch, [96] particularmente los bloques DCT que se encuentran en la mayoría de los formatos de medios digitales , como imágenes digitales JPEG y audio digital MP3 . [3] Otro ejemplo es Jpegs del fotógrafo alemán Thomas Ruff , que utiliza artefactos JPEG intencionales como base del estilo de la imagen. [97] [98]

Resumen informal

Como cualquier transformada relacionada con Fourier, las transformadas discretas de coseno (DCT) expresan una función o una señal en términos de una suma de sinusoides con diferentes frecuencias y amplitudes . Al igual que la transformada discreta de Fourier (DFT), una DCT opera sobre una función en un número finito de puntos de datos discretos. La distinción obvia entre un DCT y un DFT es que el primero usa solo funciones cosenos, mientras que el segundo usa cosenos y senos (en forma de exponenciales complejas ). Sin embargo, esta diferencia visible es simplemente una consecuencia de una distinción más profunda: una DCT implica condiciones de contorno diferentes a las de la DFT u otras transformaciones relacionadas.

Se puede considerar que las transformadas relacionadas con Fourier que operan sobre una función en un dominio finito , como la DFT o DCT o una serie de Fourier , definen implícitamente una extensión de esa función fuera del dominio. Es decir, una vez que escribe una función como una suma de sinusoides, puede evaluar esa suma en cualquier punto , incluso cuando no se especificó la original . La DFT, al igual que la serie de Fourier, implica una extensión periódica de la función original. Una DCT, como una transformada de coseno , implica una extensión uniforme de la función original.

Ilustración de las extensiones implícitas pares/impares de los datos de entrada DCT, para N = 11 puntos de datos (puntos rojos), para los cuatro tipos más comunes de DCT (tipos I-IV). Tenga en cuenta las diferencias sutiles en las interfaces entre los datos y las extensiones: en DCT-II y DCT-IV, ambos puntos finales se replican en las extensiones, pero no en DCT-I o DCT-III (y se inserta un punto cero en el extensión de inversión de signos en DCT-III).

Sin embargo, debido a que las DCT operan en secuencias finitas y discretas , surgen dos problemas que no se aplican a la transformada coseno continua. Primero, hay que especificar si la función es par o impar en los límites izquierdo y derecho del dominio (es decir, los límites mínimo- n y máximo- n en las definiciones siguientes, respectivamente). En segundo lugar, hay que especificar alrededor de qué punto la función es par o impar. En particular, considere una secuencia abcd de cuatro puntos de datos igualmente espaciados y digamos que especificamos un límite izquierdo par . Hay dos posibilidades sensatas: o los datos son pares sobre la muestra a , en cuyo caso la extensión par es dcbabcd , o los datos son pares sobre el punto medio entre a y el punto anterior, en cuyo caso la extensión par es dcbaabcd ( se repite a ).

Estas opciones conducen a todas las variaciones estándar de DCT y también a transformadas sinusoidales discretas (DST). Cada límite puede ser par o impar (2 opciones por límite) y puede ser simétrico con respecto a un punto de datos o al punto medio entre dos puntos de datos (2 opciones por límite), para un total de 2 × 2 × 2 × 2 = 16 posibilidades. La mitad de estas posibilidades, aquellas donde el límite izquierdo es par, corresponden a los 8 tipos de DCT; la otra mitad son los 8 tipos de horario de verano.

Estas diferentes condiciones de contorno afectan fuertemente las aplicaciones de la transformada y conducen a propiedades excepcionalmente útiles para los distintos tipos de DCT. Más directamente, cuando se utilizan transformadas relacionadas con Fourier para resolver ecuaciones diferenciales parciales mediante métodos espectrales , las condiciones de contorno se especifican directamente como parte del problema que se resuelve. O, para la MDCT (basada en la DCT de tipo IV), las condiciones de contorno están íntimamente involucradas en la propiedad crítica de la MDCT de cancelación de alias en el dominio del tiempo. De una manera más sutil, las condiciones de contorno son responsables de las propiedades de "compactación de energía" que hacen que las DCT sean útiles para la compresión de imágenes y audio, porque los límites afectan la tasa de convergencia de cualquier serie tipo Fourier.

En particular, es bien sabido que cualquier discontinuidad en una función reduce la tasa de convergencia de la serie de Fourier, por lo que se necesitan más sinusoides para representar la función con una precisión determinada. El mismo principio rige la utilidad de la DFT y otras transformadas para la compresión de señales; cuanto más fluida es una función, menos términos en su DFT o DCT se requieren para representarla con precisión y más se puede comprimir. (Aquí, pensamos en la DFT o DCT como aproximaciones para la serie de Fourier o la serie coseno de una función, respectivamente, para hablar de su "suavidad".) Sin embargo, la periodicidad implícita de la DFT significa que las discontinuidades generalmente ocurren en los límites: es poco probable que cualquier segmento aleatorio de una señal tenga el mismo valor en los límites izquierdo y derecho. (Surge un problema similar para la DST, en la que la condición de frontera izquierda impar implica una discontinuidad para cualquier función que no sea cero en esa frontera). Por el contrario, una DCT donde ambas fronteras son pares siempre produce una extensión continua en los límites (aunque la pendiente es generalmente discontinua). Esta es la razón por la que los DCT, y en particular los DCT de tipos I, II, V y VI (los tipos que tienen dos límites pares) generalmente funcionan mejor para la compresión de señales que los DFT y DST. En la práctica, normalmente se prefiere una DCT de tipo II para tales aplicaciones, en parte por razones de conveniencia computacional.

Definicion formal

Formalmente, la transformada discreta del coseno es una función lineal e invertible (donde denota el conjunto de números reales ), o equivalentemente una matriz cuadrada invertible N × N. Existen varias variantes de la DCT con definiciones ligeramente modificadas. Los N números reales se transforman en N números reales según una de las fórmulas:

DCT-I

Algunos autores multiplican aún más los términos y por y multiplican correspondientemente los términos y por lo que hace que la matriz DCT-I sea ortogonal , si se multiplica aún más por un factor de escala general de pero se rompe la correspondencia directa con una DFT par real .

El DCT-I es exactamente equivalente (hasta un factor de escala general de 2) a una DFT de números reales con simetría par. Por ejemplo, una DCT-I de números reales es exactamente equivalente a una DFT de ocho números reales (simetría par), divididos por dos. (Por el contrario, los tipos II-IV de DCT implican un cambio de media muestra en la DFT equivalente).

Tenga en cuenta, sin embargo, que el DCT-I no está definido para menos de 2, mientras que todos los demás tipos de DCT están definidos para cualquier positivo.

Así, el DCT-I corresponde a las condiciones de contorno: es par alrededor y par alrededor ; de manera similar para

DCT-II

El DCT-II es probablemente la forma más utilizada y, a menudo, se lo denomina simplemente "DCT". [5] [6]

Esta transformación es exactamente equivalente (hasta un factor de escala general de 2) a una DFT de entradas reales de simetría par donde los elementos indexados pares son cero. Es decir, es la mitad del DFT de las entradas donde también es posible la transformación for y for DCT-II utilizando una señal 2 N seguida de una multiplicación por medio desplazamiento. Así lo demuestra Makhoul .

Algunos autores multiplican aún más el término y multiplican el resto de la matriz por un factor de escala general de (consulte a continuación el cambio correspondiente en DCT-III). Esto hace que la matriz DCT-II sea ortogonal , pero rompe la correspondencia directa con una DFT par real de entrada medio desplazada. Esta es la normalización utilizada por Matlab , por ejemplo, consulte. [99] En muchas aplicaciones, como JPEG , la escala es arbitraria porque los factores de escala se pueden combinar con un paso computacional posterior (por ejemplo, el paso de cuantificación en JPEG [100] ), y se puede elegir una escala que permita que la DCT sea calculado con menos multiplicaciones. [101] [102]

El DCT-II implica las condiciones de contorno: es par y par es par y impar

DCT-III

Debido a que es la inversa de DCT-II hasta un factor de escala (ver más abajo), a esta forma a veces se la denomina simplemente "la DCT inversa" ("IDCT"). [6]

Algunos autores dividen el término por en lugar de por 2 (lo que da como resultado un término general) y multiplican la matriz resultante por un factor de escala general de (ver arriba para el cambio correspondiente en DCT-II), de modo que DCT-II y DCT- III son transposiciones entre sí. Esto hace que la matriz DCT-III sea ortogonal , pero rompe la correspondencia directa con una DFT par real de salida medio desplazada.

El DCT-III implica las condiciones de contorno: es par alrededor y alrededor impar es par alrededor y par alrededor

DCT-IV

La matriz DCT-IV se vuelve ortogonal (y por lo tanto, al ser claramente simétrica, su propia inversa) si se multiplica aún más por un factor de escala general de

Una variante del DCT-IV, donde se superponen datos de diferentes transformadas , se llama transformada de coseno discreta modificada (MDCT). [103]

El DCT-IV implica las condiciones de contorno: es par e impar de manera similar para

DCT V-VIII

Las DCT de tipos I a IV tratan ambos límites de manera consistente con respecto al punto de simetría: son pares/impares alrededor de un punto de datos para ambos límites o a medio camino entre dos puntos de datos para ambos límites. Por el contrario, las DCT de tipos V-VIII implican límites que son pares/impares alrededor de un punto de datos para un límite y a medio camino entre dos puntos de datos para el otro límite.

En otras palabras, los tipos DCT I-IV son equivalentes a DFT pares reales de orden par (independientemente de si son pares o impares), ya que la DFT correspondiente es de longitud (para DCT-I) o (para DCT-II y III). ) o (para DCT-IV). Los cuatro tipos adicionales de transformada de coseno discreta [104] corresponden esencialmente a DFT pares reales de orden lógicamente impar, que tienen factores de en los denominadores de los argumentos del coseno.

Sin embargo, estas variantes parecen raramente utilizadas en la práctica. Una razón, tal vez, es que los algoritmos FFT para DFT de longitud impar son generalmente más complicados que los algoritmos FFT para DFT de longitud par (por ejemplo, los algoritmos de base 2 más simples son solo para longitudes pares), y esta mayor complejidad se traslada a las DCT. como se describe abajo.

(La matriz trivial real-par, una DFT (longitud impar) de longitud uno de un solo número a  , corresponde a una DCT-V de longitud )

Transformadas inversas

Usando las convenciones de normalización anteriores, el inverso de DCT-I es DCT-I multiplicado por 2/( N  − 1). El inverso de DCT-IV es DCT-IV multiplicado por 2 / N. El inverso de DCT-II es DCT-III multiplicado por 2/ N y viceversa. [6]

Al igual que con DFT , el factor de normalización frente a estas definiciones de transformación es simplemente una convención y difiere entre tratamientos. Por ejemplo, algunos autores multiplican las transformaciones por para que la inversa no requiera ningún factor multiplicativo adicional. Combinado con los factores apropiados de 2 (ver arriba), esto se puede usar para hacer que la matriz de transformación sea ortogonal .

DCT multidimensionales

Las variantes multidimensionales de los distintos tipos de DCT se derivan directamente de las definiciones unidimensionales: son simplemente un producto separable (equivalentemente, una composición) de DCT a lo largo de cada dimensión.

MD DCT-II

Por ejemplo, una DCT-II bidimensional de una imagen o una matriz es simplemente la DCT-II unidimensional, desde arriba, realizada a lo largo de las filas y luego a lo largo de las columnas (o viceversa). Es decir, el 2D DCT-II viene dado por la fórmula (omitiendo la normalización y otros factores de escala, como arriba):

La inversa de una DCT multidimensional es simplemente un producto separable de las inversas de las DCT unidimensionales correspondientes (ver arriba), por ejemplo, las inversas unidimensionales aplicadas a lo largo de una dimensión a la vez en un algoritmo fila-columna.

El 3-D DCT-II es sólo la extensión del 2-D DCT-II en un espacio tridimensional y matemáticamente se puede calcular mediante la fórmula

La inversa de 3-D DCT-II es 3-D DCT-III y se puede calcular a partir de la fórmula dada por

Técnicamente, calcular una DCT de dos, tres (o multi) dimensiones mediante secuencias de DCT unidimensionales a lo largo de cada dimensión se conoce como algoritmo de fila-columna . Sin embargo, al igual que con los algoritmos FFT multidimensionales , existen otros métodos para calcular lo mismo mientras se realizan los cálculos en un orden diferente (es decir, entrelazar/combinar los algoritmos para las diferentes dimensiones). Debido al rápido crecimiento de las aplicaciones basadas en 3-D DCT, se desarrollan varios algoritmos rápidos para el cálculo de 3-D DCT-II. Los algoritmos Vector-Radix se aplican para calcular MD DCT para reducir la complejidad computacional y aumentar la velocidad computacional. Para calcular 3-D DCT-II de manera eficiente, se desarrolló un algoritmo rápido, el algoritmo de diezmación de radio vectorial en frecuencia (VR DIF).

3-D DCT-II VR DIF

Para aplicar el algoritmo VR DIF, los datos de entrada deben formularse y reorganizarse de la siguiente manera. [105] [106] Se supone que el tamaño de transformación N × N × N es 2.

Las cuatro etapas básicas de la computación 3-D DCT-II utilizando el algoritmo VR DIF.
dónde

La figura adjunta muestra las cuatro etapas involucradas en el cálculo de 3-D DCT-II utilizando el algoritmo VR DIF. La primera etapa es la reordenación 3-D utilizando el mapeo de índice ilustrado por las ecuaciones anteriores. La segunda etapa es el cálculo de la mariposa. Cada mariposa calcula ocho puntos juntos como se muestra en la figura justo debajo, donde .

El DCT-II 3-D original ahora se puede escribir como

dónde

Si se consideran las partes pares e impares de y y, la fórmula general para el cálculo del 3-D DCT-II se puede expresar como

La etapa de mariposa única del algoritmo VR DIF.

dónde

Complejidad aritmética

Todo el cálculo 3-D DCT necesita etapas, y cada etapa involucra mariposas. Todo el DCT 3-D requiere que se calculen mariposas. Cada mariposa requiere siete multiplicaciones reales (incluidas las multiplicaciones triviales) y 24 sumas reales (incluidas las sumas triviales). Por lo tanto, el número total de multiplicaciones reales necesarias para esta etapa es y el número total de sumas reales, es decir, incluidas las post-adiciones (sumas recursivas) que se pueden calcular directamente después de la etapa de mariposa o después de la etapa de bit inverso, están dadas por [ 106]

El método convencional para calcular MD-DCT-II utiliza un enfoque de marco de fila-columna (RCF) que es computacionalmente complejo y menos productivo en las plataformas de hardware más avanzadas y recientes. El número de multiplicaciones necesarias para calcular el algoritmo VR DIF en comparación con el algoritmo RCF es bastante elevado. El número de multiplicaciones y sumas involucradas en el método RCF está dado por y respectivamente. En la Tabla 1 se puede observar que el número total

de multiplicaciones asociadas con el algoritmo 3-D DCT VR es menor que la asociada con el enfoque RCF en más del 40%. Además, el enfoque RCF implica transposición de matrices y más indexación e intercambio de datos que el nuevo algoritmo VR. Esto hace que el algoritmo 3-D DCT VR sea más eficiente y más adecuado para aplicaciones 3-D que involucran 3-D DCT-II, como la compresión de video y otras aplicaciones de procesamiento de imágenes 3-D.

La consideración principal al elegir un algoritmo rápido es evitar complejidades computacionales y estructurales. A medida que avanza la tecnología de las computadoras y los DSP, el tiempo de ejecución de las operaciones aritméticas (multiplicaciones y sumas) se vuelve muy rápido y la estructura computacional regular se convierte en el factor más importante. [107] Por lo tanto, aunque el algoritmo VR 3-D propuesto anteriormente no alcanza el límite inferior teórico en el número de multiplicaciones, [108] tiene una estructura computacional más simple en comparación con otros algoritmos DCT 3-D. Se puede implementar in situ utilizando una sola mariposa y posee las propiedades del algoritmo Cooley-Tukey FFT en 3-D. Por lo tanto, la realidad virtual 3-D presenta una buena opción para reducir las operaciones aritméticas en el cálculo del DCT-II 3-D, manteniendo al mismo tiempo la estructura simple que caracteriza a los algoritmos FFT de Cooley-Tukey estilo mariposa .

Frecuencias DCT bidimensionales del JPEG DCT

La imagen de la derecha muestra una combinación de frecuencias horizontales y verticales para una DCT bidimensional de 8 × 8 . Cada paso de izquierda a derecha y de arriba a abajo es un aumento de frecuencia de 1/2 ciclo. Por ejemplo, moverse uno hacia la derecha desde el cuadrado superior izquierdo produce un aumento de medio ciclo en la frecuencia horizontal. Otro movimiento hacia la derecha produce dos semiciclos. Un movimiento hacia abajo produce dos medios ciclos horizontales y un medio ciclo vertical. Los datos de origen (8 × 8) se transforman en una combinación lineal de estos 64 cuadrados de frecuencia.

MD-DCT-IV

El MD DCT-IV es solo una extensión del 1-D DCT-IV al  dominio de dimensión M. El DCT-IV 2-D de una matriz o una imagen viene dado por

Para y

Podemos calcular el MD DCT-IV usando el método regular de fila-columna o podemos usar el método de transformación polinómica [109] para un cálculo rápido y eficiente. La idea principal de este algoritmo es utilizar la Transformada Polinómica para convertir directamente la DCT multidimensional en una serie de DCT 1-D. MD DCT-IV también tiene varias aplicaciones en diversos campos.

Cálculo

Aunque la aplicación directa de estas fórmulas requeriría operaciones, es posible calcular lo mismo con sólo complejidad factorizando el cálculo de manera similar a la transformada rápida de Fourier (FFT). También se pueden calcular DCT mediante FFT combinadas con pasos de procesamiento previo y posterior. En general, los métodos para calcular DCT se conocen como algoritmos de transformación rápida de coseno (FCT).

Los algoritmos más eficientes, en principio, suelen ser aquellos que están especializados directamente para la DCT, en lugar de utilizar una FFT ordinaria más operaciones adicionales (consulte una excepción a continuación). Sin embargo, incluso los algoritmos DCT "especializados" (incluidos todos aquellos que logran los recuentos aritméticos más bajos conocidos, al menos para potencias de dos tamaños) suelen estar estrechamente relacionados con los algoritmos FFT, ya que los DCT son esencialmente DFT de datos pares reales. Se puede diseñar un algoritmo DCT rápido tomando una FFT y eliminando las operaciones redundantes debido a esta simetría. Esto puede hacerse incluso automáticamente (Frigo & Johnson 2005). Los algoritmos basados ​​en el algoritmo FFT de Cooley-Tukey son los más comunes, pero también es aplicable cualquier otro algoritmo FFT. Por ejemplo, el algoritmo FFT de Winograd conduce a algoritmos de multiplicación mínima para la DFT, aunque generalmente a costa de más sumas, y (Feig y Winograd 1992a) propusieron un algoritmo similar para la DCT. Debido a que los algoritmos para DFT, DCT y transformaciones similares están todos tan estrechamente relacionados, cualquier mejora en los algoritmos para una transformada conducirá teóricamente también a ganancias inmediatas para las otras transformaciones (Duhamel y Vetterli 1990).

Si bien los algoritmos DCT que emplean una FFT no modificada a menudo tienen cierta sobrecarga teórica en comparación con los mejores algoritmos DCT especializados, los primeros también tienen una clara ventaja: los programas FFT altamente optimizados están ampliamente disponibles. Por lo tanto, en la práctica, suele ser más fácil obtener un alto rendimiento para longitudes generales N con algoritmos basados ​​en FFT. [a] Los algoritmos DCT especializados, por otro lado, tienen un uso generalizado para transformaciones de tamaños pequeños y fijos, como el DCT-II de 8 × 8 utilizado en la compresión JPEG , o los DCT pequeños (o MDCT) utilizados normalmente en la compresión de audio. (El tamaño reducido del código también puede ser una razón para utilizar un DCT especializado para aplicaciones de dispositivos integrados).

De hecho, incluso los algoritmos DCT que utilizan una FFT ordinaria son a veces equivalentes a podar las operaciones redundantes de una FFT más grande de datos simétricos reales, e incluso pueden ser óptimos desde la perspectiva de los recuentos aritméticos. Por ejemplo, una DCT de tipo II es equivalente a una DFT de tamaño con simetría par real cuyos elementos indexados pares son cero. Uno de los métodos más comunes para calcular esto a través de una FFT (por ejemplo, el método utilizado en FFTPACK y FFTW ) fue descrito por Narasimha y Peterson (1978) y Makhoul (1980), y este método, en retrospectiva, puede verse como un paso de un Algoritmo de Cooley-Tukey de diezmado en el tiempo radix-4 aplicado a la DFT par real "lógica" correspondiente al DCT-II. [b] Debido a que los elementos con índice par son cero, este paso de base 4 es exactamente igual que un paso de base dividida. Si la FFT de datos reales de tamaño posterior también se realiza mediante un algoritmo de base dividida de datos reales (como en Sorensen et al. (1987)), entonces el algoritmo resultante en realidad coincide con lo que durante mucho tiempo fue el recuento aritmético más bajo publicado para la potencia. de dos DCT-II ( operaciones aritméticas reales [c] ).

Una reducción reciente en el recuento de operaciones también utiliza una FFT de datos reales. [110] Por lo tanto, no hay nada intrínsecamente malo en calcular la DCT a través de una FFT desde una perspectiva aritmética; a veces es simplemente una cuestión de si el algoritmo FFT correspondiente es óptimo. (Como cuestión práctica, la sobrecarga de llamada de función al invocar una rutina FFT separada puede ser significativa para los pequeños, pero esto es una implementación más que una cuestión algorítmica, ya que se puede resolver desenrollando o insertando).

Ejemplo de IDCT

Un ejemplo que muestra ocho filtros diferentes aplicados a una imagen de prueba (arriba a la izquierda) multiplicando su espectro DCT (arriba a la derecha) con cada filtro.

Considere esta imagen en escala de grises de 8x8 de la letra A mayúscula.

Tamaño original, escalado 10x (vecino más cercano), escalado 10x (bilineal).
Funciones básicas de la transformación discreta del coseno con los coeficientes correspondientes (específicos de nuestra imagen).
DCT de la imagen = .

Cada función base se multiplica por su coeficiente y luego este producto se suma a la imagen final.

A la izquierda está la imagen final. En el medio está la función ponderada (multiplicada por un coeficiente) que se suma a la imagen final. A la derecha está la función actual y el coeficiente correspondiente. Las imágenes se escalan (usando interpolación bilineal) por un factor de 10×.

Ver también

Notas

  1. ^ El rendimiento algorítmico en el hardware moderno normalmente no está determinado principalmente por simples recuentos aritméticos, y la optimización requiere un esfuerzo de ingeniería sustancial para hacer el mejor uso, dentro de sus límites intrínsecos, de la optimización del hardware integrada disponible.
  2. ^ El paso radix-4 reduce el tamaño de DFT a cuatro tamaños de DFT de datos reales, dos de los cuales son cero y dos de los cuales son iguales entre sí por simetría par. Por lo tanto, se obtiene una FFT de tamaño único de datos reales más mariposas , una vez que se eliminan y/o fusionan las partes triviales y/o duplicadas.
  3. ^ El recuento preciso de operaciones aritméticas reales y, en particular, el recuento de multiplicaciones reales, depende en cierta medida de la escala de la definición de transformación. El recuento corresponde a la definición DCT-II que se muestra aquí; Se pueden guardar dos multiplicaciones si la transformación se escala mediante un factor general. Se pueden guardar multiplicaciones adicionales si se permite que las salidas de la transformación se reescalen individualmente, como lo demostraron Arai, Agui y Nakajima (1988) para el caso de tamaño 8 utilizado en JPEG.

Referencias

  1. ^ abcdefghijklmnopqrstu vwxyz aa Stanković, Radomir S.; Astola, Jaakko T. (2012). "Reminiscencias de los primeros trabajos en DCT: entrevista con KR Rao" (PDF) . Reimpresiones de los primeros días de las ciencias de la información . Centro Internacional de Procesamiento de Señales de Tampere. 60 . ISBN 978-9521528187. ISSN  1456-2774. Archivado (PDF) desde el original el 30 de diciembre de 2021 . Consultado el 30 de diciembre de 2021 - vía ETHW .
  2. ^ abcde Britanak, Vladimir; Sí, Patrick C.; Rao, KR (6 de noviembre de 2006). Transformadas discretas de coseno y seno: propiedades generales, algoritmos rápidos y aproximaciones de números enteros . Prensa académica . ISBN 978-0123736246. LCCN  2006931102. OCLC  220853454. OL  18495589M. S2CID  118873224.
  3. ^ abcd Alikhani, Darya (1 de abril de 2015). "Más allá de la resolución: el arte glitch de Rosa Menkman". POSTmateria . Archivado desde el original el 19 de octubre de 2019 . Consultado el 19 de octubre de 2019 .
  4. ^ abcdef Thomson, Gavin; Shah, Athar (2017). "Presentación de HEIF y HEVC" (PDF) . Apple Inc. Consultado el 5 de agosto de 2019 .
  5. ^ abcdef Ahmed, Nasir ; Natarajan, T. Raj; Rao, KR (1 de enero de 1974). "Transformada de coseno discreta". Transacciones IEEE en computadoras . Sociedad de Computación IEEE. C-23 (1): 90–93. doi :10.1109/TC.1974.223784. eISSN  1557-9956. ISSN  0018-9340. LCCN  75642478. OCLC  1799331. S2CID  206619973.
  6. ^ abcdef Rao, K. Ramamohan ; Yip, Patrick C. (11 de septiembre de 1990). Transformada de coseno discreta: algoritmos, ventajas, aplicaciones . Procesamiento de Señales, Imágenes y Habla. Prensa académica . arXiv : 1109.0337 . doi :10.1016/c2009-0-22279-3. ISBN 978-0125802031. LCCN  89029800. OCLC  1008648293. OL  2207570M. S2CID  12270940.
  7. ^ abcdefg Barbero, M.; Hofmann, H.; Wells, ND (14 de noviembre de 1991). "Codificación fuente DCT e implementaciones actuales para HDTV". Revisión técnica de la UER . Unión Europea de Radiodifusión (251): 22–33 . Consultado el 4 de noviembre de 2019 .
  8. ^ abcde Lea, William (1994). "Vídeo a la carta: trabajo de investigación 94/68". Biblioteca de la Cámara de los Comunes . Consultado el 20 de septiembre de 2019 .
  9. ^ ab Ahmed, Nasir (enero de 1991). "Cómo se me ocurrió la transformada del coseno discreto". Procesamiento de señales digitales . 1 (1): 4–5. doi :10.1016/1051-2004(91)90086-Z.
  10. ^ abcde "T.81 - Compresión y codificación digital de imágenes fijas de tonos continuos - Requisitos y directrices" (PDF) . CCITT . Septiembre de 1992 . Consultado el 12 de julio de 2019 .
  11. ^ Chen, Wen-Hsiung; Smith, CH; Fralick, SC (septiembre de 1977). "Un algoritmo computacional rápido para la transformada del coseno discreto". Transacciones IEEE sobre Comunicaciones . 25 (9): 1004-1009. doi :10.1109/TCOM.1977.1093941.
  12. ^ Smith, C.; Fralick, S. (1977). "Un algoritmo computacional rápido para la transformada del coseno discreto". Transacciones IEEE sobre Comunicaciones . 25 (9): 1004-1009. doi :10.1109/TCOM.1977.1093941. ISSN  0090-6778.
  13. ^ Dhamija, Swati; Jain, Priyanka (septiembre de 2011). "Análisis comparativo de transformada seno discreta como método adecuado para la estimación de ruido". Revista Internacional de Ciencias de la Computación IJCSI . 8 (5, núm. 3): 162–164 (162) . Consultado el 4 de noviembre de 2019 .
  14. ^ Huang, TS (1981). Análisis de secuencia de imágenes. Medios de ciencia y negocios de Springer . pag. 29.ISBN _ 9783642870378.
  15. ^ Roese, John A.; Robinson, Guner S. (30 de octubre de 1975). Tescher, Andrew G. (ed.). "Codificación espacial y temporal combinada de secuencias de imágenes digitales". Transmisión eficiente de información pictórica . Sociedad Internacional de Óptica y Fotónica. 0066 : 172–181. Código bibliográfico : 1975SPIE...66..172R. doi : 10.1117/12.965361. S2CID  62725808.
  16. ^ Cianci, Philip J. (2014). Televisión de alta definición: la creación, desarrollo e implementación de la tecnología HDTV. McFarland. pag. 63.ISBN _ 9780786487974.
  17. ^ abc "Historia de la compresión de vídeo". UIT-T . Equipo Conjunto de Vídeo (JVT) de ISO/IEC MPEG y ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 y ITU-T SG16 Q.6). Julio de 2002. págs. 11, 24–9, 33, 40–1, 53–6 . Consultado el 3 de noviembre de 2019 .
  18. ^ abcGhanbari, Mohammed (2003). Códecs estándar: desde compresión de imágenes hasta codificación de vídeo avanzada. Institución de Ingeniería y Tecnología . págs. 1–2. ISBN 9780852967102.
  19. ^ Li, Jian Ping (2006). Actas de la Conferencia Internacional de Computación de 2006 sobre tecnología de medios activos Wavelet y procesamiento de información: Chongqing, China, 29 al 31 de agosto de 2006. World Scientific . pag. 847.ISBN _ 9789812709998.
  20. ^ Príncipe, John P.; Johnson, AW; Bradley, Alan B. (1987). "Codificación de subbanda/transformación utilizando diseños de bancos de filtros basados ​​en la cancelación de alias en el dominio del tiempo". ICASP '87. Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales . vol. 12. págs. 2161-2164. doi :10.1109/ICASSP.1987.1169405. S2CID  58446992.
  21. ^ Príncipe, J.; Bradley, A. (1986). "Diseño de banco de filtros de análisis/síntesis basado en la cancelación de alias en el dominio del tiempo". Transacciones IEEE sobre acústica, voz y procesamiento de señales . 34 (5): 1153-1161. doi :10.1109/TASSP.1986.1164954.
  22. ^ abcdefghijk Luo, Fa-Long (2008). Estándares de radiodifusión multimedia móvil: tecnología y práctica. Medios de ciencia y negocios de Springer . pag. 590.ISBN _ 9780387782638.
  23. ^ ab Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 19 (5): 1231–1241. doi :10.1109/TASL.2010.2087755. S2CID  897622.
  24. ^ ab Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Consultado el 14 de julio de 2019 .
  25. ^ ab Brandeburgo, Karlheinz (1999). "Explicación de MP3 y AAC" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
  26. ^ Fundación ab Xiph.Org (2 de junio de 2009). "Especificación Vorbis I - Clasificación 1.1.2". Fundación Xiph.Org . Consultado el 22 de septiembre de 2009 .
  27. ^ Mandyam, Giridhar D .; Ahmed, Nasir; Magotra, Neeraj (17 de abril de 1995). Rodríguez, Arturo A.; Safranek, Robert J.; Delp, Edward J. (eds.). "Esquema basado en DCT para compresión de imágenes sin pérdidas". Compresión de vídeo digital: algoritmos y tecnologías 1995 . Sociedad Internacional de Óptica y Fotónica. 2419 : 474–478. Código Bib : 1995SPIE.2419..474M. doi :10.1117/12.206386. S2CID  13894279.
  28. ^ Komatsu, K.; Sezaki, Kaoru (1998). "Transformada de coseno discreta reversible". Actas de la Conferencia Internacional IEEE de 1998 sobre Acústica, Habla y Procesamiento de Señales, ICASSP '98 (Cat. No.98CH36181) . vol. 3. págs. 1769-1772 vol.3. doi :10.1109/ICASSP.1998.681802. ISBN 0-7803-4428-6. S2CID  17045923.
  29. ^ Muchahary, D.; Mondal, AJ; Parmar, RS; Borah, ANUNCIO; Majumder, A. (2015). "Un enfoque de diseño simplificado para la computación eficiente de DCT". 2015 Quinta Conferencia Internacional sobre Sistemas de Comunicaciones y Tecnologías de Redes . págs. 483–487. doi :10.1109/CSNT.2015.134. ISBN 978-1-4799-1797-6. S2CID  16411333.
  30. ^ Chen, Wai Kai (2004). El manual de ingeniería eléctrica. Elsevier . pag. 906.ISBN _ 9780080477480.
  31. ^ abc "¿Qué es un JPEG? El objeto invisible que ves todos los días". El Atlántico . 24 de septiembre de 2013 . Consultado el 13 de septiembre de 2019 .
  32. ^ abc Pessina, Laure-Anne (12 de diciembre de 2014). "JPEG cambió nuestro mundo". Noticias EPFL . Escuela Politécnica Federal de Lausana . Consultado el 13 de septiembre de 2019 .
  33. ^ ab Lee, Ruby Bei-Loh; Beck, John P.; Cordero, Joel; Severson, Kenneth E. (abril de 1995). "Descodificador de vídeo MPEG por software en tiempo real en procesadores PA 7100LC mejorados multimedia" (PDF) . Diario de Hewlett-Packard . 46 (2). ISSN  0018-1153.
  34. ^ abc Lee, Jack (2005). Sistemas escalables de transmisión continua de medios: arquitectura, diseño, análisis e implementación. John Wiley e hijos . pag. 25.ISBN _ 9780470857649.
  35. ^ a b C Shishikui, Yoshiaki; Nakanishi, Hiroshi; Imaizumi, Hiroyuki (26 al 28 de octubre de 1993). "Un esquema de codificación HDTV utilizando DCT de dimensión adaptativa". Procesamiento de señal de HDTV . Elsevier . págs. 611–618. doi :10.1016/B978-0-444-81844-7.50072-3. ISBN 9781483298511.
  36. ^ ab Ochoa-Domínguez, Humberto; Rao, KR (2019). Transformada de coseno discreta, segunda edición. Prensa CRC . págs. 1 a 3, 129. ISBN 9781351396486.
  37. ^ abcdefghijklmnopqrstu vwxyz aa ab ac ad ae Ochoa-Dominguez, Humberto; Rao, KR (2019). Transformada de coseno discreta, segunda edición. Prensa CRC . págs. 1–3. ISBN 9781351396486.
  38. ^ abcde Britanak, Vladimir; Rao, KR (2017). Bancos de filtros modulados en coseno/seno: propiedades generales, algoritmos rápidos y aproximaciones de números enteros. Saltador. pag. 478.ISBN _ 9783319610801.
  39. ^ ab Jones, Graham A.; Capa, David H.; Osenkowsky, Thomas G. (2013). Manual de ingeniería de la Asociación Nacional de Radiodifusores: Manual de ingeniería de la NAB. Taylor y Francisco . págs. 558–9. ISBN 978-1-136-03410-7.
  40. ^ abc Hersent, Olivier; Petit, Jean-Pierre; Gurle, David (2005). Más allá de los protocolos VoIP: comprensión de la tecnología de voz y técnicas de red para telefonía IP. John Wiley e hijos . pag. 55.ISBN _ 9780470023631.
  41. ^ abcde Daniel Eran Dilger (8 de junio de 2010). "Dentro del iPhone 4: videollamadas FaceTime". AppleInsider . Consultado el 9 de junio de 2010 .
  42. ^ Blog de tecnología abcd Netflix (19 de abril de 2017). "Codificaciones móviles más eficientes para descargas de Netflix". Medio.com . Netflix . Consultado el 20 de octubre de 2019 .
  43. ^ ab "Informe para desarrolladores de vídeo 2019" (PDF) . Bitmovin . 2019 . Consultado el 5 de noviembre de 2019 .
  44. ^ Ochoa-Domínguez, Humberto; Rao, KR (2019). Transformada de coseno discreta, segunda edición. Prensa CRC. pag. 186.ISBN _ 9781351396486.
  45. ^ abcd McKernan, Brian (2005). Cine digital: la revolución en cinematografía, postproducción, distribución. McGraw-Hill . pag. 58.ISBN _ 978-0-07-142963-4. DCT se utiliza en la mayoría de los sistemas de compresión estandarizados por el Moving Picture Experts Group (MPEG), y es la tecnología dominante para la compresión de imágenes. En particular, es la tecnología central de MPEG-2, el sistema utilizado para los DVD, la transmisión de televisión digital, que se ha utilizado en muchas de las pruebas del cine digital.
  46. ^ ab Baraniuk, Chris (15 de octubre de 2015). "Las protecciones contra copia podrían llegar a JPegs". Noticias de la BBC . BBC . Consultado el 13 de septiembre de 2019 .
  47. ^ Ascher, Steven; Pincus, Edward (2012). El manual del cineasta: una guía completa para la era digital: quinta edición. Pingüino. págs. 246–7. ISBN 978-1-101-61380-1.
  48. ^ Bertalmio, Marcelo (2014). Procesamiento de imágenes para cine. Prensa CRC . pag. 95.ISBN _ 978-1-4398-9928-1.
  49. ^ Zhang, HongJiang (1998). "Exploración y recuperación de vídeos basados ​​en contenido". En Furht, Borko (ed.). Manual de aplicaciones y sistemas multimedia e Internet. Prensa CRC . págs. 83-108 (89). ISBN 9780849318580.
  50. ^ ab "Familia de códecs Apple ProRes 422". Biblioteca del Congreso . 17 de noviembre de 2014 . Consultado el 13 de octubre de 2019 .
  51. ^ Potluri, Estados Unidos; Madanayake, A.; Cintra, RJ; Bayer, FM; Rajapaksha, N. (17 de octubre de 2012). "Aproximaciones DCT sin multiplicadores para detección direccional y imágenes espaciales de matriz de apertura digital de haces múltiples de RF". Ciencia y tecnología de la medición . 23 (11): 114003. doi : 10.1088/0957-0233/23/11/114003. ISSN  0957-0233. S2CID  119888170.
  52. ^ ab Wang, Hanli; Kwong, S.; Kok, C. (2006). "Algoritmo de predicción eficiente de coeficientes DCT enteros para optimización H.264 /AVC". Transacciones IEEE sobre circuitos y sistemas para tecnología de vídeo . 16 (4): 547–552. doi :10.1109/TCSVT.2006.871390. S2CID  2060937.
  53. ^ Hudson, Graham; Léger, Alain; Niss, Birger; Sebestyén, István; Vaaben, Jørgen (31 de agosto de 2018). "Estándar JPEG-1 25 años: razones pasadas, presentes y futuras de un éxito". Revista de imágenes electrónicas . 27 (4): 1. doi : 10.1117/1.JEI.27.4.040901 .
  54. ^ "Explicación del formato de imagen JPEG". BT.com . Grupo BT . 31 de mayo de 2018 . Consultado el 5 de agosto de 2019 .
  55. ^ "Comparación HEIF: formato de archivo de imagen de alta eficiencia". Tecnologías Nokia . Consultado el 5 de agosto de 2019 .
  56. ^ Alakuijala, Jyrki; Sneyers, Jon; Versari, Luca; Wassenberg, enero (22 de enero de 2021). "Libro blanco JPEG XL" (PDF) . Organización JPEG . Archivado (PDF) desde el original el 2 de mayo de 2021 . Consultado el 14 de enero de 2022 . La DCT de tamaño variable (cuadrada o rectangular de 2x2 a 256x256) sirve como una aproximación rápida de la transformación de descorrelación óptima.
  57. ^ ab Wang, Yao (2006). "Estándares de codificación de vídeo: Parte I" (PDF) . Archivado desde el original (PDF) el 23 de enero de 2013.
  58. ^ Wang, Yao (2006). "Estándares de codificación de vídeo: Parte II" (PDF) . Archivado desde el original (PDF) el 23 de enero de 2013.
  59. ^ Hoffman, Roy (2012). Compresión de datos en sistemas digitales. Medios de ciencia y negocios de Springer . pag. 255.ISBN _ 9781461560319.
  60. ^ ab Rao, KR ; Hwang, JJ (18 de julio de 1996). Técnicas y estándares para codificación de imágenes, vídeo y audio . Prentice Hall. JPEG: Capítulo 8; H.261 : Capítulo 9; MPEG-1: Capítulo 10; MPEG-2: Capítulo 11. ISBN 978-0133099072. LCCN  96015550. OCLC  34617596. OL  978319M. S2CID  56983045.
  61. ^ Davis, Andrew (13 de junio de 1997). "Descripción general de la recomendación H.320". Tiempos EE.UU. Consultado el 7 de noviembre de 2019 .
  62. ^ IEEE WESCANEX 97: comunicaciones, energía e informática: actas de conferencias. Universidad de Manitoba, Winnipeg, Manitoba, Canadá: Instituto de Ingenieros Eléctricos y Electrónicos . 22 y 23 de mayo de 1997. p. 30.ISBN _ 9780780341470. H.263 es similar a H.261 , pero más complejo . Actualmente es el estándar internacional de compresión de vídeo más utilizado para videotelefonía en líneas telefónicas RDSI (Red Digital de Servicios Integrados).
  63. ^ Pedro de Rivaz; Jack Haughton (2018). "Especificación del proceso de decodificación y flujo de bits AV1" (PDF) . Alianza para los Medios Abiertos . Consultado el 14 de enero de 2022 .
  64. ^ Desarrolladores de YouTube (15 de septiembre de 2018). "Lista de reproducción de lanzamiento de AV1 Beta". YouTube . Consultado el 14 de enero de 2022 . Los primeros videos en recibir las transcodificaciones AV1 de YouTube.
  65. ^ Brinkmann, Martin (13 de septiembre de 2018). "Cómo habilitar la compatibilidad con AV1 en YouTube" . Consultado el 14 de enero de 2022 .
  66. ^ Blog de tecnología de Netflix (5 de febrero de 2020). "Netflix ahora transmite AV1 en Android" . Consultado el 14 de enero de 2022 .
  67. ^ Blog de tecnología de Netflix (9 de noviembre de 2021). "Llevar la transmisión AV1 a los televisores de los miembros de Netflix" . Consultado el 14 de enero de 2022 .
  68. ^ Herré, J.; Dietz, M. (2008). "Codificación AAC MPEG-4 de alta eficiencia [Estándares en pocas palabras]". Revista de procesamiento de señales IEEE . 25 (3): 137-142. Código Bib : 2008 ISPM...25..137H. doi :10.1109/MSP.2008.918684.
  69. ^ Valin, Jean-Marc; Maxwell, Gregorio; Terriberry, Timothy B.; Vos, Koen (octubre de 2013). Codificación de música de alta calidad y bajo retardo en el códec Opus . 135ª Convención AES. Sociedad de Ingeniería de Audio . arXiv : 1602.04845 .
  70. ^ "Códec Opus". Opus (Página de inicio). Fundación Xiph.org . Consultado el 31 de julio de 2012 .
  71. ^ Leyden, John (27 de octubre de 2015). "WhatsApp al descubierto: se investigan las entrañas de la aplicación chupadora de información". El registro . Consultado el 19 de octubre de 2019 .
  72. ^ Hazra, Sudip; Mateti, Prabhaker (13 al 16 de septiembre de 2017). "Desafíos en la ciencia forense de Android". En Thampi, Sabu M.; Pérez, Gregorio Martínez; Westphall, Carlos Becker; Hu, Jiankun; Fan, Chun I.; Mármol, Félix Gómez (eds.). Seguridad en Computación y Comunicaciones: 5to Simposio Internacional, SSCC 2017 . Saltador. págs. 286–299 (290). doi :10.1007/978-981-10-6898-0_24. ISBN 9789811068980.
  73. ^ Srivastava, Saurabh Ranjan; Dubé, Sachin; Shrivastaya, Gulshan; Sharma, Kavita (2019). "Desafíos de seguridad provocados por teléfonos inteligentes: problemas, estudios de casos y prevención". En Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (eds.). Ciberseguridad en informática paralela y distribuida: conceptos, técnicas, aplicaciones y estudios de casos . John Wiley e hijos. págs. 187-206 (200). doi :10.1002/9781119488330.ch12. ISBN 9781119488057. S2CID  214034702.
  74. ^ "Software de código abierto utilizado en PlayStation 4". Sony Interactive Entertainment Inc. Consultado el 11 de diciembre de 2017 .
  75. ^ "Dolby AC-4: entrega de audio para servicios de entretenimiento de próxima generación" (PDF) . Laboratorios Dolby . Junio ​​de 2015. Archivado desde el original (PDF) el 30 de mayo de 2019 . Consultado el 11 de noviembre de 2019 .
  76. ^ Bleidt, RL; Enviar.; Niedermeier, A.; Czelhan, B.; Fug, S.; et al. (2017). «Desarrollo del Sistema de Audio de TV MPEG-H para ATSC 3.0» (PDF) . Transacciones IEEE sobre radiodifusión . 63 (1): 202–236. doi :10.1109/TBC.2017.2661258. S2CID  30821673.
  77. ^ Schnell, Markus; Schmidt, Markus; Jander, Manuel; Alberto, Tobías; Geiger, Ralf; Ruoppila, Vesa; Ekstrand, Per; Bernhard, Grill (octubre de 2008). MPEG-4 AAC mejorado de bajo retardo: un nuevo estándar para comunicaciones de alta calidad (PDF) . 125ª Convención AES. Fraunhofer IIS . Sociedad de Ingeniería de Audio . Consultado el 20 de octubre de 2019 .
  78. ^ Lutzky, Manfredo; Schuller, Gerald; Gayer, Marc; Krämer, Ulrich; Wabnik, Stefan (mayo de 2004). Una guía para el retraso del códec de audio (PDF) . 116ª Convención AES. Fraunhofer IIS . Sociedad de Ingeniería de Audio . Consultado el 24 de octubre de 2019 .
  79. ^ ab Nagireddi, Sivannarayana (2008). Procesamiento de señales de Voz y Fax VoIP. John Wiley e hijos . pag. 69.ISBN _ 9780470377864.
  80. ^ "Programa de trabajo del UIT-T". UIT .
  81. ^ Terriberry, Timothy B. Presentación del códec CELT. El evento ocurre a los 65 minutos. Archivado desde el original el 7 de agosto de 2011 . Consultado el 19 de octubre de 2019 ., también "Diapositivas de presentación del códec CELT" (PDF) .
  82. ^ "Ekiga 3.1.0 disponible". Archivado desde el original el 30 de septiembre de 2011 . Consultado el 19 de octubre de 2019 .
  83. ^ "☏ CAMBIO gratuito". Cable de señal .
  84. ^ "Códec de servicios de voz mejorados (EVS)" (PDF) . Fraunhofer IIS . Marzo de 2017 . Consultado el 19 de octubre de 2019 .
  85. ^ Abousleman, médico de cabecera; Marcelino, MW; Hunt, BR (enero de 1995), "Compresión de imágenes hiperespectrales utilizando DCT 3-D y DPCM/DCT híbrido", IEEE Trans. Geociencias. Sensores remotos , 33 (1): 26–34, Bibcode :1995ITGRS..33...26A, doi :10.1109/36.368225
  86. ^ Chan, Y.; Siu, W. (mayo de 1997), "Codificación de transformada de coseno discreta 3D de longitud temporal variable" (PDF) , IEEE Trans. Procesamiento de imágenes. , 6 (5): 758–763, Bibcode :1997ITIP....6..758C, CiteSeerX 10.1.1.516.2824 , doi :10.1109/83.568933, hdl :10397/1928, PMID  18282969 
  87. ^ Canción, J.; SXiong, Z.; Liu, X.; Liu, Y., "Un algoritmo para la codificación y transmisión de vídeo en capas", Proc. Cuarto Int. Conf./Exh. Computación de alto rendimiento. Región de Asia y el Pacífico , 2 : 700–703
  88. ^ Tai, SC; Gi, Y.; Lin, C.-W. (Septiembre de 2000), "Un codificador de transformada de coseno discreto tridimensional adaptativo para la compresión de imágenes médicas", IEEE Trans. inf. Tecnología. Biomédica. , 4 (3): 259–263, doi :10.1109/4233.870036, PMID  11026596, S2CID  18016215
  89. ^ Sí, B.; Liu, B. (mayo de 1995), "Representación de volumen de datos escalares 3D comprimidos basados ​​en DCT", IEEE Trans. Computadora. Gráficos. , 1 : 29–43, doi : 10.1109/2945.468390
  90. ^ Chan, Carolina del Sur; Liu, W.; Ho, KI (2000). "Reconstrucción perfecta de bancos de filtros modulados con suma de coeficientes de potencias de dos". 2000 Simposio internacional IEEE sobre circuitos y sistemas. Tecnologías emergentes para el siglo XXI. Actas (IEEE Cat No.00CH36353) . vol. 2. págs. 73–76. doi :10.1109/ISCAS.2000.856261. hdl :10722/46174. ISBN 0-7803-5482-6. S2CID  1757438.
  91. ^ Queiroz, RL; Nguyen, TQ (1996). "Transformaciones superpuestas para una codificación de subbanda/transformación eficiente". Traducción IEEE. Proceso de señal . 44 (5): 497–507.
  92. ^ Malvar 1992.
  93. ^ Chan, Carolina del Sur; Luo, L.; Ho, KL (1998). "Bases de ondas moduladas por coseno biortogonales con soporte compacto de canal M". Traducción IEEE. Proceso de señal . 46 (2): 1142-1151. Código bibliográfico : 1998ITSP...46.1142C. doi : 10.1109/78.668566. hdl : 10722/42775 .
  94. ^ ab Katsaggelos, Aggelos K.; Babacan, S. Derin; Chun-Jen, Tsai (2009). "Capítulo 15: Restauración iterativa de imágenes". La guía esencial para el procesamiento de imágenes . Prensa académica . págs. 349–383. ISBN 9780123744579.
  95. ^ "Ruido de mosquitos". Revista PC . Consultado el 19 de octubre de 2019 .
  96. ^ Menkman, Rosa (octubre de 2011). El momento de la falla (um) (PDF) . Instituto de Culturas en Red. ISBN 978-90-816021-6-7. Consultado el 19 de octubre de 2019 .
  97. ^ Ruff, Thomas (31 de mayo de 2009). "jpg". Apertura . Abertura. pag. 132.ISBN _ 9781597110938.
  98. ^ Colberg, Jörg (17 de abril de 2009). "Reseña: jpegs de Thomas Ruff".
  99. ^ "Transformada de coseno discreta - MATLAB dct". www.mathworks.com . Consultado el 11 de julio de 2019 .
  100. ^ Pennebaker, William B.; Mitchell, Joan L. (31 de diciembre de 1992). JPEG: Estándar de compresión de datos de imágenes fijas . Saltador. ISBN 9780442012724.
  101. ^ Arai, Y.; Agüí, T.; Nakajima, M. (1988). "Un esquema DCT-SQ rápido para imágenes". Transacciones IEICE . 71 (11): 1095–1097.
  102. ^ Shao, Xuancheng; Johnson, Steven G. (2008). "Algoritmos DCT/DST tipo II/III con número reducido de operaciones aritméticas". Procesamiento de la señal . 88 (6): 1553-1564. arXiv : cs/0703150 . doi :10.1016/j.sigpro.2008.01.004. S2CID  986733.
  103. ^ Malvar 1992
  104. ^ Martucci 1994
  105. ^ Chan, Carolina del Sur; Ho, KL (1990). "Métodos directos para calcular transformadas sinusoidales discretas". Actas IEE F - Procesamiento de señales y radar . 137 (6): 433. doi :10.1049/ip-f-2.1990.0063.
  106. ^ ab Alshibami, O.; Boussakta, S. (julio de 2001). "Algoritmo tridimensional para el 3-D DCT-III". Proc. Sexto Int. Síntoma. Comunitario, Aplicaciones de la teoría : 104–107.
  107. ^ Guoan Bi; Pandilla Li; Kai-Kuang Ma; Bronceado, TC (2000). "Sobre el cálculo de DCT bidimensional". Transacciones IEEE sobre procesamiento de señales . 48 (4): 1171–1183. Código bibliográfico : 2000ITSP...48.1171B. doi : 10.1109/78.827550.
  108. ^ Feig, E.; Winograd, S. (julio de 1992a). "Sobre la complejidad multiplicativa de las transformadas de cosenos discretos". Transacciones IEEE sobre teoría de la información . 38 (4): 1387-1391. doi :10.1109/18.144722.
  109. ^ Nussbaumer, HJ (1981). Algoritmos de convolución y transformada rápida de Fourier (1ª ed.). Nueva York: Springer-Verlag.
  110. ^ Shao, Xuancheng; Johnson, Steven G. (2008). "Algoritmos DCT/DST tipo II/III con número reducido de operaciones aritméticas". Procesamiento de la señal . 88 (6): 1553-1564. arXiv : cs/0703150 . doi :10.1016/j.sigpro.2008.01.004. S2CID  986733.

Otras lecturas

enlaces externos