Cuantización vectorial

La cuantificación vectorial ( VQ ) es una técnica clásica de cuantificación del procesamiento de señales que permite modelar funciones de densidad de probabilidad mediante la distribución de vectores prototipo. Desarrollada a principios de la década de 1980 por Robert M. Gray , se utilizó originalmente para la compresión de datos . Funciona dividiendo un gran conjunto de puntos ( vectores ) en grupos que tienen aproximadamente el mismo número de puntos más cercanos a ellos. Cada grupo está representado por su punto centroide , como en k-means y algunos otros algoritmos de agrupamiento . En términos más simples, la cuantificación vectorial elige un conjunto de puntos para representar un conjunto más grande de puntos.

La propiedad de coincidencia de densidad de la cuantificación vectorial es poderosa, especialmente para identificar la densidad de datos grandes y de alta dimensión. Dado que los puntos de datos se representan mediante el índice de su centroide más cercano, los datos que ocurren comúnmente tienen un error bajo y los datos poco frecuentes un error alto. Es por eso que VQ es adecuado para la compresión de datos con pérdida . También se puede utilizar para la corrección de datos con pérdida y la estimación de densidad .

La cuantificación vectorial se basa en el paradigma de aprendizaje competitivo , por lo que está estrechamente relacionada con el modelo de mapa autoorganizado y con los modelos de codificación dispersa utilizados en algoritmos de aprendizaje profundo como el autoencoder .

Capacitación

El algoritmo de entrenamiento más simple para la cuantificación vectorial es: ^[1]

Elija un punto de muestra al azar
Mueva el centroide del vector de cuantificación más cercano hacia este punto de muestra, en una pequeña fracción de la distancia
Repetir

Un algoritmo más sofisticado reduce el sesgo en la estimación de coincidencia de densidad y garantiza que se utilicen todos los puntos, al incluir un parámetro de sensibilidad adicional ^{[ cita requerida ]} :

Aumente la sensibilidad de cada centroide en una pequeña cantidad $s_{i}$
Elija un punto de muestra al azar $P$
Para cada centroide del vector de cuantificación , denotemos la distancia de y $c_{i}$ $d(P,c_{i})$ $P$ $c_{i}$
Encuentra el centroide para el cual es el más pequeño $c_{i}$ $d(P,c_{i})-s_{i}$
Muévete hacia una pequeña fracción de la distancia $c_{i}$ $P$
Poner a cero $s_{i}$
Repetir

Es conveniente utilizar un programa de enfriamiento para producir convergencia: consulte Recocido simulado . Otro método (más simple) es LBG, que se basa en K-Means .

El algoritmo se puede actualizar iterativamente con datos "en vivo", en lugar de seleccionar puntos aleatorios de un conjunto de datos, pero esto introducirá cierto sesgo si los datos están correlacionados temporalmente en muchas muestras.

Aplicaciones

La cuantificación vectorial se utiliza para la compresión de datos con pérdida, la corrección de datos con pérdida, el reconocimiento de patrones, la estimación de densidad y la agrupación.

La corrección o predicción de datos con pérdida se utiliza para recuperar datos faltantes en algunas dimensiones. Se realiza buscando el grupo más cercano con las dimensiones de datos disponibles y, luego, prediciendo el resultado en función de los valores de las dimensiones faltantes, suponiendo que tendrán el mismo valor que el centroide del grupo.

Para la estimación de la densidad , el área/volumen que está más cerca de un centroide particular que de cualquier otro es inversamente proporcional a la densidad (debido a la propiedad de coincidencia de densidad del algoritmo).

Uso en compresión de datos

La cuantificación vectorial, también llamada "cuantización de bloques" o "cuantización por coincidencia de patrones", se utiliza a menudo en la compresión de datos con pérdida . Funciona codificando valores de un espacio vectorial multidimensional en un conjunto finito de valores de un subespacio discreto de menor dimensión. Un vector de espacio inferior requiere menos espacio de almacenamiento, por lo que los datos se comprimen. Debido a la propiedad de coincidencia de densidad de la cuantificación vectorial, los datos comprimidos tienen errores que son inversamente proporcionales a la densidad.

La transformación se realiza normalmente mediante proyección o mediante un libro de códigos . En algunos casos, también se puede utilizar un libro de códigos para codificar por entropía el valor discreto en el mismo paso, generando un valor codificado de longitud variable con prefijo como salida.

El conjunto de niveles de amplitud discretos se cuantifica de forma conjunta en lugar de cuantificar cada muestra por separado. Consideremos un vector de niveles de amplitud de dimensión k . Se comprime eligiendo el vector coincidente más cercano de un conjunto de vectores de dimensión n , con n < k . $[x_{1},x_{2},...,x_{k}]$ $[y_{1},y_{2},...,y_{n}]$

Todas las combinaciones posibles del vector n -dimensional forman el espacio vectorial al que pertenecen todos los vectores cuantificados. $[y_{1},y_{2},...,y_{n}]$

En lugar de los valores cuantificados, se envía únicamente el índice de la palabra clave en el libro de códigos. Esto ahorra espacio y logra una mayor compresión.

La cuantificación vectorial gemela (VQF) es parte del estándar MPEG-4 que trata de la cuantificación vectorial intercalada ponderada en el dominio del tiempo.

Códecs de vídeo basados en cuantificación vectorial

Vídeo de Bink ^[2]
Paquete de cine
Daala se basa en transformaciones pero utiliza cuantificación vectorial piramidal en coeficientes transformados ^[3]
Vídeo digital interactivo : vídeo de nivel de producción y vídeo en tiempo real
Indeo
Vídeo 1 de Microsoft
QuickTime : códec de vídeo y gráficos de Apple (RPZA) (SMC)
Sorenson SVQ1 y SVQ3
Vídeo de Smacker
Formato VQA , utilizado en muchos juegos

El uso de códecs de vídeo basados en cuantificación vectorial ha disminuido significativamente en favor de aquellos basados en predicción compensada de movimiento combinada con codificación de transformación , por ejemplo aquellos definidos en los estándares MPEG , ya que la baja complejidad de decodificación de la cuantificación vectorial se ha vuelto menos relevante.

Códecs de audio basados en cuantificación vectorial

AMR-WB+
CELP
CELT (ahora parte de Opus ) se basa en transformadas pero utiliza cuantificación vectorial piramidal en coeficientes transformados.
Códec 2
DTS
G.729
Banco de la Reserva de la Biosfera
Ogg Vorbis ^[4]
TwinVQ

Uso en reconocimiento de patrones

El VQ también se utilizó en los años ochenta para el reconocimiento de voz ^[5] y de hablantes . ^[6] Recientemente, también se ha utilizado para la búsqueda eficiente del vecino más cercano ^[7] y el reconocimiento de firmas en línea. ^[8] En aplicaciones de reconocimiento de patrones , se construye un libro de códigos para cada clase (cada clase es un usuario en aplicaciones biométricas) utilizando vectores acústicos de este usuario. En la fase de prueba, la distorsión de cuantificación de una señal de prueba se calcula con todo el conjunto de libros de códigos obtenidos en la fase de entrenamiento. El libro de códigos que proporciona la menor distorsión de cuantificación vectorial indica el usuario identificado.

La principal ventaja de VQ en el reconocimiento de patrones es su baja carga computacional en comparación con otras técnicas como la distorsión temporal dinámica (DTW) y el modelo oculto de Markov (HMM). El principal inconveniente en comparación con DTW y HMM es que no tiene en cuenta la evolución temporal de las señales (voz, firma, etc.) porque todos los vectores están mezclados. Para superar este problema se ha propuesto un enfoque de libro de códigos multisección. ^[9] El enfoque multisección consiste en modelar la señal con varias secciones (por ejemplo, un libro de códigos para la parte inicial, otro para el centro y un último libro de códigos para la parte final).

Utilizar como algoritmo de agrupamiento

Como VQ busca centroides como puntos de densidad de muestras cercanas, también se puede utilizar directamente como un método de agrupamiento basado en prototipos: cada centroide se asocia a un prototipo. Al apuntar a minimizar el error de cuantificación cuadrático esperado ^[10] e introducir una ganancia de aprendizaje decreciente que cumpla las condiciones de Robbins-Monro, múltiples iteraciones sobre todo el conjunto de datos con un número concreto pero fijo de prototipos convergen a la solución del algoritmo de agrupamiento de k-medias de manera incremental.

Redes generativas antagónicas (GAN)

La cuantificación de características ( VQ) se ha utilizado para cuantificar una capa de representación de características en el discriminador de redes generativas antagónicas . La técnica de cuantificación de características (FQ) realiza una correspondencia de características implícita. ^[11] Mejora el entrenamiento de GAN y produce un rendimiento mejorado en una variedad de modelos GAN populares: BigGAN para generación de imágenes, StyleGAN para síntesis de rostros y U-GAT-IT para traducción de imagen a imagen no supervisada.

Véase también

Subtemas

Algoritmo de Linde-Buzo-Gray (LBG)
Aprendiendo cuantificación vectorial
Algoritmo de Lloyd
Growing Neural Gas , un sistema similar a una red neuronal para la cuantificación vectorial

Temas relacionados

Parte de este artículo se basó originalmente en material del Diccionario gratuito en línea de informática y se utiliza con permiso de la GFDL.

Referencias

^ Dana H. Ballard (2000). Introducción a la computación natural . MIT Press. pág. 189. ISBN 978-0-262-02420-4.
^ "Vídeo de Bink". Libro de la Sabiduría . 27 de diciembre de 2009. Consultado el 16 de marzo de 2013 .
^ Valin, JM. (octubre de 2012). Cuantización vectorial piramidal para codificación de vídeo. IETF . ID draft-valin-videocodec-pvq-00 . Consultado el 17 de diciembre de 2013 .Véase también arXiv:1602.05209
^ "Especificación Vorbis I". Xiph.org. 2007-03-09 . Consultado el 2007-03-09 .
^ Burton, DK; Shore, JE; Buck, JT (1983). "Una generalización del reconocimiento de palabras aisladas mediante cuantificación vectorial". ICASSP '83. IEEE International Conference on Acoustics, Speech, and Signal Processing . Vol. 8. págs. 1021–1024. doi :10.1109/ICASSP.1983.1171915.
^ Soong, F.; A. Rosenberg; L. Rabiner; B. Juang (1985). "Un enfoque de cuantificación vectorial para el reconocimiento de hablantes". ICASSP '85. IEEE International Conference on Acoustics, Speech, and Signal Processing . Vol. 1. págs. 387–390. doi :10.1109/ICASSP.1985.1168412. S2CID 8970593.
^ H. Jegou; M. Douze; C. Schmid (2011). "Cuantización de productos para búsqueda del vecino más cercano" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 33 (1): 117–128. CiteSeerX 10.1.1.470.8573 . doi :10.1109/TPAMI.2010.57. PMID 21088323. S2CID 5850884. Archivado (PDF) desde el original el 17 de diciembre de 2011.
^ Faundez-Zanuy, Marcos (2007). "Reconocimiento de firmas en línea y fuera de línea basado en VQ-DTW". Reconocimiento de patrones . 40 (3): 981–992. doi :10.1016/j.patcog.2006.06.007.
^ Faundez-Zanuy, Marcos; Juan Manuel Pascual-Gaspar (2011). "Reconocimiento eficiente de firmas en línea basado en VQ multisección". Análisis de patrones y aplicaciones . 14 (1): 37–45. doi :10.1007/s10044-010-0176-8. S2CID 24868914.
^ Gray, RM (1984). "Cuantización vectorial". Revista IEEE ASSP . 1 (2): 4–29. doi :10.1109/massp.1984.1162229.
^ La cuantificación de características mejora el entrenamiento de GAN https://arxiv.org/abs/2004.02088

Enlaces externos

http://www.data-compression.com/vq.html Archivado el 10 de diciembre de 2017 en Wayback Machine
QccPack: biblioteca de cuantificación, compresión y codificación (código abierto)
Compresión de índices VQ y ocultación de información mediante codificación de índices híbridos sin pérdida, Wen-Jan Chen y Wen-Tsung Huang