Cuantización vectorial

La cuantización vectorial ( VQ ) es una técnica de cuantificación clásica del procesamiento de señales que permite modelar funciones de densidad de probabilidad mediante la distribución de vectores prototipo. Desarrollado a principios de los años 1980 por Robert M. Gray , se utilizó originalmente para la compresión de datos . Funciona dividiendo un gran conjunto de puntos ( vectores ) en grupos que tienen aproximadamente la misma cantidad de puntos más cercanos a ellos. Cada grupo está representado por su punto centroide , como en k-means y algunos otros algoritmos de agrupamiento . En términos más simples, la cuantificación vectorial elige un conjunto de puntos para representar un conjunto más grande de puntos.

La propiedad de coincidencia de densidad de la cuantificación vectorial es poderosa, especialmente para identificar la densidad de datos grandes y de alta dimensión. Dado que los puntos de datos están representados por el índice de su centroide más cercano, los datos que ocurren comúnmente tienen un error bajo y los datos raros tienen un error alto. Esta es la razón por la que VQ es adecuado para la compresión de datos con pérdida . También se puede utilizar para la corrección de datos con pérdida y la estimación de densidad .

La cuantificación vectorial se basa en el paradigma de aprendizaje competitivo , por lo que está estrechamente relacionada con el modelo de mapa autoorganizado y con los modelos de codificación dispersa utilizados en algoritmos de aprendizaje profundo como el codificador automático .

Capacitación

El algoritmo de entrenamiento más simple para la cuantificación de vectores es: ^[1]

Elija un punto de muestra al azar
Mueva el centroide del vector de cuantificación más cercano hacia este punto de muestra, una pequeña fracción de la distancia
Repetir

Un algoritmo más sofisticado reduce el sesgo en la estimación de coincidencia de densidad y garantiza que se utilicen todos los puntos, al incluir un parámetro de sensibilidad adicional ^{[ cita necesaria ]} :

Aumentar la sensibilidad de cada centroide en una pequeña cantidad. $s_{i}$
Elija un punto de muestra al azar $P$
Para cada centroide de vector de cuantificación , denotemos la distancia de y $c_{i}$ $d(P,c_{i})$ $P$ $c_{i}$
Encuentra el centroide para el cual es el más pequeño. $c_{i}$ $d(P,c_{i})-s_{i}$
Avanza hacia una pequeña fracción de la distancia. $c_{i}$ $P$
Establecer en cero $s_{i}$
Repetir

Es deseable utilizar un programa de enfriamiento para producir convergencia: consulte Recocido simulado . Otro método (más simple) es LBG , que se basa en K-Means .

El algoritmo se puede actualizar de forma iterativa con datos "en vivo", en lugar de seleccionar puntos aleatorios de un conjunto de datos, pero esto introducirá cierto sesgo si los datos están correlacionados temporalmente en muchas muestras.

Aplicaciones

La cuantificación vectorial se utiliza para la compresión de datos con pérdida, la corrección de datos con pérdida, el reconocimiento de patrones, la estimación de densidad y la agrupación.

La corrección o predicción de datos con pérdida se utiliza para recuperar datos que faltan en algunas dimensiones. Se hace buscando el grupo más cercano con las dimensiones de datos disponibles y luego prediciendo el resultado en función de los valores de las dimensiones faltantes, suponiendo que tendrán el mismo valor que el centroide del grupo.

Para la estimación de densidad , el área/volumen que está más cerca de un centroide particular que de cualquier otro es inversamente proporcional a la densidad (debido a la propiedad de coincidencia de densidad del algoritmo).

Uso en compresión de datos

La cuantización vectorial, también llamada "cuantización de bloques" o "cuantización de coincidencia de patrones", se utiliza a menudo en la compresión de datos con pérdida . Funciona codificando valores de un espacio vectorial multidimensional en un conjunto finito de valores de un subespacio discreto de dimensión inferior. Un vector de menor espacio requiere menos espacio de almacenamiento, por lo que los datos se comprimen. Debido a la propiedad de coincidencia de densidad de la cuantificación vectorial, los datos comprimidos tienen errores que son inversamente proporcionales a la densidad.

La transformación suele realizarse mediante proyección o mediante el uso de un libro de códigos . En algunos casos, también se puede utilizar un libro de códigos para codificar con entropía el valor discreto en el mismo paso, generando un valor codificado de longitud variable codificado con prefijo como salida.

El conjunto de niveles de amplitud discretos se cuantifica de forma conjunta en lugar de cuantificar cada muestra por separado. Considere un vector k -dimensional de niveles de amplitud. Se comprime eligiendo el vector coincidente más cercano de un conjunto de vectores n -dimensionales , con n < k . $[x_{1},x_{2},...,x_{k}]$ $[y_{1},y_{2},...,y_{n}]$

Todas las combinaciones posibles del vector n -dimensional forman el espacio vectorial al que pertenecen todos los vectores cuantificados. $[y_{1},y_{2},...,y_{n}]$

Sólo se envía el índice de la palabra clave en el libro de códigos en lugar de los valores cuantificados. Esto conserva el espacio y logra una mayor compresión.

La cuantización de vectores gemelos (VQF) es parte del estándar MPEG-4 que se ocupa de la cuantización de vectores entrelazados ponderados en el dominio del tiempo.

Códecs de vídeo basados en cuantificación vectorial

Vídeo de bink ^[2]
Cinepak
Daala se basa en transformaciones pero utiliza cuantificación de vectores piramidales en coeficientes transformados ^[3]
Vídeo digital interactivo : vídeo a nivel de producción y vídeo en tiempo real
Indio
Vídeo de Microsoft 1
QuickTime : Apple Video (RPZA) y códec de gráficos (SMC)
Sorenson SVQ1 y SVQ3
Vídeo de Smacker
Formato VQA , utilizado en muchos juegos.

El uso de códecs de vídeo basados en cuantificación vectorial ha disminuido significativamente a favor de aquellos basados en predicción compensada por movimiento combinada con codificación por transformación , por ejemplo, los definidos en los estándares MPEG , ya que la baja complejidad de decodificación de la cuantificación vectorial se ha vuelto menos relevante.

Códecs de audio basados en cuantificación vectorial

RAM-WB+
CELP
CELT (ahora parte de Opus ) se basa en transformaciones pero utiliza cuantificación de vectores piramidales en coeficientes transformados
Códec 2
EDE
G.729
iLBC
Ogg Vorbis ^[4]
gemelovq

Uso en reconocimiento de patrones

VQ también se utilizó en los años ochenta para el habla ^[5] y el reconocimiento del hablante . ^[6] Recientemente también se ha utilizado para la búsqueda eficiente de vecinos más cercanos ^[7] y el reconocimiento de firmas en línea. ^[8] En aplicaciones de reconocimiento de patrones , se construye un libro de códigos para cada clase (cada clase es un usuario en aplicaciones biométricas) utilizando vectores acústicos de este usuario. En la fase de prueba, la distorsión de cuantificación de una señal de prueba se resuelve con todo el conjunto de libros de códigos obtenidos en la fase de entrenamiento. El libro de códigos que proporciona la distorsión de cuantificación vectorial más pequeña indica el usuario identificado.

La principal ventaja de VQ en el reconocimiento de patrones es su baja carga computacional en comparación con otras técnicas como la deformación dinámica del tiempo (DTW) y el modelo oculto de Markov (HMM). El principal inconveniente respecto a DTW y HMM es que no tiene en cuenta la evolución temporal de las señales (voz, firma, etc.) porque todos los vectores están mezclados. Para superar este problema se ha propuesto un enfoque de libro de códigos de múltiples secciones. ^[9] El enfoque multisección consiste en modelar la señal con varias secciones (por ejemplo, un libro de códigos para la parte inicial, otro para el centro y un último libro de códigos para la parte final).

Usar como algoritmo de agrupamiento

Como VQ busca centroides como puntos de densidad de muestras cercanas, también se puede utilizar directamente como un método de agrupación basado en prototipos: cada centroide se asocia con un prototipo. Al intentar minimizar el error de cuantificación al cuadrado esperado ^[10] e introducir una ganancia de aprendizaje decreciente que cumpla las condiciones de Robbins-Monro, múltiples iteraciones sobre todo el conjunto de datos con un número concreto pero fijo de prototipos convergen hacia la solución del algoritmo de agrupamiento de k-medias. de manera incremental.

Redes generativas adversarias (GAN)

VQ se ha utilizado para cuantificar una capa de representación de características en el discriminador de redes generativas adversarias . La técnica de cuantificación de características (FQ) realiza una coincidencia de características implícita. ^[11] Mejora el entrenamiento de GAN y produce un rendimiento mejorado en una variedad de modelos GAN populares: BigGAN para generación de imágenes, StyleGAN para síntesis de rostros y U-GAT-IT para traducción de imagen a imagen sin supervisión.

Ver también

Subtemas

Algoritmo de Linde-Buzo-Gray (LBG)
Aprendizaje de la cuantificación de vectores
algoritmo de lloyd
Growing Neural Gas , un sistema similar a una red neuronal para la cuantificación de vectores

Temas relacionados

Parte de este artículo se basó originalmente en material del Diccionario gratuito de informática en línea y se utiliza con permiso de la GFDL.

Referencias

^ Dana H. Ballard (2000). Una introducción a la computación natural . Prensa del MIT. pag. 189.ISBN _ 978-0-262-02420-4.
^ "Vídeo binario". Libro de la Sabiduría . 27 de diciembre de 2009 . Consultado el 16 de marzo de 2013 .
^ Valin, JM. (Octubre 2012). Cuantización de vectores piramidales para codificación de vídeo. IETF . ID borrador-valin-videocodec-pvq-00 . Consultado el 17 de diciembre de 2013 .Véase también arXiv:1602.05209
^ "Especificación Vorbis I". Xiph.org. 2007-03-09 . Consultado el 9 de marzo de 2007 .
^ Burton, DK; Orilla, JE; Dólar, JT (1983). "Una generalización del reconocimiento de palabras aisladas mediante cuantificación vectorial". ICASP '83. Conferencia internacional IEEE sobre acústica, voz y procesamiento de señales . vol. 8. págs. 1021-1024. doi :10.1109/ICASSP.1983.1171915.
^ Pronto, F.; A. Rosenberg; L. Rabiner; B. Juang (1985). "Un enfoque de cuantificación vectorial para el reconocimiento de hablantes". ICASP '85. Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales . vol. 1. págs. 387–390. doi :10.1109/ICASSP.1985.1168412. S2CID 8970593.
^ H.Jegou; el señor Douzé; C. Schmid (2011). "Cuantización de productos para búsqueda de vecino más cercano" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 33 (1): 117-128. CiteSeerX 10.1.1.470.8573 . doi :10.1109/TPAMI.2010.57. PMID 21088323. S2CID 5850884. Archivado (PDF) desde el original el 17 de diciembre de 2011.
^ Faúndez-Zanuy, Marcos (2007). "Reconocimiento de firmas en línea y fuera de línea basado en VQ-DTW". Reconocimiento de patrones . 40 (3): 981–992. doi :10.1016/j.patcog.2006.06.007.
^ Faúndez-Zanuy, Marcos; Juan Manuel Pascual-Gaspar (2011). "Reconocimiento de firmas en línea eficiente basado en VQ multisección". Análisis y aplicaciones de patrones . 14 (1): 37–45. doi :10.1007/s10044-010-0176-8. S2CID 24868914.
^ Gris, RM (1984). "Cuantización de vectores". Revista IEEE ASSP . 1 (2): 4–29. doi :10.1109/massp.1984.1162229.
^ La cuantificación de funciones mejora la capacitación de GAN https://arxiv.org/abs/2004.02088

enlaces externos

http://www.data-compression.com/vq.html Archivado el 10 de diciembre de 2017 en Wayback Machine.
QccPack: biblioteca de cuantificación, compresión y codificación (código abierto)
Compresión de índices VQ y ocultación de información mediante codificación de índices híbridos sin pérdidas, Wen-Jan Chen y Wen-Tsung Huang