Algoritmo de Blahut-Arimoto

El término algoritmo de Blahut-Arimoto se utiliza a menudo para referirse a una clase de algoritmos para calcular numéricamente la capacidad teórica de información de un canal, la función de distorsión de velocidad de una fuente o una codificación de fuente (es decir, compresión para eliminar la redundancia). Son algoritmos iterativos que eventualmente convergen a uno de los máximos del problema de optimización asociado con estos conceptos de la teoría de la información.

Historia y aplicación

Para el caso de la capacidad del canal , el algoritmo fue inventado de forma independiente por Suguru Arimoto ^[1] y Richard Blahut . ^[2] Además, el tratamiento de Blahut proporciona algoritmos para calcular la distorsión de la tasa y la capacidad generalizada con restricciones de entrada (es decir, la función capacidad-costo, análoga a la distorsión de la tasa). Estos algoritmos son más aplicables al caso de fuentes de alfabeto finitas arbitrarias. Se ha trabajado mucho para extenderlo a casos de problemas más generales. ^[3]^[4] Recientemente, se propuso una versión del algoritmo que tiene en cuenta salidas continuas y multivariadas con aplicaciones en señalización celular. ^[5] También existe una versión del algoritmo Blahut-Arimoto para información dirigida . ^[6]

Algoritmo para la capacidad del canal

Un canal discreto sin memoria (DMC) se puede especificar utilizando dos variables aleatorias con alfabeto y una ley de canal como distribución de probabilidad condicional . La capacidad del canal , definida como , indica la máxima eficiencia que un canal puede comunicar, en la unidad de bit por uso. ^[7] Ahora bien, si denotamos la cardinalidad , entonces es una matriz, que denotamos la entrada de fila y columna por . Para el caso de la capacidad del canal , el algoritmo fue inventado de forma independiente por Suguru Arimoto ^[8] y Richard Blahut . ^[9] Ambos encontraron la siguiente expresión para la capacidad de un DMC con ley de canal: $X,Y$ ${\mathcal {X}},{\mathcal {Y}}$ $p(y|x)$ $C:=\sup _{p\sim X}I(X;Y)$ $|{\mathcal {X}}|=n,|{\mathcal {Y}}|=m$ $p_{Y|X}$ $n\times m$ $i^{th}$ $j^{th}$ $w_{ij}$

$C=\max _{\mathbf {p} }\max _{Q}\sum _{i=1}^{n}\sum _{j=1}^{m}p_{i}w_ {ij}\log \left({\dfrac {Q_ {ji}}{p_ {i}}}\right)$

donde y se maximizan sobre los siguientes requisitos: $\mathbf {p}$ $Q$

$\mathbf {p}$ es una distribución de probabilidad en , es decir, si escribimos como $X$ $\mathbf {p}$ $(p_{1},p_{2}....,p_{n}),\sum _{i=1}^{n}p_{i}=1$
$Q=(q_{ji})$ es una matriz que se comporta como una matriz de transición de a con respecto a la ley del canal. Es decir, para todos : $m\veces n$ $Y$ $X$ $1\leq i\leq n,1\leq j\leq m$
- $q_{ji}\geq 0,q_{ji}=0\Leftrightarrow w_{ij}=0$
- Cada fila suma 1, es decir . $\sum _{i=1}^{n}q_{ji}=1$

Luego , al elegir una distribución de probabilidad aleatoria , podemos generar una secuencia de forma iterativa de la siguiente manera: $\mathbf {p} ^{0}:=(p_{1}^{0},p_{2}^{0},...p_{n}^{0})$ $X$ $(\mathbf {p} ^{0},Q^{0},\mathbf {p} ^{1},Q^{1}...)$

$(q_{ji}^{t}):={\dfrac {p_{i}^{t}w_{ij}}{\sum _{k=1}^{n}p_{k}^ {t}w_{kj}}}$

$p_{k}^{t+1}:={\dfrac {\prod _{j=1}^{m}(q_{jk}^{t})^{w_{kj}}}{\sum _{i=1}^{n}\prod _{j=1}^{m}(q_{ji}^{t})^{w_{ij}}}}$

Para . $t=0,1,2...$

Luego, utilizando la teoría de optimización, específicamente el descenso de coordenadas , Yeung ^[10] demostró que la secuencia efectivamente converge al máximo requerido. Eso es,

$\lim _{t\to \infty }\sum _{i=1}^{n}\sum _{j=1}^{m}p_{i}^{t}w_{ij}\log \left({\dfrac {Q_{ji}^{t}}{p_{i}^{t}}}\right)=C$ .

Entonces, dada una ley del canal , la capacidad se puede estimar numéricamente con precisión arbitraria. $p(y|x)$

Algoritmo de distorsión de velocidad

Supongamos que tenemos una fuente con probabilidad de cualquier símbolo dado. Deseamos encontrar una codificación que genere una señal comprimida a partir de la señal original mientras minimiza la distorsión esperada , donde la expectativa se toma sobre la probabilidad conjunta de y . Podemos encontrar una codificación que minimice la distorsión de velocidad funcional localmente repitiendo la siguiente iteración hasta la convergencia: $X$ $p(x)$ $p({\hat {x}}|x)$ ${\hat {X}}$ $\langle d(x,{\hat {x}})\rangle$ $X$ ${\hat {X}}$

p_{t+1}({\hat {x}})=\sum _{x}p(x)p_{t}({\hat {x}}|x)

p_{t+1}({\hat {x}}|x)={\frac {p_{t}({\hat {x}})\exp(-\beta d(x,{\hat {x}}))}{\sum _{\hat {x}}p_{t}({\hat {x}})\exp(-\beta d(x,{\hat {x}}))}}

donde es un parámetro relacionado con la pendiente en la curva de tasa de distorsión a la que nos dirigimos y, por lo tanto, está relacionado con cuánto favorecemos la compresión frente a la distorsión (más alto significa menos compresión). $\beta$ $\beta$

Referencias

^ Arimoto, Suguru (1972), "Un algoritmo para calcular la capacidad de canales arbitrarios discretos sin memoria", IEEE Transactions on Information Theory , 18 (1): 14–20, doi :10.1109/TIT.1972.1054753, S2CID 8408706.
^ Blahut, Richard (1972), "Cálculo de la capacidad del canal y funciones de distorsión de velocidad", IEEE Transactions on Information Theory , 18 (4): 460–473, CiteSeerX 10.1.1.133.7174 , doi :10.1109/TIT.1972.1054855 .
^ Vontobel, Pascal O. (2003). "Un algoritmo generalizado de Blahut-Arimoto". Actas del Simposio internacional IEEE sobre teoría de la información, 2003 . pag. 53. doi :10.1109/ISIT.2003.1228067. ISBN 0-7803-7728-1.
^ Iddo Naiss; Haim Permuter (2010). "Ampliación del algoritmo Blahut-Arimoto para maximizar la información dirigida". arXiv : 1012.5071v2 [cs.IT].
^ Tomasz Jetka; Karol Nienaltowski; Tomasz Winarski; Slawomir Blonski; Michal Komorowski (2019), "Análisis teórico de la información de respuestas de señalización unicelulares multivariadas", PLOS Computational Biology , 15 (7): e1007132, arXiv : 1808.05581 , Bibcode : 2019PLSCB..15E7132J, doi : 10.1371/journal.pcbi. 1007132 , PMC 6655862 , PMID 31299056
^ Naiss, Iddo; Permuter, Haim H. (enero de 2013). "Extensión del algoritmo Blahut-Arimoto para maximizar la información dirigida". Transacciones IEEE sobre teoría de la información . 59 (1): 204–222. arXiv : 1012.5071 . doi :10.1109/TIT.2012.2214202. S2CID 3115749.
^ Portada, TM (2006). Elementos de la teoría de la información. Joy A. Thomas (2ª ed.). Hoboken, Nueva Jersey: Wiley-Interscience. ISBN 0-471-24195-4. OCLC 59879802.
^ Arimoto, Suguru (1972), "Un algoritmo para calcular la capacidad de canales arbitrarios discretos sin memoria", IEEE Transactions on Information Theory , 18 (1): 14–20, doi :10.1109/TIT.1972.1054753, S2CID 8408706.
^ Blahut, Richard (1972), "Cálculo de la capacidad del canal y funciones de distorsión de velocidad", IEEE Transactions on Information Theory , 18 (4): 460–473, CiteSeerX 10.1.1.133.7174 , doi :10.1109/TIT.1972.1054855 .
^ Yeung, Raymond W. (2008). Teoría de la información y codificación de redes. Nueva York: Springer. ISBN 978-0-387-79234-7. OCLC 288469056.