Entropía de Rényi

En teoría de la información , la entropía de Rényi es una cantidad que generaliza varias nociones de entropía , incluyendo la entropía de Hartley , la entropía de Shannon , la entropía de colisión y la min-entropía . La entropía de Rényi recibe su nombre de Alfréd Rényi , quien buscó la forma más general de cuantificar la información mientras se preservaba la aditividad para eventos independientes. ^[1]^[2] En el contexto de la estimación de la dimensión fractal , la entropía de Rényi forma la base del concepto de dimensiones generalizadas . ^[3]

La entropía de Rényi es importante en ecología y estadística como índice de diversidad . La entropía de Rényi también es importante en información cuántica , donde puede usarse como una medida de entrelazamiento . En el modelo de cadena de espín XY de Heisenberg, la entropía de Rényi como función de $α$ se puede calcular explícitamente porque es una función automórfica con respecto a un subgrupo particular del grupo modular . ^[4]^[5] En informática teórica , la min-entropía se usa en el contexto de extractores de aleatoriedad .

Definición

La entropía de Rényi de orden , donde y , se define como ^[1] ${\estilo de visualización \alpha}$ $0<\alpha <\infty$ $\alpha \neq 1$

\mathrm {H} _{\alpha }(X)={\frac {1}{1-\alpha }}\log {\Bigg (}\sum _{i=1}^{n}p_{i}^{\alpha }{\Bigg )}.

Se define además como $\alpha =0,1,\infty$

\mathrm {H} _{\alpha }(X)=\lim _{\gamma \to \alpha }\mathrm {H} _{\gamma }(X).

Aquí, es una variable aleatoria discreta con resultados posibles en el conjunto y probabilidades correspondientes para . La unidad de información resultante está determinada por la base del logaritmo , por ejemplo, shannon para base 2, o nat para base e . Si las probabilidades son para todos , entonces todas las entropías de Rényi de la distribución son iguales: . En general, para todas las variables aleatorias discretas , es una función no creciente en . ${\estilo de visualización X}$ ${\mathcal {A}}=\{x_{1},x_{2},...,x_{n}\}$ $p_{i}\doteq \Pr(X=x_{i})$ $i=1,\puntos ,n$ $p_{i}=1/n$ $i=1,\puntos ,n$ $\mathrm {H}_{\alpha}(X)=\log n$ ${\estilo de visualización X}$ $\mathrm {H}_{\alpha}(X)$ ${\estilo de visualización \alpha}$

Las aplicaciones a menudo explotan la siguiente relación entre la entropía de Rényi y la norma α del vector de probabilidades:

\mathrm {H} _{\alpha }(X)={\frac {\alpha }{1-\alpha }}\log \left(\|P\|_{\alpha }\right)

Aquí, la distribución de probabilidad discreta se interpreta como un vector en con y . $P=(p_{1},\puntos ,p_{n})$ $\mathbb {R} ^{n}$ $estilo de visualización p_{i}\geq 0$ ${\textstyle \suma _{i=1}^{n}p_{i}=1}$

La entropía de Rényi para cualquier es cóncava de Schur . Se demuestra mediante el criterio de Schur-Ostrowski. $\alpha \geq 0$

Casos especiales

A medida que se acerca a cero, la entropía de Rényi pondera cada vez más equitativamente todos los eventos con probabilidad distinta de cero, independientemente de sus probabilidades. En el límite para , la entropía de Rényi es simplemente el logaritmo del tamaño del soporte de $X$ . El límite para es la entropía de Shannon . A medida que se acerca al infinito, la entropía de Rényi está cada vez más determinada por los eventos de mayor probabilidad. ${\estilo de visualización \alpha}$ $\alpha \to 0$ $\alpha \to 1$ ${\estilo de visualización \alpha}$

Hartley o máxima entropía

Siempre que las probabilidades sean distintas de cero, ^[6] es el logaritmo de la cardinalidad del alfabeto ( ) de , a veces llamada entropía de Hartley de , $\mathrm {H}_{0}$ ${\mathcal {A}}$ ${\estilo de visualización X}$ ${\estilo de visualización X}$

\mathrm {H} _{0}(X)=\log n=\log |{\mathcal {A}}|\,

Entropía de Shannon

El valor límite de as es la entropía de Shannon : ^[7] $\mathrm {H} _ {\alpha}$ $\alpha \to 1$

\mathrm {H} _{1}(X)\equiv \lim _{\alpha \to 1}\mathrm {H} _{\alpha }(X)=-\sum _{i=1}^{n}p_{i}\log p_{i}

Entropía de colisión

La entropía de colisión , a veces simplemente llamada "entropía de Rényi", se refiere al caso , $\alpha =2$

\mathrm {H} _{2}(X)=-\log \sum _{i=1}^{n}p_{i}^{2}=-\log P(X=Y),

donde $X$ e $Y$ son independientes y se distribuyen de forma idéntica . La entropía de colisión está relacionada con el índice de coincidencia .

Min-entropía

En el límite cuando , la entropía de Rényi converge a la min-entropía : $\alpha \rightarrow \infty$ $\mathrm {H} _ {\alpha}$ $\mathrm {H} _ {\infty }$

\mathrm {H} _{\infty }(X)\doteq \min _{i}(-\log p_{i})=-(\max _{i}\log p_{i})=-\log \max _{i}p_{i}\,.

De manera equivalente, la min-entropía es el número real más grande $b$ tal que todos los eventos ocurren con una probabilidad como máximo de . $\mathrm {H} _ {\infty }(X)$ ${\estilo de visualización 2^{-b}}$

El nombre de min-entropía se debe a que es la medida de entropía más pequeña de la familia de entropías de Rényi. En este sentido, es la forma más sólida de medir el contenido de información de una variable aleatoria discreta. En particular, la min-entropía nunca es mayor que la entropía de Shannon .

La min-entropía tiene aplicaciones importantes para los extractores de aleatoriedad en la informática teórica : los extractores pueden extraer aleatoriedad de fuentes aleatorias que tienen una min-entropía grande; tener simplemente una entropía de Shannon grande no es suficiente para esta tarea.

Desigualdades para diferentes órdenesalfa

Esto no es creciente para ninguna distribución dada de probabilidades , lo que se puede demostrar mediante diferenciación, ^[8] como $\mathrm {H} _ {\alpha}$ ${\estilo de visualización \alpha}$ $estilo de visualización p_{i}}$

-{\frac {d\mathrm {H} _{\alpha }}{d\alpha }}={\frac {1}{(1-\alpha )^{2}}}\sum _{i=1}^{n}z_{i}\log(z_{i}/p_{i})={\frac {1}{(1-\alpha )^{2}}}D_{KL}(z\|p)

que es proporcional a la divergencia de Kullback–Leibler (que siempre es no negativa), donde . En particular, es estrictamente positiva excepto cuando la distribución es uniforme. $z_{i}=p_{i}^{\alpha }/\sum _{j=1}^{n}p_{j}^{\alpha }$

En el límite, tenemos . $\alpha \to 1$ $-{\frac {d\mathrm {H} _{\alpha }}{d\alpha }}\to {\frac {1}{2}}\sum _{i}p_{i}(\ln p_{i}+H(p))^{2}$

En casos particulares las desigualdades pueden demostrarse también mediante la desigualdad de Jensen : ^[9]^[10]

\log n=\mathrm {H} _{0}\geq \mathrm {H} _{1}\geq \mathrm {H} _{2}\geq \mathrm {H} _{\infty }.

Para valores de , también se cumplen las desigualdades en la otra dirección. En particular, tenemos ^[11]^[12] $\alpha >1$

\mathrm {H} _{2}\leq 2\mathrm {H} _{\infty }.

Por otra parte, la entropía de Shannon puede ser arbitrariamente alta para una variable aleatoria que tiene una entropía mínima dada. Un ejemplo de esto lo da la secuencia de variables aleatorias para tal que y puesto que pero . $\mathrm {H} _{1}$ $X$ $X_{n}\sim \{0,\ldots ,n\}$ $n\geq 1$ $P(X_{n}=0)=1/2$ $P(X_{n}=x)=1/(2n)$ $\mathrm {H} _{\infty }(X_{n})=\log 2$ $\mathrm {H} _{1}(X_{n})=(\log 2+\log 2n)/2$

Divergencia de Rényi

Además de las entropías absolutas de Rényi, Rényi también definió un espectro de medidas de divergencia que generalizan la divergencia de Kullback-Leibler . ^[13]

La divergencia de Rényi de orden $α$ o divergencia alfa de una distribución $P$ respecto de una distribución $Q$ se define como

D_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log {\Bigg (}\sum _{i=1}^{n}{\frac {p_{i}^{\alpha }}{q_{i}^{\alpha -1}}}{\Bigg )}={\frac {1}{\alpha -1}}\log \mathbb {E} _{i\sim p}[(p_{i}/q_{i})^{\alpha -1}]\,

cuando $0 < α < \infty$ y $α \neq 1.$ Podemos definir la divergencia de Rényi para los valores especiales $α = 0, 1, \infty$ tomando un límite, y en particular el límite $α \to 1$ da la divergencia de Kullback–Leibler.

Algunos casos especiales:

D_{0}(P\|Q)=-\log Q(\{i:p_{i}>0\})

:menos la probabilidad logarítmica bajo

Q

de que

p i > 0

;

D_{1/2}(P\|Q)=-2\log \sum _{i=1}^{n}{\sqrt {p_{i}q_{i}}}

:menos el doble del logaritmo del coeficiente de Bhattacharyya ; (Nielsen y Boltz (2010))

D_{1}(P\|Q)=\sum _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}

:la divergencia de Kullback–Leibler ;

D_{2}(P\|Q)=\log {\Big \langle }{\frac {p_{i}}{q_{i}}}{\Big \rangle }

:el logaritmo de la relación esperada de las probabilidades;

D_{\infty }(P\|Q)=\log \sup _{i}{\frac {p_{i}}{q_{i}}}

:el logaritmo de la relación máxima de las probabilidades.

La divergencia de Rényi es de hecho una divergencia , es decir, simplemente es mayor o igual a cero, y cero solo cuando $P$ $=$ $Q.$ Para cualquier distribución fija $P$ y $Q$ , la divergencia de Rényi es no decreciente en función de su orden $α$ , y es continua en el conjunto de $α$ para el cual es finita, ^[13] o, para abreviar, la información de orden $α$ obtenida si la distribución $P$ se reemplaza por la distribución $Q.$ ^[1 ] $D_{\alpha }(P\|Q)$

Interpretación financiera

Un par de distribuciones de probabilidad se puede considerar como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite que un jugador obtenga beneficios del juego. La tasa de beneficio esperada está relacionada con la divergencia de Rényi de la siguiente manera ^[14]

{\rm {ExpectedRate}}={\frac {1}{R}}\,D_{1}(b\|m)+{\frac {R-1}{R}}\,D_{1/R}(b\|m)\,,

donde es la distribución que define las probabilidades oficiales (es decir, el "mercado") para el juego, es la distribución estimada por el inversor y es la aversión al riesgo del inversor (la aversión al riesgo relativa de Arrow-Pratt ). $m$ $b$ $R$

Si la distribución real es (no necesariamente coincidente con la creencia del inversor ), la tasa realizada a largo plazo converge a la expectativa real que tiene una estructura matemática similar ^[14] $p$ $b$

{\rm {RealizedRate}}={\frac {1}{R}}\,{\Big (}D_{1}(p\|m)-D_{1}(p\|b){\Big )}+{\frac {R-1}{R}}\,D_{1/R}(b\|m)\,.

Propiedades específicas dealfa= 1

El valor $α = 1$ , que da la entropía de Shannon y la divergencia de Kullback–Leibler , es el único valor en el que la regla de la cadena de probabilidad condicional se cumple exactamente:

\mathrm {H} (A,X)=\mathrm {H} (A)+\mathbb {E} _{a\sim A}{\big [}\mathrm {H} (X|A=a){\big ]}

para las entropías absolutas, y

D_{\mathrm {KL} }(p(x|a)p(a)\|m(x,a))=D_{\mathrm {KL} }(p(a)\|m(a))+\mathbb {E} _{p(a)}\{D_{\mathrm {KL} }(p(x|a)\|m(x|a))\},

para las entropías relativas.

Esto último en particular significa que si buscamos una distribución $p (x, a)$ que minimice la divergencia con respecto a alguna medida previa subyacente $m (x, a)$ , y adquirimos nueva información que sólo afecta a la distribución de $a$ , entonces la distribución de $p (x | a)$ permanece $m (x | a)$ , sin cambios.

Las otras divergencias de Rényi satisfacen los criterios de ser positivas y continuas, ser invariantes bajo transformaciones de coordenadas 1 a 1 y combinarse aditivamente cuando $A$ y $X$ son independientes, de modo que si $p (A, X) = p (A) p (X)$ , entonces

\mathrm {H} _{\alpha }(A,X)=\mathrm {H} _{\alpha }(A)+\mathrm {H} _{\alpha }(X)\;

D_{\alpha }(P(A)P(X)\|Q(A)Q(X))=D_{\alpha }(P(A)\|Q(A))+D_{\alpha }(P(X)\|Q(X)).

Las propiedades más fuertes de las cantidades $α = 1 permiten la definición de$ información condicional e información mutua desde la teoría de la comunicación.

Familias exponenciales

Las entropías y divergencias de Rényi para una familia exponencial admiten expresiones simples ^[15]

\mathrm {H} _{\alpha }(p_{F}(x;\theta ))={\frac {1}{1-\alpha }}\left(F(\alpha \theta )-\alpha F(\theta )+\log E_{p}[e^{(\alpha -1)k(x)}]\right)

D_{\alpha }(p:q)={\frac {J_{F,\alpha }(\theta :\theta ')}{1-\alpha }}

dónde

J_{F,\alpha }(\theta :\theta ')=\alpha F(\theta )+(1-\alpha )F(\theta ')-F(\alpha \theta +(1-\alpha )\theta ')

es una divergencia de diferencia de Jensen.

Significado físico

La entropía de Rényi en física cuántica no se considera un observable , debido a su dependencia no lineal de la matriz de densidad. (Esta dependencia no lineal se aplica incluso en el caso especial de la entropía de Shannon). Sin embargo, se le puede dar un significado operativo a través de las mediciones de dos tiempos (también conocidas como estadísticas de conteo completo) de transferencias de energía ^{[ cita requerida ]} .

El límite de la entropía de Rényi de la mecánica cuántica es la entropía de von Neumann . $\alpha \to 1$

Véase también

Notas

^abc Renyi (1961)
^ Rioul (2021)
^ Barros, Vanessa; Rousseau, Jérôme (1 de junio de 2021). "Distancia más corta entre órbitas múltiples y dimensiones fractales generalizadas". Annales Henri Poincaré . 22 (6): 1853–1885. arXiv : 1912.07516 . Código Bibliográfico :2021AnHP...22.1853B. doi :10.1007/s00023-021-01039-y. ISSN 1424-0661. S2CID 209376774.
^ Franchini, Its y Korepin (2008)
^ Its & Korepin (2010)
^ RFC 4086, página 6
^ Bromeley, Thacker y Bouhova-Thacker (2004)
^ Beck y Schlögl (1993)
^ se cumple porque . $\mathrm {H} _{1}\geq \mathrm {H} _{2}$ $\sum \limits _{i=1}^{M}{p_{i}\log p_{i}}\leq \log \sum \limits _{i=1}^{M}{p_{i}^{2}}$
^ se cumple porque . $\mathrm {H} _{\infty }\leq \mathrm {H} _{2}$ $\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\leq \log \sup _{i}p_{i}\left({\sum \limits _{i=1}^{n}{p_{i}}}\right)=\log \sup _{i}p_{i}$
^ se mantiene porque $\mathrm {H} _{2}\leq 2\mathrm {H} _{\infty }$ $\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\geq \log \sup _{i}p_{i}^{2}=2\log \sup _{i}p_{i}$
^ Devroye, Luc; Györfi, Laszlo; Lugosi, Gabor (4 de abril de 1996). Una teoría probabilística del reconocimiento de patrones (edición corregida). Nueva York, NY: Springer. ISBN 978-0-387-94618-4.
^ ab Van Erven, Tim; Harremoës, Peter (2014). "Divergencia de Rényi y divergencia de Kullback–Leibler". IEEE Transactions on Information Theory . 60 (7): 3797–3820. arXiv : 1206.2459 . doi :10.1109/TIT.2014.2320500. S2CID 17522805.
^Por Soklakov (2018)
^ Nielsen y Nock (2011)

Referencias

Beck, Christian; Schlögl, Friedrich (1993). Termodinámica de sistemas caóticos: una introducción . Cambridge University Press. ISBN 0521433673.
Jizba, P.; Arimitsu, T. (2004). "El mundo según Rényi: Termodinámica de sistemas multifractales". Anales de Física . 312 (1): 17–59. arXiv : cond-mat/0207707 . Código Bibliográfico :2004AnPhy.312...17J. doi :10.1016/j.aop.2004.01.002. S2CID 119704502.
Jizba, P.; Arimitsu, T. (2004). "Sobre la observabilidad de la entropía de Rényi". Physical Review E . 69 (2): 026128. arXiv : cond-mat/0307698 . Bibcode :2004PhRvE..69b6128J. doi :10.1103/PhysRevE.69.026128. PMID 14995541. S2CID 39231939.
Bromiley, PA; Thacker, NA; Bouhova-Thacker, E. (2004), Entropía de Shannon, entropía de Rényi e información , CiteSeerX 10.1.1.330.9856
Franchini, F.; Its, AR; Korepin, VE (2008). "Entropía de Rényi como medida de entrelazamiento en la cadena de espín cuántico". Journal of Physics A: Mathematical and Theoretical . 41 (25302): 025302. arXiv : 0707.2534 . Bibcode :2008JPhA...41b5302F. doi :10.1088/1751-8113/41/2/025302. S2CID 119672750.
"Prueba de Rényi", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Hero, AO; Michael, O.; Gorman, J. (2002). Alfa-divergencia para clasificación, indexación y recuperación (PDF) (Informe técnico CSPL-328). Laboratorio de Procesamiento de Señales y Comunicaciones, Universidad de Michigan. CiteSeerX 10.1.1.373.2763 .
Its, AR; Korepin, VE (2010). "Entropía generalizada de la cadena de espín de Heisenberg". Física teórica y matemática . 164 (3): 1136–1139. Bibcode :2010TMP...164.1136I. doi :10.1007/s11232-010-0091-6. S2CID 119525704.
Nielsen, F.; Boltz, S. (2010). "Los centroides de Burbea-Rao y Bhattacharyya". IEEE Transactions on Information Theory . 57 (8): 5455–5466. arXiv : 1004.5049 . doi :10.1109/TIT.2011.2159046. S2CID 14238708.
Nielsen, Frank; Nock, Richard (2012). "Una expresión de forma cerrada para la entropía de Sharma–Mittal de familias exponenciales". Journal of Physics A . 45 (3): 032003. arXiv : 1112.4221 . Bibcode :2012JPhA...45c2003N. doi :10.1088/1751-8113/45/3/032003. S2CID 8653096.
Nielsen, Frank; Nock, Richard (2011). "Sobre las entropías y divergencias de Rényi y Tsallis para familias exponenciales". Journal of Physics A . 45 (3): 032003. arXiv : 1105.3259 . Bibcode :2012JPhA...45c2003N. doi :10.1088/1751-8113/45/3/032003. S2CID 8653096.
Rényi, Alfréd (1961). "Sobre medidas de información y entropía" (PDF) . Actas del cuarto simposio de Berkeley sobre matemáticas, estadísticas y probabilidad de 1960. págs. 547–561.
Rosso, OA (2006). "Análisis de EEG utilizando herramientas de información basadas en wavelets". Journal of Neuroscience Methods . 153 (2): 163–182. doi :10.1016/j.jneumeth.2005.10.009. PMID 16675027. S2CID 7134638.
Zachos, CK (2007). "Un límite clásico en la entropía cuántica". Journal of Physics A . 40 (21): F407–F412. arXiv : hep-th/0609148 . Bibcode :2007JPhA...40..407Z. doi :10.1088/1751-8113/40/21/F02. S2CID 1619604.
Nazarov, Y. (2011). "Flujos de entropías de Rényi". Physical Review B . 84 (10): 205437. arXiv : 1108.3537 . Código Bibliográfico :2015PhRvB..91j4303A. doi :10.1103/PhysRevB.91.104303. S2CID 40312624.
Ansari, Mohammad H.; Nazarov, Yuli V. (2015). "Flujos de entropía de Rényi desde motores térmicos cuánticos". Physical Review B . 91 (10): 104303. arXiv : 1408.3910 . Código Bibliográfico :2015PhRvB..91j4303A. doi :10.1103/PhysRevB.91.104303. S2CID 40312624.
Ansari, Mohammad H.; Nazarov, Yuli V. (2015). "Correspondencia exacta entre flujos de entropía de Rényi y flujos físicos". Physical Review B . 91 (17): 174307. arXiv : 1502.08020 . Código Bibliográfico :2015PhRvB..91q4307A. doi :10.1103/PhysRevB.91.174307. S2CID 36847902.
Soklakov, AN (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Bibcode :2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID 33286632.
Ansari, Mohammad H.; van Steensel, Alwin; Nazarov, Yuli V. (2019). "La producción de entropía en Quantum es diferente". Entropía . 21 (9): 854. arXiv : 1907.09241 . doi : 10.3390/e21090854 . S2CID 198148019.
Rioul, Olivier (2021). "Esto es TI: Una introducción a la entropía y la información de Shannon" (PDF) . Teoría de la información . Progreso en física matemática. Vol. 78. Birkhäuser. págs. 49–86. doi :10.1007/978-3-030-81480-9_2. ISBN 978-3-030-81479-3. Número de identificación del sujeto 204783328.