stringtranslate.com

Distribución de probabilidad de máxima entropía

En estadística y teoría de la información , una distribución de probabilidad de máxima entropía tiene una entropía que es al menos tan grande como la de todos los demás miembros de una clase específica de distribuciones de probabilidad . De acuerdo con el principio de máxima entropía , si no se sabe nada sobre una distribución excepto que pertenece a una cierta clase (generalmente definida en términos de propiedades o medidas específicas), entonces la distribución con la mayor entropía debe elegirse como la distribución predeterminada menos informativa. La motivación es doble: primero, maximizar la entropía minimiza la cantidad de información previa incorporada en la distribución; segundo, muchos sistemas físicos tienden a moverse hacia configuraciones de entropía máxima con el tiempo.

Definición de entropía y entropía diferencial

Si es una variable aleatoria continua con densidad de probabilidad , entonces la entropía diferencial de se define como [1] [2] [3]

Si es una variable aleatoria discreta con distribución dada por

entonces la entropía de se define como

El término aparentemente divergente se reemplaza por cero, siempre que

Este es un caso especial de las formas más generales descritas en los artículos Entropía (teoría de la información) , Principio de máxima entropía y Entropía diferencial. En relación con las distribuciones de máxima entropía, esta es la única necesaria, porque la maximización también maximizará las formas más generales.

La base del logaritmo no es importante, siempre que se utilice la misma de forma sistemática: el cambio de base solo da como resultado un reescalamiento de la entropía. Los teóricos de la información pueden preferir utilizar la base 2 para expresar la entropía en bits ; los matemáticos y físicos suelen preferir el logaritmo natural , lo que da como resultado una unidad de "nat" para la entropía.

Sin embargo, la medida elegida es crucial, aunque el uso típico de la medida de Lebesgue se defiende a menudo como una elección "natural": la medida elegida determina la entropía y la consiguiente distribución máxima de entropía.

Distribuciones con constantes medidas

Muchas distribuciones estadísticas de interés aplicable son aquellas en las que los momentos u otras cantidades mensurables están sujetos a restricciones constantes. El siguiente teorema de Ludwig Boltzmann proporciona la forma de la densidad de probabilidad bajo estas restricciones.

Caso continuo

Supongamos que es un subconjunto continuo y cerrado de los números reales y elegimos especificar funciones y números mensurables. Consideramos la clase de todas las variables aleatorias de valor real que se apoyan en (es decir, cuya función de densidad es cero fuera de ) y que satisfacen las condiciones del momento:

Si hay un miembro en cuya función de densidad es positiva en todas partes y si existe una distribución de entropía máxima para entonces su densidad de probabilidad tiene la siguiente forma:

donde asumimos que la constante y los multiplicadores de Lagrange resuelven el problema de optimización restringida con (lo que garantiza que se integra a la unidad): [4]

Utilizando las condiciones de Karush–Kuhn–Tucker , se puede demostrar que el problema de optimización tiene una solución única porque la función objetivo en la optimización es cóncava en

Nótese que cuando las restricciones de momento son igualdades (en lugar de desigualdades), es decir,

entonces se puede eliminar la condición de restricción , lo que hace que la optimización sobre los multiplicadores de Lagrange no tenga restricciones.

Caso discreto

Supongamos que es un subconjunto discreto (finito o infinito) de los números reales, y que elegimos especificar funciones y números. Consideramos la clase de todas las variables aleatorias discretas que se apoyan en y que satisfacen las condiciones del momento.

Si existe un miembro de la clase que asigna probabilidad positiva a todos los miembros de y si existe una distribución de entropía máxima para entonces esta distribución tiene la siguiente forma:

donde asumimos que y las constantes resuelven el problema de optimización restringida con [5]

Nuevamente como se mencionó anteriormente, si las condiciones del momento son igualdades (en lugar de desigualdades), entonces la condición de restricción no está presente en la optimización.

Prueba en el caso de restricciones de igualdad

En el caso de restricciones de igualdad, este teorema se demuestra con el cálculo de variaciones y los multiplicadores de Lagrange . Las restricciones se pueden escribir como

Consideramos lo funcional

donde y son los multiplicadores de Lagrange. La restricción cero asegura el segundo axioma de probabilidad . Las otras restricciones son que las medidas de la función son constantes hasta el orden . La entropía alcanza un extremo cuando la derivada funcional es igual a cero:

Por lo tanto, la distribución de probabilidad de entropía extrema en este caso debe ser de la forma ( ),

recordando que . Se puede verificar que esta es la solución máxima comprobando que la variación alrededor de esta solución es siempre negativa.

Unicidad del máximo

Supongamos que hay distribuciones que satisfacen las restricciones de expectativa. Si tomamos y consideramos la distribución, queda claro que esta distribución satisface las restricciones de expectativa y además tiene como soporte A partir de hechos básicos sobre la entropía, se cumple que Tomando límites y respectivamente, se obtiene

De ello se deduce que una distribución que satisface las restricciones de expectativa y maximiza la entropía necesariamente debe tener un soporte completo, es decir, la distribución es casi en todas partes estrictamente positiva. De ello se deduce que la distribución maximizadora debe ser un punto interno en el espacio de distribuciones que satisfacen las restricciones de expectativa, es decir, debe ser un extremo local. Por lo tanto, basta con demostrar que el extremo local es único, para demostrar que la distribución que maximiza la entropía es única (y esto también demuestra que el extremo local es el máximo global).

Supongamos que son extremos locales. Reformulando los cálculos anteriores, estos se caracterizan por parámetros a través de y de manera similar para donde Ahora notamos una serie de identidades: A través de 1 la satisfacción de las restricciones de expectativa y utilizando gradientes / derivadas direccionales, se tiene

y de manera similar para Letting se obtiene:

donde para un poco más de computación se tiene

donde es similar a la distribución anterior, solo parametrizada por Suponiendo que ninguna combinación lineal no trivial de los observables es casi en todas partes (ae) constante (lo que, por ejemplo, se cumple si los observables son independientes y no ae constante), se cumple que tiene varianza distinta de cero, a menos que Por la ecuación anterior queda claro que esto último debe ser el caso. Por lo tanto, los parámetros que caracterizan los extremos locales son idénticos, lo que significa que las distribuciones en sí mismas son idénticas. Por lo tanto, el extremo local es único y, por la discusión anterior, el máximo es único, siempre que realmente exista un extremo local.

Advertencias

Nótese que no todas las clases de distribuciones contienen una distribución de entropía máxima. Es posible que una clase contenga distribuciones de entropía arbitrariamente grande (por ejemplo, la clase de todas las distribuciones continuas en R con media 0 pero desviación estándar arbitraria), o que las entropías estén acotadas por encima pero no haya ninguna distribución que alcance la entropía máxima. [a] También es posible que las restricciones de valor esperado para la clase C fuercen a que la distribución de probabilidad sea cero en ciertos subconjuntos de S . En ese caso, nuestro teorema no se aplica, pero se puede solucionar esto reduciendo el conjunto S .

Ejemplos

Toda distribución de probabilidad es, en términos triviales, una distribución de probabilidad de entropía máxima bajo la restricción de que la distribución tiene su propia entropía. Para ver esto, reescribamos la densidad como y comparemos con la expresión del teorema anterior. Al elegir que sea la función medible y

para ser la constante, es la distribución de probabilidad de entropía máxima bajo la restricción

.

Los ejemplos no triviales son distribuciones que están sujetas a múltiples restricciones que son diferentes de la asignación de la entropía. Estas se encuentran a menudo comenzando con el mismo procedimiento y descubriendo que se pueden separar en partes.

En Lisman (1972) [6] y Park & ​​Bera (2009) se ofrece una tabla de ejemplos de distribuciones de entropía máxima . [7]

Distribuciones uniformes y uniformes por partes

La distribución uniforme en el intervalo [ a , b ] es la distribución de entropía máxima entre todas las distribuciones continuas que se admiten en el intervalo [ a , b ], y por lo tanto la densidad de probabilidad es 0 fuera del intervalo. Esta densidad uniforme se puede relacionar con el principio de indiferencia de Laplace , a veces llamado principio de razón insuficiente. De manera más general, si se nos da una subdivisión a = a 0 < a 1 < ... < a k = b del intervalo [ a , b ] y probabilidades p 1 ,..., p k que suman uno, entonces podemos considerar la clase de todas las distribuciones continuas tales que

La densidad de la distribución de entropía máxima para esta clase es constante en cada uno de los intervalos [ a j -1 , a j ). La distribución uniforme en el conjunto finito { x 1 ,..., x n } (que asigna una probabilidad de 1/ n a cada uno de estos valores) es la distribución de entropía máxima entre todas las distribuciones discretas admitidas en este conjunto.

Media positiva y especificada: la distribución exponencial

La distribución exponencial , para la cual la función de densidad es

es la distribución de entropía máxima entre todas las distribuciones continuas admitidas en [0,∞) que tienen una media especificada de 1/λ.

En el caso de distribuciones admitidas en [0,∞), la distribución de máxima entropía depende de las relaciones entre el primer y el segundo momento. En casos específicos, puede ser la distribución exponencial, o puede ser otra distribución, o puede ser indefinible. [8]

Media y varianza especificadas: la distribución normal

La distribución normal N(μ,σ 2 ), para la cual la función de densidad es

tiene máxima entropía entre todas las distribuciones de valores reales admitidas en (−∞,∞) con una varianza especificada σ 2 (un momento particular ). Lo mismo es cierto cuando se especifican la media μ y la varianza σ 2 (los primeros dos momentos), ya que la entropía es invariante en la traslación en (−∞,∞). Por lo tanto, el supuesto de normalidad impone la restricción estructural previa mínima más allá de estos momentos. (Véase el artículo sobre entropía diferencial para una derivación).

Distribuciones discretas con media especificada

Entre todas las distribuciones discretas admitidas en el conjunto { x 1 ,..., x n } con una media especificada μ, la distribución de máxima entropía tiene la siguiente forma:

donde las constantes positivas C y r pueden determinarse mediante los requisitos de que la suma de todas las probabilidades debe ser 1 y el valor esperado debe ser μ.

Por ejemplo, si se lanza una gran cantidad N de dados y se le dice que la suma de todos los números mostrados es S . Basándose solo en esta información, ¿cuál sería una suposición razonable para la cantidad de dados que muestran 1, 2, ..., 6? Este es un ejemplo de la situación considerada anteriormente, con { x 1 ,..., x 6 } = {1,...,6} y μ = S / N .

Finalmente, entre todas las distribuciones discretas admitidas en el conjunto infinito con media μ, la distribución de máxima entropía tiene la forma:

donde nuevamente las constantes C y r se determinaron por los requisitos de que la suma de todas las probabilidades debe ser 1 y el valor esperado debe ser μ. Por ejemplo, en el caso de que x k = k , esto da

de modo que la respectiva distribución de máxima entropía es la distribución geométrica .

Variables aleatorias circulares

Para una variable aleatoria continua distribuida alrededor del círculo unitario, la distribución de Von Mises maximiza la entropía cuando se especifican las partes reales e imaginarias del primer momento circular [9] o, equivalentemente, se especifican la media circular y la varianza circular .

Cuando se especifican la media y la varianza del módulo de los ángulos, la distribución normal envuelta maximiza la entropía. [9]

Maximizador para media, varianza y asimetría especificadas

Existe un límite superior para la entropía de las variables aleatorias continuas con una media, varianza y asimetría especificadas. Sin embargo, no existe ninguna distribución que alcance este límite superior , porque no tiene límites cuando (ver Cover y Thomas (2006: capítulo 12)).

Sin embargo, la entropía máxima es ε -alcanzable: la entropía de una distribución puede ser arbitrariamente cercana al límite superior. Comience con una distribución normal de la media y varianza especificadas. Para introducir una asimetría positiva, altere la distribución normal hacia arriba en una pequeña cantidad en un valor muchos σ mayor que la media. La asimetría, al ser proporcional al tercer momento, se verá afectada más que los momentos de orden inferior.

Este es un caso especial del caso general en el que la exponencial de cualquier polinomio de orden impar en x no estará acotada en . Por ejemplo, tampoco estará acotada en , pero cuando el soporte está limitado a un intervalo acotado o semiacotado, se puede alcanzar el límite superior de entropía (por ejemplo, si x se encuentra en el intervalo [0,∞] y λ< 0 , se obtendrá la distribución exponencial ).

Maximizador para la medida de riesgo de desviación y media especificada

Toda distribución con densidad logarítmica cóncava es una distribución de entropía máxima con una media μ especificada y una medida de riesgo de desviación D. [10  ]

En particular, la distribución de entropía máxima con media y desviación especificadas es:

Otros ejemplos

En la tabla siguiente, cada distribución enumerada maximiza la entropía para un conjunto particular de restricciones funcionales enumeradas en la tercera columna, y la restricción que se incluye en el soporte de la densidad de probabilidad, que se enumera en la cuarta columna. [6] [7]

Varios de los ejemplos enumerados ( Bernouli , geométrico , exponencial , Laplace , Pareto ) son trivialmente ciertos, porque sus restricciones asociadas son equivalentes a la asignación de su entropía. Se incluyen de todos modos porque su restricción está relacionada con una cantidad común o fácil de medir.

Como referencia, es la función gamma , es la función digamma , es la función beta y es la constante de Euler-Mascheroni .

El principio de máxima entropía se puede utilizar para limitar superiormente la entropía de mezclas estadísticas. [12]

Véase también

Notas

  1. ^ Por ejemplo, la clase de todas las distribuciones continuas X en R con E( X ) = 0 y E( X 2 ) = E( X 3 ) = 1 (ver Portada, Cap. 12).

Citas

  1. ^ Williams, D. (2001). Weighing the Odds [Sopesando las probabilidades] . Cambridge University Press . Págs. 197–199. ISBN. 0-521-00618-X.
  2. ^ Bernardo, JM; Smith, AFM (2000). Teoría bayesiana . Wiley. pp. 209, 366. ISBN. 0-471-49464-X.
  3. ^ O'Hagan, A. (1994), Inferencia bayesiana . Teoría avanzada de la estadística de Kendall. Vol. 2B. Edward Arnold . Sección 5.40. ISBN. 0-340-52922-9.
  4. ^ Botev, ZI; Kroese, DP (2011). "El método generalizado de entropía cruzada, con aplicaciones a la estimación de densidad de probabilidad" (PDF) . Metodología y computación en probabilidad aplicada . 13 (1): 1–27. doi :10.1007/s11009-009-9133-7. S2CID  18155189.
  5. ^ Botev, ZI; Kroese, DP (2008). "Selección de ancho de banda no asintótico para estimación de densidad de datos discretos". Metodología y computación en probabilidad aplicada . 10 (3): 435. doi :10.1007/s11009-007-9057-zv. S2CID  122047337.
  6. ^ abc Lisman, JHC; van Zuylen, MCA (1972). "Nota sobre la generación de distribuciones de frecuencias más probables". Statistica Neerlandica . 26 (1): 19–23. doi :10.1111/j.1467-9574.1972.tb00152.x.
  7. ^ ab Park, Sung Y.; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Journal of Econometrics . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi :10.1016/j.jeconom.2008.12.014. Archivado desde el original (PDF) el 2016-03-07 . Consultado el 2011-06-02 . 
  8. ^ Dowson, D.; Wragg, A. (septiembre de 1973). "Distribuciones de máxima entropía con momentos primero y segundo prescritos". IEEE Transactions on Information Theory (correspondencia). 19 (5): 689–693. doi :10.1109/tit.1973.1055060. ISSN  0018-9448.
  9. ^ ab Jammalamadaka, S. Rao; SenGupta, A. (2001). Temas de estadística circular. Nueva Jersey: World Scientific. ISBN 978-981-02-3778-3. Recuperado el 15 de mayo de 2011 .
  10. ^ ab Grechuk, Bogdan; Molyboha, Anton; Zabarankin, Michael (2009). "Principio de máxima entropía con medidas de desviación general". Matemáticas de la investigación de operaciones . 34 (2): 445–467. doi :10.1287/moor.1090.0377 – vía researchgate.net.
  11. ^ ab Harremös, Peter (2001). "Distribuciones binomial y de Poisson como distribuciones de máxima entropía". IEEE Transactions on Information Theory . 47 (5): 2039–2041. doi :10.1109/18.930936. S2CID  16171405.
  12. ^ Nielsen, Frank; Nock, Richard (2017). "Límites superiores de MaxEnt para la entropía diferencial de distribuciones continuas univariadas". IEEE Signal Processing Letters . 24 (4). IEEE : 402–406. Bibcode :2017ISPL...24..402N. doi :10.1109/LSP.2017.2666792. S2CID  14092514.

Referencias