stringtranslate.com

Distribución de probabilidad de máxima entropía

En estadística y teoría de la información , una distribución de probabilidad de entropía máxima tiene una entropía que es al menos tan grande como la de todos los demás miembros de una clase específica de distribuciones de probabilidad . Según el principio de máxima entropía , si no se sabe nada acerca de una distribución excepto que pertenece a una determinada clase (generalmente definida en términos de propiedades o medidas específicas), entonces la distribución con la mayor entropía debe elegirse como la menos informativa. por defecto. La motivación es doble: primero, maximizar la entropía minimiza la cantidad de información previa incorporada a la distribución; En segundo lugar, muchos sistemas físicos tienden a avanzar hacia configuraciones de entropía máxima con el tiempo.

Definición de entropía y entropía diferencial.

Si es una variable aleatoria continua con densidad de probabilidad , entonces la entropía diferencial de se define como [1] [2] [3]

Si es una variable aleatoria discreta con distribución dada por

entonces la entropía de se define como

El término aparentemente divergente se reemplaza por cero, siempre que

Este es un caso especial de formas más generales descritas en los artículos Entropía (teoría de la información) , Principio de máxima entropía y entropía diferencial. En relación con las distribuciones de máxima entropía, esta es la única necesaria, porque maximizar también maximizará las formas más generales.

La base del logaritmo no es importante, siempre que se utilice la misma de forma coherente: el cambio de base simplemente da como resultado un cambio de escala de la entropía. Los teóricos de la información pueden preferir utilizar la base 2 para expresar la entropía en bits ; Los matemáticos y físicos suelen preferir el logaritmo natural , lo que da como resultado una unidad de "nat" para la entropía.

Sin embargo, la medida elegida es crucial, aunque el uso típico de la medida de Lebesgue a menudo se defiende como una elección "natural": la medida elegida determina la entropía y la consiguiente distribución máxima de entropía.

Distribuciones con constantes medidas

Muchas distribuciones estadísticas de interés aplicable son aquellas en las que los momentos u otras cantidades mensurables están obligados a ser constantes. El siguiente teorema de Ludwig Boltzmann da la forma de la densidad de probabilidad bajo estas restricciones.

Caso continuo

Supongamos que es un subconjunto continuo y cerrado de números reales y elegimos especificar funciones y números medibles. Consideramos la clase de todas las variables aleatorias de valor real que se apoyan en (es decir, cuya función de densidad es cero fuera de ) y que satisfacen el momento condiciones:

Si hay un miembro cuya función de densidad es positiva en todas partes y si existe una distribución de entropía máxima, entonces su densidad de probabilidad tiene la siguiente forma:

donde asumimos que la constante y los multiplicadores de Lagrange resuelven el problema de optimización restringida con (lo que asegura que se integre a la unidad): [4]

Utilizando las condiciones de Karush-Kuhn-Tucker , se puede demostrar que el problema de optimización tiene una solución única porque la función objetivo en la optimización es cóncava en

Tenga en cuenta que cuando las restricciones de momento son igualdades (en lugar de desigualdades), es decir,

entonces se puede eliminar la condición de restricción , lo que hace que la optimización sobre los multiplicadores de Lagrange no tenga restricciones.

Caso discreto

Supongamos que es un subconjunto discreto (finito o infinito) de los reales, y que elegimos especificar funciones y números. Consideramos la clase de todas las variables aleatorias discretas que se apoyan y satisfacen las condiciones de momento.

Si existe un miembro de una clase que asigna probabilidad positiva a todos los miembros de y si existe una distribución de entropía máxima para ella, entonces esta distribución tiene la siguiente forma:

donde asumimos que y las constantes resuelven el problema de optimización restringida con [5]

Nuevamente como se indicó anteriormente, si las condiciones de momento son igualdades (en lugar de desigualdades), entonces la condición de restricción no está presente en la optimización.

Prueba en el caso de restricciones de igualdad.

En el caso de restricciones de igualdad, este teorema se prueba con el cálculo de variaciones y multiplicadores de Lagrange . Las restricciones se pueden escribir como

Consideramos lo funcional

donde y son los multiplicadores de Lagrange. La restricción cero asegura el segundo axioma de probabilidad . Las otras restricciones son que las medidas de la función tengan constantes hasta el orden . La entropía alcanza un extremo cuando la derivada funcional es igual a cero:

Por lo tanto, la distribución de probabilidad de entropía extrema en este caso debe ser de la forma ( ),

recordando eso . Se puede verificar que esta es la solución máxima comprobando que la variación alrededor de esta solución es siempre negativa.

Unicidad del máximo.

Supongamos que hay distribuciones que satisfacen las restricciones de expectativas. Considerando y considerando la distribución, queda claro que esta distribución satisface las restricciones de expectativas y además tiene como soporte. A partir de hechos básicos sobre la entropía, se sostiene que Tomando límites y respectivamente, se obtiene

De ello se deduce que una distribución que satisfaga las restricciones de las expectativas y maximice la entropía debe necesariamente tener pleno apoyo; es decir, la distribución es casi en todas partes estrictamente positiva. De ello se deduce que la distribución maximizadora debe ser un punto interno en el espacio de distribuciones que satisfacen las restricciones de expectativas, es decir, debe ser un extremo local. Por tanto, basta con demostrar que el extremo local es único para demostrar que la distribución maximizadora de entropía es única (y esto también muestra que el extremo local es el máximo global).

Supongamos que son extremos locales. Al reformular los cálculos anteriores, estos se caracterizan por parámetros vía y de manera similar para donde ahora observamos una serie de identidades: A través de 1 la satisfacción de las restricciones de expectativa y la utilización de gradientes/derivadas direccionales, se tiene

y de manera similar para Dejar se obtiene:

donde para algo de Computación más uno tiene

donde es similar a la distribución anterior, solo que está parametrizada asumiendo que ninguna combinación lineal no trivial de los observables es casi en todas partes (ae) constante (lo que, por ejemplo, se cumple si los observables son independientes y no son constantes), se cumple que no tiene -varianza cero, a menos que por la ecuación anterior quede claro que este último debe ser el caso. Por tanto, los parámetros que caracterizan los extremos locales son idénticos, lo que significa que las distribuciones mismas son idénticas. Por lo tanto, el extremo local es único y, según la discusión anterior, el máximo es único, siempre que realmente exista un extremo local.

Advertencias

Tenga en cuenta que no todas las clases de distribuciones contienen una distribución de entropía máxima. Es posible que una clase contenga distribuciones de entropía arbitrariamente grande (por ejemplo, la clase de todas las distribuciones continuas en R con media 0 pero desviación estándar arbitraria), o que las entropías estén acotadas por encima pero no haya una distribución que alcance la entropía máxima. [a] También es posible que las restricciones del valor esperado para la clase C obliguen a que la distribución de probabilidad sea cero en ciertos subconjuntos de S. En ese caso , nuestro teorema no se aplica, pero se puede solucionar este problema reduciendo el conjunto S.

Ejemplos

Cada distribución de probabilidad es trivialmente una distribución de probabilidad de máxima entropía bajo la restricción de que la distribución tiene su propia entropía. Para ver esto, reescribe la densidad como y compárala con la expresión del teorema anterior. Al elegir ser la función medible y

ser la constante, es la distribución de probabilidad de entropía máxima bajo la restricción

.

Ejemplos no triviales son distribuciones que están sujetas a múltiples restricciones que son diferentes de la asignación de entropía. Estos suelen encontrarse comenzando con el mismo procedimiento y encontrando que se pueden separar en partes.

En Lisman (1972) [6] y Park & ​​Bera (2009) se proporciona una tabla de ejemplos de distribuciones de entropía máxima . [7]

Distribuciones uniformes y uniformes por partes.

La distribución uniforme en el intervalo [ a , b ] es la distribución de entropía máxima entre todas las distribuciones continuas que se admiten en el intervalo [ a , b ] y, por lo tanto, la densidad de probabilidad es 0 fuera del intervalo. Esta densidad uniforme puede relacionarse con el principio de indiferencia de Laplace , a veces llamado principio de razón insuficiente. De manera más general, si nos dan una subdivisión a = a 0 < a 1 < ... < a k = b del intervalo [ a , b ] y probabilidades p 1 ,..., p k que suman uno, entonces podemos considerar la clase de todas las distribuciones continuas tales que

La densidad de la distribución de entropía máxima para esta clase es constante en cada uno de los intervalos [ a j -1 , a j ). La distribución uniforme en el conjunto finito { x 1 ,..., x n } (que asigna una probabilidad de 1/ n a cada uno de estos valores) es la distribución de entropía máxima entre todas las distribuciones discretas admitidas en este conjunto.

Media positiva y especificada: la distribución exponencial

La distribución exponencial , para la cual la función de densidad es

es la distribución de entropía máxima entre todas las distribuciones continuas admitidas en [0,∞) que tienen una media especificada de 1/λ.

En el caso de distribuciones soportadas en [0,∞), la distribución de entropía máxima depende de las relaciones entre el primer y segundo momento. En casos específicos, puede ser la distribución exponencial, puede ser otra distribución o puede ser indefinible. [8]

Media y varianza especificadas: la distribución normal

La distribución normal N(μ,σ 2 ), para la cual la función de densidad es

tiene la entropía máxima entre todas las distribuciones de valor real soportadas en (−∞,∞) con una varianza especificada σ 2 (un momento particular ). Lo mismo ocurre cuando se especifica la media μ y la varianza σ 2 (los dos primeros momentos), ya que la entropía es invariante de traducción en (−∞,∞). Por lo tanto, el supuesto de normalidad impone la mínima restricción estructural previa más allá de estos momentos. (Consulte el artículo sobre entropía diferencial para obtener una derivación).

Distribuciones discretas con media especificada

Entre todas las distribuciones discretas admitidas en el conjunto { x 1 ,..., x n } con una media μ especificada, la distribución de entropía máxima tiene la siguiente forma:

donde las constantes positivas C y r pueden determinarse mediante el requisito de que la suma de todas las probabilidades debe ser 1 y el valor esperado debe ser μ.

Por ejemplo, si se lanza una gran cantidad de N dados y se le dice que la suma de todos los números mostrados es S. Basándose únicamente en esta información, ¿cuál sería una suposición razonable para el número de dados que muestran 1, 2,..., 6? Este es un ejemplo de la situación considerada anteriormente, con { x 1 ,..., x 6 } = {1,...,6} y μ = S / N .

Finalmente, entre todas las distribuciones discretas soportadas en el conjunto infinito con media μ, la distribución de máxima entropía tiene la forma:

donde nuevamente las constantes C y r fueron determinadas por los requisitos de que la suma de todas las probabilidades debe ser 1 y el valor esperado debe ser μ. Por ejemplo, en el caso de que x k = k , esto da

tal que la distribución máxima de entropía respectiva sea la distribución geométrica .

Variables aleatorias circulares

Para una variable aleatoria continua distribuida alrededor del círculo unitario, la distribución de Von Mises maximiza la entropía cuando se especifican las partes real e imaginaria del primer momento circular [9] o, de manera equivalente, se especifican la media circular y la varianza circular .

Cuando se especifican la media y la varianza del módulo de los ángulos, la distribución normal envuelta maximiza la entropía. [9]

Maximizador para media, varianza y sesgo especificados

Existe un límite superior para la entropía de variables aleatorias continuas con una media, varianza y asimetría especificadas. Sin embargo, no existe ninguna distribución que alcance este límite superior , porque es ilimitada cuando (ver Cover & Thomas (2006: capítulo 12)).

Sin embargo, la entropía máxima es ε alcanzable: la entropía de una distribución puede estar arbitrariamente cerca del límite superior. Comience con una distribución normal de la media y la varianza especificadas. Para introducir un sesgo positivo, perturbe la distribución normal hacia arriba en una pequeña cantidad en un valor muchos σ mayor que la media. La asimetría, al ser proporcional al tercer momento, se verá afectada más que los momentos de orden inferior.

Este es un caso especial del caso general en el que la exponencial de cualquier polinomio de orden impar en x será ilimitada en . Por ejemplo, también será ilimitado en , pero cuando el soporte se limita a un intervalo acotado o semi-acotado se puede alcanzar el límite de entropía superior (por ejemplo, si x se encuentra en el intervalo [0,∞] y λ< 0 , el exponencial la distribución resultará).

Maximizador para la medida de riesgo de desviación y media especificada

Cada distribución con densidad logarítmica cóncava es una distribución de entropía máxima con una media μ especificada y  una medida de riesgo de desviación D. [10]

En particular, la distribución de entropía máxima con media y desviación especificadas es:

Otros ejemplos

En la siguiente tabla, cada distribución enumerada maximiza la entropía para un conjunto particular de restricciones funcionales enumeradas en la tercera columna, y la restricción que se incluye en el soporte de la densidad de probabilidad, que se enumera en la cuarta columna. [6] [7]

Varios ejemplos enumerados ( Bernoulli , geométrico , exponencial , Laplace , Pareto ) son trivialmente ciertos, porque sus restricciones asociadas son equivalentes a la asignación de su entropía. Se incluyen de todos modos porque su restricción está relacionada con una cantidad común o fácil de medir.

Como referencia, es la función gamma , es la función digamma , es la función beta y es la constante de Euler-Mascheroni .

El principio de máxima entropía se puede utilizar para limitar la entropía de mezclas estadísticas. [12]

Ver también

Notas

  1. ^ Por ejemplo, la clase de todas las distribuciones continuas X en R con E( X ) = 0 y E( X 2 ) = E( X 3 ) = 1 (ver portada, capítulo 12).

Citas

  1. ^ Williams, D. (2001). Sopesando las probabilidades . Prensa de la Universidad de Cambridge . págs. 197-199. ISBN 0-521-00618-X.
  2. ^ Bernardo, JM; Smith, AFM (2000). Teoría bayesiana . Wiley. págs.209, 366. ISBN 0-471-49464-X.
  3. ^ O'Hagan, A. (1994), Inferencia bayesiana . Teoría avanzada de la estadística de Kendall. vol. 2B. Eduardo Arnold . sección 5.40. ISBN 0-340-52922-9.
  4. ^ Botev, ZI; Kroese, DP (2011). "El método de entropía cruzada generalizada, con aplicaciones a la estimación de densidad de probabilidad" (PDF) . Metodología y Computación en Probabilidad Aplicada . 13 (1): 1–27. doi :10.1007/s11009-009-9133-7. S2CID  18155189.
  5. ^ Botev, ZI; Kroese, DP (2008). "Selección de ancho de banda no asintótica para la estimación de densidad de datos discretos". Metodología y Computación en Probabilidad Aplicada . 10 (3): 435. doi :10.1007/s11009-007-9057-zv. S2CID  122047337.
  6. ^ abc Lisman, JHC; van Zuylen, MCA (1972). "Nota sobre la generación de distribuciones de frecuencia más probables". Statistica Neerlandica . 26 (1): 19-23. doi :10.1111/j.1467-9574.1972.tb00152.x.
  7. ^ ab Park, Sung Y.; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Revista de Econometría . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi :10.1016/j.jeconom.2008.12.014. Archivado desde el original (PDF) el 7 de marzo de 2016 . Consultado el 2 de junio de 2011 . 
  8. ^ Dowson, D.; Wragg, A. (septiembre de 1973). "Distribuciones de máxima entropía que han prescrito el primer y segundo momento". Transacciones IEEE sobre teoría de la información (correspondencia). 19 (5): 689–693. doi :10.1109/tit.1973.1055060. ISSN  0018-9448.
  9. ^ ab Jammalamadaka, S. Rao; SenGupta, A. (2001). Temas de estadística circular. Nueva Jersey: World Scientific. ISBN 978-981-02-3778-3. Consultado el 15 de mayo de 2011 .
  10. ^ ab Grechuk, Bogdan; Molyboha, Antón; Zabarankin, Michael (2009). "Principio de máxima entropía con medidas de desviación general". Matemáticas de la Investigación de Operaciones . 34 (2): 445–467. doi :10.1287/moor.1090.0377 – a través de researchgate.net.
  11. ^ ab Harremös, Peter (2001). "Distribuciones binomiales y de Poisson como distribuciones de máxima entropía". Transacciones IEEE sobre teoría de la información . 47 (5): 2039-2041. doi : 10.1109/18.930936. S2CID  16171405.
  12. ^ Nielsen, Frank; Nock, Richard (2017). "Límites superiores de MaxEnt para la entropía diferencial de distribuciones continuas univariadas". Cartas de procesamiento de señales IEEE . IEEE . 24 (4): 402–406. Código Bib : 2017ISPL...24..402N. doi :10.1109/LSP.2017.2666792. S2CID  14092514.

Referencias