stringtranslate.com

Principio de máxima entropía

El principio de máxima entropía establece que la distribución de probabilidad que mejor representa el estado actual del conocimiento sobre un sistema es la que tiene la mayor entropía , en el contexto de datos previos establecidos con precisión (como una proposición que expresa información comprobable).

Otra forma de decirlo: tomemos datos anteriores establecidos con precisión o información comprobable sobre una función de distribución de probabilidad. Consideremos el conjunto de todas las distribuciones de probabilidad de prueba que codificarían los datos anteriores. Según este principio, la distribución con máxima entropía de información es la mejor opción.

Historia

El principio fue expuesto por primera vez por ET Jaynes en dos artículos en 1957, [1] [2] donde enfatizó una correspondencia natural entre la mecánica estadística y la teoría de la información . En particular, Jaynes argumentó que el método gibbsiano de la mecánica estadística es sólido al argumentar también que la entropía de la mecánica estadística y la entropía de la información de la teoría de la información son el mismo concepto. En consecuencia, la mecánica estadística debe considerarse una aplicación particular de una herramienta general de inferencia lógica y teoría de la información.

Descripción general

En la mayoría de los casos prácticos, los datos previos establecidos o la información comprobable se dan mediante un conjunto de cantidades conservadas (valores promedio de algunas funciones de momento), asociadas con la distribución de probabilidad en cuestión. Esta es la forma en que el principio de máxima entropía se utiliza con mayor frecuencia en termodinámica estadística . Otra posibilidad es prescribir algunas simetrías de la distribución de probabilidad. La equivalencia entre cantidades conservadas y grupos de simetría correspondientes implica una equivalencia similar para estas dos formas de especificar la información comprobable en el método de máxima entropía.

El principio de máxima entropía también es necesario para garantizar la unicidad y consistencia de las asignaciones de probabilidad obtenidas por diferentes métodos, en particular la mecánica estadística y la inferencia lógica .

El principio de máxima entropía hace explícita nuestra libertad para utilizar diferentes formas de datos previos . Como caso especial, se puede adoptar una densidad de probabilidad previa uniforme ( principio de indiferencia de Laplace , a veces llamado principio de razón insuficiente). Por lo tanto, el principio de máxima entropía no es simplemente una forma alternativa de considerar los métodos habituales de inferencia de las estadísticas clásicas, sino que representa una generalización conceptual significativa de esos métodos.

Sin embargo, estas afirmaciones no implican que no sea necesario demostrar que los sistemas termodinámicos son ergódicos para justificar su tratamiento como un conjunto estadístico .

En lenguaje corriente, se puede decir que el principio de máxima entropía expresa una pretensión de modestia epistémica, o de máxima ignorancia. La distribución seleccionada es la que menos pretensiones tiene de estar informada más allá de los datos previos establecidos, es decir, la que admite la mayor ignorancia más allá de los datos previos establecidos.

Información comprobable

El principio de máxima entropía es útil explícitamente solo cuando se aplica a información comprobable . La información comprobable es una afirmación sobre una distribución de probabilidad cuya verdad o falsedad está bien definida. Por ejemplo, las afirmaciones

La expectativa de la variable es 2,87

y

(donde y son probabilidades de eventos) son declaraciones de información comprobable.

Dada información comprobable, el procedimiento de máxima entropía consiste en buscar la distribución de probabilidad que maximice la entropía de la información , sujeta a las restricciones de la información. Este problema de optimización restringida se resuelve típicamente utilizando el método de multiplicadores de Lagrange . [3]

La maximización de la entropía sin información comprobable respeta la "restricción" universal de que la suma de las probabilidades es uno. Bajo esta restricción, la distribución de probabilidad discreta de máxima entropía es la distribución uniforme .

Aplicaciones

El principio de máxima entropía se aplica comúnmente de dos maneras a los problemas inferenciales:

Probabilidades previas

El principio de máxima entropía se utiliza a menudo para obtener distribuciones de probabilidad previas para la inferencia bayesiana . Jaynes fue un firme defensor de este enfoque, afirmando que la distribución de máxima entropía representaba la distribución menos informativa. [4] Actualmente, una gran cantidad de literatura se dedica a la obtención de distribuciones previas de máxima entropía y a los vínculos con la codificación de canales . [5] [6] [7] [8]

Probabilidades posteriores

La entropía máxima es una regla de actualización suficiente para el probabilismo radical . La cinemática de probabilidad de Richard Jeffrey es un caso especial de inferencia de entropía máxima. Sin embargo, la entropía máxima no es una generalización de todas esas reglas de actualización suficientes. [9]

Modelos de máxima entropía

Alternativamente, el principio se invoca a menudo para la especificación del modelo: en este caso, se supone que los datos observados en sí mismos son la información comprobable. Dichos modelos se utilizan ampliamente en el procesamiento del lenguaje natural . Un ejemplo de un modelo de este tipo es la regresión logística , que corresponde al clasificador de máxima entropía para observaciones independientes.

Estimación de densidad de probabilidad

Una de las principales aplicaciones del principio de máxima entropía es la estimación de densidad discreta y continua . [10] [11] De manera similar a los estimadores de máquinas de vectores de soporte , el principio de máxima entropía puede requerir la solución de un problema de programación cuadrática y, por lo tanto, proporcionar un modelo de mezcla dispersa como el estimador de densidad óptimo. Una ventaja importante del método es su capacidad para incorporar información previa en la estimación de densidad. [12]

Solución general para la distribución de máxima entropía con restricciones lineales

Caso discreto

Disponemos de cierta información comprobable I sobre una cantidad x que toma valores en { x 1 , x 2 ,..., x n }. Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k ; es decir, requerimos que nuestra distribución de probabilidad satisfaga las restricciones de desigualdad/igualdad de momentos:

donde son observables. También requerimos que la densidad de probabilidad sume uno, lo que puede verse como una restricción primitiva en la función de identidad y un observable igual a 1, lo que da la restricción

La distribución de probabilidad con máxima entropía de información sujeta a estas restricciones de desigualdad/igualdad tiene la forma: [10]

Para algunos , se la denomina a veces distribución de Gibbs . La constante de normalización está determinada por:

y se denomina convencionalmente función de partición . (El teorema de Pitman-Koopman establece que la condición necesaria y suficiente para que una distribución de muestreo admita suficientes estadísticas de dimensión acotada es que tenga la forma general de una distribución de entropía máxima).

Los parámetros λ k son multiplicadores de Lagrange. En el caso de restricciones de igualdad, sus valores se determinan a partir de la solución de las ecuaciones no lineales.

En el caso de restricciones de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexa con restricciones lineales. [10] En ambos casos, no existe una solución en forma cerrada , y el cálculo de los multiplicadores de Lagrange generalmente requiere métodos numéricos .

Caso continuo

Para distribuciones continuas , no se puede utilizar la entropía de Shannon, ya que sólo está definida para espacios de probabilidad discretos. En su lugar, Edwin Jaynes (1963, 1968, 2003) dio la siguiente fórmula, que está estrechamente relacionada con la entropía relativa (véase también entropía diferencial ).

donde q ( x ), que Jaynes llamó la "medida invariante", es proporcional a la densidad límite de puntos discretos . Por ahora, supondremos que q es conocido; lo analizaremos más a fondo después de que se den las ecuaciones de solución.

Una cantidad estrechamente relacionada, la entropía relativa, se define habitualmente como la divergencia de Kullback-Leibler entre p y q (aunque a veces, de manera confusa, se la define como el negativo de esta). El principio de inferencia para minimizar esto, debido a Kullback, se conoce como el Principio de Información de Discriminación Mínima .

Disponemos de cierta información comprobable I sobre una cantidad x que toma valores en algún intervalo de los números reales (todas las integrales a continuación se encuentran en este intervalo). Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k , es decir, requerimos que nuestra función de densidad de probabilidad satisfaga las restricciones de momento de desigualdad (o de igualdad pura):

donde son observables. También requerimos que la densidad de probabilidad se integre en uno, lo que puede verse como una restricción primitiva en la función de identidad y un observable igual a 1 que da la restricción

La función de densidad de probabilidad con H c máxima sujeta a estas restricciones es: [11]

con la función de partición determinada por

Al igual que en el caso discreto, en el caso en que todas las restricciones de momento son igualdades, los valores de los parámetros están determinados por el sistema de ecuaciones no lineales:

En el caso de restricciones de momentos de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexa . [11]

La función de medida invariante q ( x ) se puede entender mejor suponiendo que se sabe que x toma valores solo en el intervalo acotado ( a , b ), y que no se proporciona ninguna otra información. Entonces, la función de densidad de probabilidad de entropía máxima es

donde A es una constante de normalización. La función de medida invariante es en realidad la función de densidad previa que codifica la "falta de información relevante". No se puede determinar mediante el principio de máxima entropía, y debe determinarse mediante algún otro método lógico, como el principio de grupos de transformación o la teoría de marginalización .

Ejemplos

Para ver varios ejemplos de distribuciones de máxima entropía, consulte el artículo sobre distribuciones de probabilidad de máxima entropía .

Justificaciones del principio de máxima entropía

Los defensores del principio de máxima entropía justifican su uso para asignar probabilidades de varias maneras, incluidos los dos argumentos siguientes. Estos argumentos dan por sentado el uso de la probabilidad bayesiana y, por lo tanto, están sujetos a los mismos postulados.

La entropía de la información como medida de la “falta de información”

Consideremos una distribución de probabilidad discreta entre proposiciones mutuamente excluyentes . La distribución más informativa se daría cuando se supiera que una de las proposiciones era verdadera. En ese caso, la entropía de la información sería igual a cero. La distribución menos informativa se daría cuando no hubiera ninguna razón para favorecer a ninguna de las proposiciones sobre las demás. En ese caso, la única distribución de probabilidad razonable sería uniforme, y entonces la entropía de la información sería igual a su valor máximo posible, . Por lo tanto, la entropía de la información puede verse como una medida numérica que describe qué tan poco informativa es una distribución de probabilidad particular, que va desde cero (completamente informativa) a (completamente poco informativa).

Al optar por utilizar la distribución con la máxima entropía permitida por nuestra información, el argumento es que estamos eligiendo la distribución menos informativa posible. Elegir una distribución con menor entropía sería asumir que no poseemos información. Por lo tanto, la distribución de máxima entropía es la única distribución razonable. Sin embargo, la dependencia de la solución de la medida dominante representada por es una fuente de críticas al enfoque, ya que esta medida dominante es, de hecho, arbitraria. [13]

La derivación de Wallis

El siguiente argumento es el resultado de una sugerencia hecha por Graham Wallis a ET Jaynes en 1962. [14] Es esencialmente el mismo argumento matemático utilizado para las estadísticas de Maxwell-Boltzmann en mecánica estadística , aunque el énfasis conceptual es bastante diferente. Tiene la ventaja de ser estrictamente combinatorio por naturaleza, sin hacer referencia a la entropía de la información como una medida de "incertidumbre", "falta de información" o cualquier otro concepto definido de manera imprecisa. La función de entropía de la información no se supone a priori , sino que se encuentra en el curso del argumento; y el argumento conduce naturalmente al procedimiento de maximizar la entropía de la información, en lugar de tratarla de alguna otra manera.

Supongamos que un individuo desea hacer una asignación de probabilidad entre proposiciones mutuamente excluyentes . Tiene cierta información comprobable, pero no está seguro de cómo incluir esta información en su evaluación de probabilidad. Por lo tanto, concibe el siguiente experimento aleatorio. Distribuirá cuantos de probabilidad (cada uno con un valor ) al azar entre las posibilidades. (Uno podría imaginar que lanzará pelotas en baldes con los ojos vendados. Para ser lo más justo posible, cada lanzamiento debe ser independiente de cualquier otro, y todos los baldes deben tener el mismo tamaño). Una vez realizado el experimento, verificará si la asignación de probabilidad así obtenida es consistente con su información. (Para que este paso sea exitoso, la información debe ser una restricción dada por un conjunto abierto en el espacio de medidas de probabilidad). Si es inconsistente, la rechazará y lo intentará nuevamente. Si es consistente, su evaluación será

donde es la probabilidad de la proposición n , mientras que n i es el número de cuantos que se asignaron a la proposición n (es decir, el número de bolas que terminaron en el balde ).

Ahora bien, para reducir la "granulosidad" de la asignación de probabilidad, será necesario utilizar una cantidad bastante grande de cuantos de probabilidad. En lugar de llevar a cabo realmente, y posiblemente tener que repetir, el experimento aleatorio bastante largo, el protagonista decide simplemente calcular y utilizar el resultado más probable. La probabilidad de cualquier resultado particular es la distribución multinomial ,

dónde

A veces se conoce como la multiplicidad del resultado.

El resultado más probable es el que maximiza la multiplicidad . En lugar de maximizar directamente, el protagonista podría maximizar de manera equivalente cualquier función monótona creciente de . Decide maximizar

En este punto, para simplificar la expresión, el protagonista toma el límite como , es decir, como los niveles de probabilidad pasan de valores discretos granulados a valores continuos suaves. Utilizando la aproximación de Stirling , encuentra

Todo lo que le queda al protagonista por hacer es maximizar la entropía bajo las limitaciones de su información comprobable. Ha descubierto que la distribución de máxima entropía es la más probable de todas las distribuciones aleatorias "justas", en el límite en que los niveles de probabilidad pasan de discretos a continuos.

Compatibilidad con el teorema de Bayes

Giffin y Caticha (2007) afirman que el teorema de Bayes y el principio de máxima entropía son completamente compatibles y pueden considerarse casos especiales del "método de máxima entropía relativa". Afirman que este método reproduce todos los aspectos de los métodos de inferencia bayesianos ortodoxos. Además, este nuevo método abre la puerta a la solución de problemas que no podrían resolverse ni con el principio de máxima entropía ni con los métodos bayesianos ortodoxos de forma individual. Además, contribuciones recientes (Lazar 2003 y Schennach 2005) muestran que los enfoques de inferencia basados ​​en la entropía relativa frecuentistas (como la verosimilitud empírica y la verosimilitud empírica exponencialmente inclinada; véase, por ejemplo, Owen 2001 y Kitamura 2006) pueden combinarse con información previa para realizar un análisis posterior bayesiano.

Jaynes afirmó que el teorema de Bayes era una forma de calcular una probabilidad, mientras que la entropía máxima era una forma de asignar una distribución de probabilidad previa. [15]

Sin embargo, es posible, en concepto, resolver una distribución posterior directamente a partir de una distribución previa establecida utilizando el principio de entropía cruzada mínima (o el principio de entropía máxima, que es un caso especial de uso de una distribución uniforme como la distribución previa dada), independientemente de cualquier consideración bayesiana, tratando el problema formalmente como un problema de optimización restringida, siendo la función de entropía la función objetivo. Para el caso de valores promedio dados como información comprobable (promediada sobre la distribución de probabilidad buscada), la distribución buscada es formalmente la distribución de Gibbs (o de Boltzmann) cuyos parámetros deben resolverse para lograr una entropía cruzada mínima y satisfacer la información comprobable dada.

Relevancia para la física

El principio de máxima entropía guarda relación con un supuesto clave de la teoría cinética de los gases, conocido como caos molecular o Stosszahlansatz . Este postulado afirma que la función de distribución que caracteriza a las partículas que entran en colisión puede factorizarse. Aunque esta afirmación puede entenderse como una hipótesis estrictamente física, también puede interpretarse como una hipótesis heurística sobre la configuración más probable de las partículas antes de colisionar. [16]

Véase también

Notas

  1. ^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística" (PDF) . Physical Review . Serie II. 106 (4): 620–630. Bibcode :1957PhRv..106..620J. doi :10.1103/PhysRev.106.620. MR  0087305.
  2. ^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística II" (PDF) . Physical Review . Serie II. 108 (2): 171–190. Bibcode :1957PhRv..108..171J. doi :10.1103/PhysRev.108.171. MR  0096414.
  3. ^ Sivia, Devinderjit; Skilling, John (2 de junio de 2006). Análisis de datos: un tutorial bayesiano. OUP Oxford. ISBN 978-0-19-154670-9.
  4. ^ Jaynes, ET (1968). "Probabilidades previas" (PDF) . IEEE Transactions on Systems Science and Cybernetics . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117.
  5. ^ Clarke, B. (2006). "Optimidad de la información y modelado bayesiano". Journal of Econometrics . 138 (2): 405–429. doi :10.1016/j.jeconom.2006.05.003.
  6. ^ Soofi, ES (2000). "Principales enfoques teóricos de la información". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1349–1353. doi :10.2307/2669786. JSTOR  2669786. MR  1825292.
  7. ^ Bousquet, N. (2008). "Obtención de valores a priori de entropía máxima vagos pero adecuados en experimentos bayesianos". Documentos estadísticos . 51 (3): 613–628. doi :10.1007/s00362-008-0149-9. S2CID  119657859.
  8. ^ Palmieri, Francesco AN; Ciuonzo, Domenico (1 de abril de 2013). "Prioridades objetivas a partir de la entropía máxima en la clasificación de datos". Information Fusion . 14 (2): 186–198. CiteSeerX 10.1.1.387.4515 . doi :10.1016/j.inffus.2012.01.012. 
  9. ^ Skyrms, B (1987). "Actualización, suposición y MAXENT". Teoría y decisión . 22 (3): 225–46. doi :10.1007/BF00134086. S2CID  121847242.
  10. ^ abc Botev, ZI; Kroese, DP (2008). "Selección de ancho de banda no asintótico para estimación de densidad de datos discretos". Metodología y computación en probabilidad aplicada . 10 (3): 435. doi :10.1007/s11009-007-9057-z. S2CID  122047337.
  11. ^ abc Botev, ZI; Kroese, DP (2011). "El método generalizado de entropía cruzada, con aplicaciones a la estimación de densidad de probabilidad" (PDF) . Metodología y computación en probabilidad aplicada . 13 (1): 1–27. doi :10.1007/s11009-009-9133-7. S2CID  18155189.
  12. ^ Kesavan, HK; Kapur, JN (1990). "Principios de entropía máxima y entropía cruzada mínima". En Fougère, PF (ed.). Máxima entropía y métodos bayesianos . págs. 419–432. doi :10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.
  13. ^ Druilhet, Pierre; Marin, Jean-Michel (2007). "Conjuntos creíbles invariantes {HPD} y estimadores {MAP}". Bayesian Anal . 2 : 681–691. doi : 10.1214/07-BA227 (inactivo 2024-04-27).{{cite journal}}: CS1 maint: DOI inactive as of April 2024 (link)
  14. ^ Jaynes, ET (2003) Teoría de la probabilidad: la lógica de la ciencia , Cambridge University Press, pág. 351-355. ISBN 978-0521592710 
  15. ^ Jaynes, ET (1988) "La relación de los métodos bayesianos y de máxima entropía", en Métodos bayesianos y de máxima entropía en ciencia e ingeniería (Vol. 1) , Kluwer Academic Publishers, pág. 25-29.
  16. ^ Chliamovitch, G.; Malaspinas, O.; Chopard, B. (2017). "Teoría cinética más allá del Stosszahlansatz". Entropía . 19 (8): 381. Bibcode :2017Entrp..19..381C. doi : 10.3390/e19080381 .

Referencias

Lectura adicional