stringtranslate.com

Principio de máxima entropía

El principio de máxima entropía establece que la distribución de probabilidad que mejor representa el estado actual de conocimiento sobre un sistema es la que tiene mayor entropía , en el contexto de datos previos establecidos con precisión (como una proposición que expresa información comprobable).

Otra forma de decir esto: tome datos previos establecidos con precisión o información comprobable sobre una función de distribución de probabilidad. Considere el conjunto de todas las distribuciones de probabilidad de prueba que codificarían los datos anteriores. Según este principio, la distribución con máxima entropía de información es la mejor opción.

Historia

El principio fue expuesto por primera vez por ET Jaynes en dos artículos de 1957 [1] [2] donde enfatizó una correspondencia natural entre la mecánica estadística y la teoría de la información . En particular, Jaynes ofreció una justificación nueva y muy general de por qué funciona el método gibbsiano de mecánica estadística. Sostuvo que la entropía de la mecánica estadística y la entropía de la información de la teoría de la información son básicamente la misma. En consecuencia, la mecánica estadística debe verse simplemente como una aplicación particular de una herramienta general de inferencia lógica y teoría de la información.

Descripción general

En la mayoría de los casos prácticos, los datos previos declarados o la información comprobable vienen dados por un conjunto de cantidades conservadas (valores promedio de algunas funciones de momento), asociadas con la distribución de probabilidad en cuestión. Ésta es la forma en que se utiliza con mayor frecuencia el principio de máxima entropía en termodinámica estadística . Otra posibilidad es prescribir algunas simetrías de la distribución de probabilidad. La equivalencia entre cantidades conservadas y los grupos de simetría correspondientes implica una equivalencia similar para estas dos formas de especificar la información comprobable en el método de máxima entropía.

El principio de máxima entropía también es necesario para garantizar la unicidad y coherencia de las asignaciones de probabilidad obtenidas mediante diferentes métodos, en particular la mecánica estadística y la inferencia lógica .

El principio de máxima entropía hace explícita nuestra libertad para utilizar diferentes formas de datos previos . Como caso especial, se puede adoptar una densidad de probabilidad previa uniforme ( principio de indiferencia de Laplace , a veces llamado principio de razón insuficiente). Por tanto, el principio de máxima entropía no es simplemente una forma alternativa de ver los métodos habituales de inferencia de la estadística clásica, sino que representa una generalización conceptual significativa de esos métodos.

Sin embargo, estas afirmaciones no implican que no sea necesario demostrar que los sistemas termodinámicos son ergódicos para justificar el tratamiento como un conjunto estadístico .

En lenguaje corriente, se puede decir que el principio de máxima entropía expresa una afirmación de modestia epistémica o de máxima ignorancia. La distribución seleccionada es la que menos pretende estar informada más allá de los datos previos indicados, es decir la que admite mayor desconocimiento más allá de los datos previos indicados.

Información comprobable

El principio de máxima entropía es útil explícitamente sólo cuando se aplica a información comprobable . La información comprobable es una afirmación sobre una distribución de probabilidad cuya verdad o falsedad está bien definida. Por ejemplo, las declaraciones

la expectativa de la variable es 2.87

y

(donde y son probabilidades de eventos) son declaraciones de información comprobable.

Dada información comprobable, el procedimiento de máxima entropía consiste en buscar la distribución de probabilidad que maximice la entropía de la información , sujeta a las restricciones de la información. Este problema de optimización restringida normalmente se resuelve utilizando el método de los multiplicadores de Lagrange . [3]

La maximización de la entropía sin información comprobable respeta la "restricción" universal de que la suma de las probabilidades es uno. Bajo esta restricción, la distribución de probabilidad discreta de entropía máxima es la distribución uniforme ,

Aplicaciones

El principio de máxima entropía se aplica comúnmente de dos maneras a problemas inferenciales:

Probabilidades previas

El principio de máxima entropía se utiliza a menudo para obtener distribuciones de probabilidad previas para la inferencia bayesiana . Jaynes fue un firme defensor de este enfoque, afirmando que la distribución máxima de entropía representaba la distribución menos informativa. [4] Actualmente se dedica una gran cantidad de literatura a la obtención de antecedentes de máxima entropía y vínculos con la codificación de canales . [5] [6] [7] [8]

Probabilidades posteriores

La entropía máxima es una regla de actualización suficiente para el probabilismo radical . La cinemática de probabilidad de Richard Jeffrey es un caso especial de inferencia de máxima entropía. Sin embargo, la entropía máxima no es una generalización de todas esas reglas de actualización suficientes. [9]

Modelos de máxima entropía

Alternativamente, el principio se invoca a menudo para la especificación del modelo: en este caso se supone que los datos observados en sí son la información comprobable. Estos modelos se utilizan ampliamente en el procesamiento del lenguaje natural . Un ejemplo de tal modelo es la regresión logística , que corresponde al clasificador de máxima entropía para observaciones independientes.

Estimación de densidad de probabilidad.

Una de las principales aplicaciones del principio de máxima entropía es la estimación de densidad discreta y continua . [10] [11] De manera similar a los estimadores de máquinas de vectores de soporte , el principio de máxima entropía puede requerir la solución a un problema de programación cuadrática y, por lo tanto, proporcionar un modelo de mezcla dispersa como estimador de densidad óptimo. Una ventaja importante del método es su capacidad de incorporar información previa en la estimación de la densidad. [12]

Solución general para la distribución máxima de entropía con restricciones lineales.

Caso discreto

Tenemos información comprobable I sobre una cantidad x que toma valores en { x 1 , x 2 ,..., x n }. Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k ; es decir, requerimos que nuestra distribución de probabilidad satisfaga las restricciones de desigualdad/igualdad de momentos:

donde son observables. También requerimos que la densidad de probabilidad sume uno, lo que puede verse como una restricción primitiva de la función de identidad y un observable igual a 1 que da la restricción.

La distribución de probabilidad con máxima entropía de información sujeta a estas restricciones de desigualdad/igualdad tiene la forma: [10]

para algunos . A veces se le llama distribución de Gibbs . La constante de normalización está determinada por:

y se denomina convencionalmente función de partición . (El teorema de Pitman-Koopman establece que la condición necesaria y suficiente para que una distribución muestral admita suficientes estadísticas de dimensión acotada es que tenga la forma general de una distribución de entropía máxima).

Los parámetros λ k son multiplicadores de Lagrange. En el caso de restricciones de igualdad, sus valores se determinan a partir de la solución de las ecuaciones no lineales.

En el caso de restricciones de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexo con restricciones lineales. [10] En ambos casos, no existe una solución en forma cerrada , y el cálculo de los multiplicadores de Lagrange generalmente requiere métodos numéricos .

Caso continuo

Para distribuciones continuas , la entropía de Shannon no se puede utilizar, ya que solo está definida para espacios de probabilidad discretos. En cambio, Edwin Jaynes (1963, 1968, 2003) dio la siguiente fórmula, que está estrechamente relacionada con la entropía relativa (ver también entropía diferencial ).

donde q ( x ), que Jaynes llamó la "medida invariante", es proporcional a la densidad límite de puntos discretos . Por ahora, supondremos que q se conoce; Lo discutiremos más a fondo después de que se den las ecuaciones de solución.

Una cantidad estrechamente relacionada, la entropía relativa, generalmente se define como la divergencia de Kullback-Leibler de p de q (aunque a veces, de manera confusa, se define como el negativo de esto). El principio de inferencia de minimizar esto, debido a Kullback, se conoce como Principio de Discriminación Mínima de la Información .

Tenemos información comprobable I sobre una cantidad x que toma valores en algún intervalo de los números reales (todas las integrales siguientes están sobre este intervalo). Suponemos que esta información tiene la forma de m restricciones sobre las expectativas de las funciones f k , es decir, requerimos que nuestra función de densidad de probabilidad satisfaga las restricciones de momento de desigualdad (o pura igualdad):

donde son observables. También requerimos que la densidad de probabilidad se integre a uno, lo que puede verse como una restricción primitiva de la función de identidad y un observable igual a 1 que da la restricción.

La función de densidad de probabilidad con H c máximo sujeto a estas restricciones es: [11]

con la función de partición determinada por

Como en el caso discreto, en el caso en que todas las restricciones de momento son igualdades, los valores de los parámetros están determinados por el sistema de ecuaciones no lineales:

En el caso de restricciones de momento de desigualdad, los multiplicadores de Lagrange se determinan a partir de la solución de un programa de optimización convexo . [11]

La función de medida invariante q ( x ) se puede entender mejor suponiendo que se sabe que x toma valores sólo en el intervalo acotado ( a , b ), y que no se proporciona ninguna otra información. Entonces la función de densidad de probabilidad de entropía máxima es

donde A es una constante de normalización. La función de medida invariante es en realidad la función de densidad previa que codifica la "falta de información relevante". No puede ser determinado por el principio de máxima entropía, y debe ser determinado por algún otro método lógico, como el principio de transformación de grupos o la teoría de la marginación .

Ejemplos

Para ver varios ejemplos de distribuciones de máxima entropía, consulte el artículo sobre distribuciones de probabilidad de máxima entropía .

Justificaciones del principio de máxima entropía

Los defensores del principio de máxima entropía justifican su uso al asignar probabilidades de varias maneras, incluidos los dos argumentos siguientes. Estos argumentos dan por sentado el uso de la probabilidad bayesiana y, por tanto, están sujetos a los mismos postulados.

La entropía de la información como medida de la "falta de información"

Considere una distribución de probabilidad discreta entre proposiciones mutuamente excluyentes . La distribución más informativa ocurriría cuando se supiera que una de las proposiciones es verdadera. En ese caso, la entropía de la información sería igual a cero. La distribución menos informativa se produciría cuando no hay motivos para favorecer alguna de las proposiciones sobre las demás. En ese caso, la única distribución de probabilidad razonable sería uniforme, y entonces la entropía de la información sería igual a su valor máximo posible, . Por lo tanto, la entropía de la información puede verse como una medida numérica que describe cuán poco informativa es una distribución de probabilidad particular, que va de cero (completamente informativa) a (completamente no informativa).

Al elegir utilizar la distribución con la máxima entropía permitida por nuestra información, según el argumento, estamos eligiendo la distribución menos informativa posible. Elegir una distribución con menor entropía sería asumir información que no poseemos. Por tanto, la distribución de máxima entropía es la única distribución razonable. Sin embargo , la dependencia de la solución de la medida dominante representada por es una fuente de críticas al enfoque, ya que esta medida dominante es de hecho arbitraria. [13]

La derivación de Wallis

El siguiente argumento es el resultado de una sugerencia hecha por Graham Wallis a ET Jaynes en 1962. [14] Es esencialmente el mismo argumento matemático utilizado para las estadísticas de Maxwell-Boltzmann en mecánica estadística , aunque el énfasis conceptual es bastante diferente. Tiene la ventaja de ser de naturaleza estrictamente combinatoria, sin hacer referencia a la entropía de la información como una medida de "incertidumbre", "falta de información" o cualquier otro concepto imprecisamente definido. La función de entropía de la información no se asume a priori , sino que se encuentra en el transcurso del argumento; y el argumento conduce naturalmente al procedimiento de maximizar la entropía de la información, en lugar de tratarla de alguna otra manera.

Supongamos que un individuo desea realizar una asignación de probabilidad entre proposiciones mutuamente excluyentes . Tiene información comprobable, pero no está seguro de cómo incluirla en su evaluación de probabilidad. Por tanto, concibe el siguiente experimento aleatorio. Distribuirá cuantos de probabilidad (cada valor ) al azar entre las posibilidades. (Uno podría imaginar que arrojará pelotas a cubos con los ojos vendados. Para ser lo más justo posible, cada lanzamiento debe ser independiente de cualquier otro y cada cubo debe ser del mismo tamaño). comprobará si la asignación de probabilidad así obtenida es coherente con su información. (Para que este paso tenga éxito, la información debe ser una restricción dada por un conjunto abierto en el espacio de medidas de probabilidad). Si es inconsistente, lo rechazará y lo intentará nuevamente. Si es consistente, su evaluación será

donde es la probabilidad de la proposición enésima , mientras que n i es el número de cuantos que se asignaron a la proposición enésima (es decir, el número de bolas que terminaron en el cubo ).

Ahora bien, para reducir la "granulosidad" de la asignación de probabilidad, será necesario utilizar un número bastante grande de cuantos de probabilidad. En lugar de llevar a cabo, y posiblemente tener que repetir, el experimento aleatorio bastante largo, el protagonista decide simplemente calcular y utilizar el resultado más probable. La probabilidad de cualquier resultado particular es la distribución multinomial ,

dónde

A veces se le conoce como la multiplicidad del resultado.

El resultado más probable es aquel que maximiza la multiplicidad . En lugar de maximizar directamente, el protagonista podría maximizar de manera equivalente cualquier función creciente monótona de . Él decide maximizar

En este punto, para simplificar la expresión, el protagonista toma el límite como , es decir, cuando los niveles de probabilidad van desde valores discretos granulados hasta valores continuos suaves. Utilizando la aproximación de Stirling , encuentra

Todo lo que le queda al protagonista es maximizar la entropía bajo las limitaciones de su información comprobable. Ha descubierto que la distribución de máxima entropía es la más probable de todas las distribuciones aleatorias "justas", en el límite cuando los niveles de probabilidad van de discretos a continuos.

Compatibilidad con el teorema de Bayes

Giffin y Caticha (2007) afirman que el teorema de Bayes y el principio de máxima entropía son completamente compatibles y pueden verse como casos especiales del "método de máxima entropía relativa". Afirman que este método reproduce todos los aspectos de los métodos de inferencia bayesianos ortodoxos. Además, este nuevo método abre la puerta a abordar problemas que no podrían abordarse ni mediante el principio de máxima entropía ni con los métodos bayesianos ortodoxos de forma individual. Además, contribuciones recientes (Lazar 2003 y Schennach 2005) muestran que los enfoques frecuentistas de inferencia basados ​​en entropía relativa (como la probabilidad empírica y la probabilidad empírica inclinada exponencialmente; véanse, por ejemplo, Owen 2001 y Kitamura 2006) se pueden combinar con información previa para realizar cálculos bayesianos. análisis posterior.

Jaynes afirmó que el teorema de Bayes era una forma de calcular una probabilidad, mientras que la entropía máxima era una forma de asignar una distribución de probabilidad previa. [15]

Sin embargo, en concepto es posible resolver una distribución posterior directamente a partir de una distribución anterior establecida utilizando el principio de entropía cruzada mínima (o el principio de entropía máxima es un caso especial de uso de una distribución uniforme como la anterior dada), de forma independiente. de cualquier consideración bayesiana al tratar el problema formalmente como un problema de optimización restringida, siendo la función de entropía la función objetivo. Para el caso de valores promedio dados como información comprobable (promediados sobre la distribución de probabilidad buscada), la distribución buscada es formalmente la distribución de Gibbs (o Boltzmann) cuyos parámetros deben resolverse para lograr una entropía cruzada mínima y satisfacer la información comprobable dada.

Relevancia para la física

El principio de máxima entropía guarda relación con un supuesto clave de la teoría cinética de los gases conocido como caos molecular o Stosszahlansatz . Esto afirma que la función de distribución que caracteriza a las partículas que entran en colisión se puede factorizar. Aunque esta afirmación puede entenderse como una hipótesis estrictamente física, también puede interpretarse como una hipótesis heurística sobre la configuración más probable de las partículas antes de colisionar. [dieciséis]

Ver también

Notas

  1. ^ Jaynes, et (1957). «Teoría de la Información y Mecánica Estadística» (PDF) . Revisión física . Serie II. 106 (4): 620–630. Código bibliográfico : 1957PhRv..106..620J. doi : 10.1103/PhysRev.106.620. SEÑOR  0087305.
  2. ^ Jaynes, et (1957). «Teoría de la Información y Mecánica Estadística II» (PDF) . Revisión física . Serie II. 108 (2): 171-190. Código bibliográfico : 1957PhRv..108..171J. doi : 10.1103/PhysRev.108.171. SEÑOR  0096414.
  3. ^ Sivia, Devinderjit; Habilidad, John (2 de junio de 2006). Análisis de datos: un tutorial bayesiano. OUP Oxford. ISBN 978-0-19-154670-9.
  4. ^ Jaynes, et (1968). "Probabilidades previas" (PDF o PostScript) . Transacciones IEEE sobre ciencia de sistemas y cibernética . 4 (3): 227–241. doi :10.1109/TSSC.1968.300117. {{cite journal}}: Enlace externo en |format=( ayuda )
  5. ^ Clarke, B. (2006). "Optimidad de la información y modelado bayesiano". Revista de Econometría . 138 (2): 405–429. doi :10.1016/j.jeconom.2006.05.003.
  6. ^ Soofi, ES (2000). "Enfoques teóricos de la información principal". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1349-1353. doi :10.2307/2669786. JSTOR  2669786. SEÑOR  1825292.
  7. ^ Bousquet, N. (2008). "Obtener antecedentes de entropía máxima vagos pero adecuados en experimentos bayesianos". Artículos estadísticos . 51 (3): 613–628. doi :10.1007/s00362-008-0149-9. S2CID  119657859.
  8. ^ Palmieri, Francesco AN; Ciuonzo, Domenico (1 de abril de 2013). "Antecedentes objetivos de máxima entropía en la clasificación de datos". Fusión de información . 14 (2): 186–198. CiteSeerX 10.1.1.387.4515 . doi :10.1016/j.inffus.2012.01.012. 
  9. ^ Skyrms, B (1987). "Actualización, suposición y MAXENT". Teoría y Decisión . 22 (3): 225–46. doi :10.1007/BF00134086. S2CID  121847242.
  10. ^ abc Botev, ZI; Kroese, DP (2008). "Selección de ancho de banda no asintótica para la estimación de densidad de datos discretos". Metodología y Computación en Probabilidad Aplicada . 10 (3): 435. doi :10.1007/s11009-007-9057-z. S2CID  122047337.
  11. ^ abc Botev, ZI; Kroese, DP (2011). "El método de entropía cruzada generalizada, con aplicaciones a la estimación de densidad de probabilidad" (PDF) . Metodología y Computación en Probabilidad Aplicada . 13 (1): 1–27. doi :10.1007/s11009-009-9133-7. S2CID  18155189.
  12. ^ Kesavan, HK; Kapur, JN (1990). "Principios de máxima entropía y mínima entropía cruzada". En Fougère, PF (ed.). Máxima Entropía y Métodos Bayesianos . págs. 419–432. doi :10.1007/978-94-009-0683-9_29. ISBN 978-94-010-6792-8.
  13. ^ Druilhet, Pierre; Marín, Jean-Michel (2007). "Conjuntos creíbles {HPD} invariantes y estimadores {MAP}". Anal bayesiano . 2 : 681–691. doi : 10.1214/07-BA227 .
  14. ^ Jaynes, ET (2003) Teoría de la probabilidad: la lógica de la ciencia , Cambridge University Press, pág. 351-355. ISBN 978-0521592710 
  15. ^ Jaynes, ET (1988) "La relación entre los métodos bayesianos y de máxima entropía", en Métodos bayesianos y de máxima entropía en ciencia e ingeniería (Vol. 1) , Kluwer Academic Publishers, p. 25-29.
  16. ^ Chliamovitch, G.; Malaspinas, O.; Chopard, B. (2017). "Teoría cinética más allá del Stosszahlansatz". Entropía . 19 (8): 381. Bibcode : 2017Entrp..19..381C. doi : 10.3390/e19080381 .

Referencias

Otras lecturas