Función de partición (matemáticas)

La función de partición o integral de configuración , tal como se utiliza en teoría de probabilidad , teoría de la información y sistemas dinámicos , es una generalización de la definición de una función de partición en mecánica estadística . Es un caso especial de una constante normalizadora en teoría de probabilidad, para la distribución de Boltzmann . La función de partición se produce en muchos problemas de teoría de probabilidad porque, en situaciones donde hay una simetría natural, su medida de probabilidad asociada , la medida de Gibbs , tiene la propiedad de Markov . Esto significa que la función de partición se produce no solo en sistemas físicos con simetría de traslación, sino también en entornos tan variados como las redes neuronales (la red de Hopfield ), y aplicaciones como la genómica , la lingüística de corpus y la inteligencia artificial , que emplean redes de Markov y redes de lógica de Markov . La medida de Gibbs es también la única medida que tiene la propiedad de maximizar la entropía para un valor de expectativa fijo de la energía; esto subyace a la aparición de la función de partición en los métodos de máxima entropía y los algoritmos derivados de ellos.

La función de partición vincula muchos conceptos diferentes y, por lo tanto, ofrece un marco general en el que se pueden calcular muchos tipos diferentes de cantidades. En particular, muestra cómo calcular los valores esperados y las funciones de Green , formando un puente hacia la teoría de Fredholm . También proporciona un entorno natural para el enfoque de la geometría de la información para la teoría de la información, donde la métrica de información de Fisher puede entenderse como una función de correlación derivada de la función de partición; resulta que define una variedad de Riemann .

Cuando el entorno de las variables aleatorias se encuentra en un espacio proyectivo complejo o en un espacio proyectivo de Hilbert , geometrizado con la métrica de Fubini-Study , se obtiene la teoría de la mecánica cuántica y, de manera más general, la teoría cuántica de campos . En estas teorías, la función de partición se explota en gran medida en la formulación de la integral de trayectorias , con gran éxito, lo que conduce a muchas fórmulas casi idénticas a las que se analizan aquí. Sin embargo, debido a que el espacio de medida subyacente es de valores complejos, a diferencia del simplex de valores reales de la teoría de la probabilidad, aparece un factor adicional de i en muchas fórmulas. El seguimiento de este factor es problemático y no se realiza aquí. Este artículo se centra principalmente en la teoría de la probabilidad clásica, donde la suma de las probabilidades totaliza uno.

Definición

Dado un conjunto de variables aleatorias que toman valores , y algún tipo de función potencial o hamiltoniano , la función de partición se define como $Estilo de visualización X_{i}}$ $Estilo de visualización x_{i}}$ $H(x_{1},x_{2},\puntos )$

Z(\beta )=\sum _{x_{i}}\exp \left(-\beta H(x_{1},x_{2},\dots )\right)

La función H se entiende como una función de valor real en el espacio de estados , mientras que es un parámetro libre de valor real (convencionalmente, la temperatura inversa ). La suma sobre la se entiende como una suma sobre todos los valores posibles que puede tomar cada una de las variables aleatorias. Por lo tanto, la suma se debe reemplazar por una integral cuando las son continuas, en lugar de discretas. Por lo tanto, se escribe $\{X_{1},X_{2},\cpuntos \}$ ${\estilo de visualización \beta}$ $Estilo de visualización x_{i}}$ $Estilo de visualización X_{i}}$ $Estilo de visualización X_{i}}$

Z(\beta )=\int \exp \left(-\beta H(x_{1},x_{2},\puntos )\right)\,dx_{1}\,dx_{2}\cdots

para el caso de variación continua . $Estilo de visualización X_{i}}$

Cuando H es un observable , como una matriz de dimensión finita o un operador de espacio de Hilbert de dimensión infinita o un elemento de un álgebra de C-estrella , es común expresar la suma como una traza , de modo que

Z(\beta )=\operatorname {tr} \left(\exp \left(-\beta H\right)\right)

Cuando H es de dimensión infinita, entonces, para que la notación anterior sea válida, el argumento debe ser de clase traza , es decir, de una forma tal que la suma exista y esté acotada.

El número de variables no necesita ser contable , en cuyo caso las sumas deben reemplazarse por integrales funcionales . Aunque existen muchas notaciones para integrales funcionales, una común sería $Estilo de visualización X_{i}}$

Z=\int {\mathcal {D}}\varphi \exp \left(-\beta H[\varphi ]\right)

Tal es el caso de la función de partición en la teoría cuántica de campos .

Una modificación común y útil de la función de partición es la introducción de funciones auxiliares. Esto permite, por ejemplo, que la función de partición se utilice como función generadora de funciones de correlación . Esto se analiza con mayor detalle a continuación.

El parámetro β

El papel o significado del parámetro se puede entender de diversas maneras. En la termodinámica clásica, es una temperatura inversa . De manera más general, se diría que es la variable que es conjugada a alguna función (arbitraria) de las variables aleatorias . La palabra conjugado aquí se utiliza en el sentido de coordenadas generalizadas conjugadas en la mecánica de Lagrange , por lo tanto, propiamente es un multiplicador de Lagrange . No es raro que se le llame fuerza generalizada . Todos estos conceptos tienen en común la idea de que un valor debe mantenerse fijo, ya que otros, interconectados de alguna manera complicada, pueden variar. En el caso actual, el valor que debe mantenerse fijo es el valor esperado de , incluso cuando muchas distribuciones de probabilidad diferentes pueden dar lugar exactamente a este mismo valor (fijo). ${\estilo de visualización \beta}$ ${\estilo de visualización H}$ ${\estilo de visualización X}$ ${\estilo de visualización \beta}$ ${\estilo de visualización H}$

Para el caso general, se considera un conjunto de funciones que dependen cada una de las variables aleatorias . Estas funciones se eligen porque se desea mantener constantes sus valores esperados, por una razón u otra. Para restringir los valores esperados de esta manera, se aplica el método de los multiplicadores de Lagrange . En el caso general, los métodos de máxima entropía ilustran la manera en que esto se hace. $\{H_{k}(x_{1},\cpuntos )\}$ $Estilo de visualización X_{i}}$

Se deben dar algunos ejemplos específicos. En problemas básicos de termodinámica, cuando se utiliza el conjunto canónico , el uso de un solo parámetro refleja el hecho de que solo hay un valor esperado que debe mantenerse constante: la energía libre (debido a la conservación de la energía ). Para los problemas de química que involucran reacciones químicas, el conjunto gran canónico proporciona la base adecuada, y hay dos multiplicadores de Lagrange. Uno es para mantener constante la energía, y otro, la fugacidad , es para mantener constante el conteo de partículas (ya que las reacciones químicas involucran la recombinación de un número fijo de átomos). ${\estilo de visualización \beta}$

Para el caso general, se tiene

Z(\beta )=\suma _{x_{i}}\exp \left(-\suma _{k}\beta _{k}H_{k}(x_{i})\right)

con un punto en un espacio. $\beta = (\beta _{1},\beta _{2},\cdots )$

Para una colección de observables , se escribiría $Estilo de visualización {\displaystyle H_{k}}$

Z(\beta )=\operatorname {tr} \left[\,\exp \left(-\sum _{k}\beta _{k}H_{k}\right)\right]

Como antes, se supone que el argumento de tr es la clase de traza .

La medida de Gibbs correspondiente proporciona entonces una distribución de probabilidad tal que el valor esperado de cada uno es un valor fijo. Más precisamente, se tiene $Estilo de visualización {\displaystyle H_{k}}$

{\frac {\parcial }{\parcial \beta _{k}}}\left(-\log Z\right)=\langle H_{k}\rangle =\mathrm {E} \left[H_{k}\right]

Los corchetes angulares indican el valor esperado de y son una notación alternativa común. A continuación se ofrece una definición precisa de este valor esperado. $\langle H_{k}\rangle$ $Estilo de visualización {\displaystyle H_{k}}$ $\mathrm {E} [\;]$

Aunque el valor de se considera comúnmente real, no tiene por qué serlo, en general; esto se analiza en la sección Normalización a continuación. Los valores de pueden entenderse como las coordenadas de puntos en un espacio; este espacio es, de hecho, una variedad , como se muestra a continuación. El estudio de estos espacios como variedades constituye el campo de la geometría de la información . ${\estilo de visualización \beta}$ ${\estilo de visualización \beta}$

Simetría

La función potencial en sí misma comúnmente toma la forma de una suma:

H(x_{1},x_{2},\puntos )=\suma _{s}V(s)\,

donde la suma sobre s es una suma sobre algún subconjunto del conjunto potencia P ( X ) del conjunto . Por ejemplo, en mecánica estadística , como el modelo de Ising , la suma es sobre pares de vecinos más cercanos. En teoría de probabilidad, como las redes de Markov , la suma podría ser sobre las camarillas de un grafo; por lo tanto, para el modelo de Ising y otros modelos reticulares , las camarillas máximas son aristas. $X=\lbrace x_{1},x_{2},\dots \rbrace$

El hecho de que la función potencial pueda escribirse como una suma refleja generalmente el hecho de que es invariante bajo la acción de una simetría de grupo , como la invariancia traslacional . Estas simetrías pueden ser discretas o continuas; se materializan en las funciones de correlación para las variables aleatorias (que se analizan a continuación). Por lo tanto, una simetría en el hamiltoniano se convierte en una simetría de la función de correlación (y viceversa).

Esta simetría tiene una interpretación de importancia crítica en la teoría de la probabilidad: implica que la medida de Gibbs tiene la propiedad de Markov ; es decir, es independiente de las variables aleatorias en cierta manera, o, equivalentemente, la medida es idéntica en las clases de equivalencia de la simetría. Esto conduce a la aparición generalizada de la función de partición en problemas con la propiedad de Markov, como las redes de Hopfield .

Como medida

El valor de la expresión

\exp \left(-\beta H(x_{1},x_{2},\puntos )\right)

puede interpretarse como una probabilidad de que se produzca una configuración específica de valores en el sistema. Por lo tanto, dada una configuración específica , $(x_{1},x_{2},\puntos)$ $(x_{1},x_{2},\puntos)$

P(x_{1},x_{2},\puntos )={\frac {1}{Z(\beta )}}\exp \left(-\beta H(x_{1},x_{2},\puntos )\right)

es la probabilidad de que ocurra la configuración en el sistema, que ahora está correctamente normalizada de modo que , y tal que la suma de todas las configuraciones totaliza uno. Como tal, la función de partición puede entenderse como una medida (una medida de probabilidad ) en el espacio de probabilidad ; formalmente, se llama medida de Gibbs . Generaliza los conceptos más estrechos de conjunto gran canónico y conjunto canónico en mecánica estadística. $(x_{1},x_{2},\puntos)$ $0\leq P(x_{1},x_{2},\puntos )\leq 1$

Existe al menos una configuración para la cual la probabilidad es maximizada; esta configuración se denomina convencionalmente estado fundamental . Si la configuración es única, se dice que el estado fundamental es no degenerado y que el sistema es ergódico ; de lo contrario, el estado fundamental es degenerado . El estado fundamental puede conmutar o no con los generadores de la simetría; si conmuta, se dice que es una medida invariante . Cuando no conmuta, se dice que la simetría se rompe espontáneamente . $(x_{1},x_{2},\puntos)$

Las condiciones bajo las cuales existe un estado fundamental y es único están dadas por las condiciones de Karush-Kuhn-Tucker ; estas condiciones se utilizan comúnmente para justificar el uso de la medida de Gibbs en problemas de máxima entropía. ^{[ cita requerida ]}

Normalización

Los valores que toma dependen del espacio matemático sobre el que varía el campo aleatorio. Por lo tanto, los campos aleatorios de valor real toman valores en un símplex : esta es la forma geométrica de decir que la suma de probabilidades debe sumar uno. Para la mecánica cuántica, las variables aleatorias varían sobre el espacio proyectivo complejo (o espacio de Hilbert proyectivo de valor complejo ), donde las variables aleatorias se interpretan como amplitudes de probabilidad . El énfasis aquí está en la palabra proyectiva , ya que las amplitudes todavía están normalizadas a uno. La normalización para la función potencial es la jacobiana para el espacio matemático apropiado: es 1 para probabilidades ordinarias e i para el espacio de Hilbert; por lo tanto, en la teoría cuántica de campos , uno ve en la exponencial, en lugar de . La función de partición se explota mucho en la formulación de la integral de trayectoria de la teoría cuántica de campos, con gran efecto. La teoría allí es casi idéntica a la presentada aquí, aparte de esta diferencia, y el hecho de que generalmente se formula en el espacio-tiempo de cuatro dimensiones, en lugar de de una manera general. ${\estilo de visualización \beta}$ $itH$ $\beta H$

Valores esperados

La función de partición se utiliza comúnmente como una función generadora de probabilidad para los valores esperados de varias funciones de las variables aleatorias. Por lo tanto, por ejemplo, tomando como parámetro ajustable, entonces la derivada de con respecto a ${\estilo de visualización \beta}$ $\log(Z(\beta ))$ ${\estilo de visualización \beta}$

\mathbf {E} [H]=\langle H\rangle =-{\frac {\partial \log(Z(\beta ))}{\partial \beta }}

da el promedio (valor esperado) de H. En física, esto se llamaría la energía promedio del sistema.

Dada la definición de la medida de probabilidad anterior, el valor esperado de cualquier función f de las variables aleatorias X ahora puede escribirse como se esperaba: entonces, para X de valor discreto , se escribe

{\begin{aligned}\langle f\rangle &=\sum _{x_{i}}f(x_{1},x_{2},\dots )P(x_{1},x_{2},\dots )\\&={\frac {1}{Z(\beta )}}\sum _{x_{i}}f(x_{1},x_{2},\dots )\exp \left(-\beta H(x_{1},x_{2},\dots )\right)\end{aligned}}

La notación anterior es estrictamente correcta para un número finito de variables aleatorias discretas, pero debería considerarse algo "informal" para las variables continuas; en consecuencia, las sumas anteriores deberían reemplazarse por las notaciones del álgebra sigma subyacente que se utiliza para definir un espacio de probabilidad . Dicho esto, las identidades siguen siendo válidas cuando se formulan correctamente en un espacio de medida .

Así, por ejemplo, la entropía viene dada por

{\begin{aligned}S&=-k_{B}\langle \ln P\rangle \\&=-k_{B}\sum _{x_{i}}P(x_{1},x_{2},\dots )\ln P(x_{1},x_{2},\dots )\\&=k_{B}(\beta \langle H\rangle +\log Z(\beta ))\end{aligned}}

La medida de Gibbs es la única distribución estadística que maximiza la entropía para un valor esperado fijo de la energía; esto sustenta su uso en los métodos de máxima entropía .

Geometría de la información

Los puntos pueden entenderse como formando un espacio y, en concreto, una variedad . Por tanto, es razonable preguntarse por la estructura de esta variedad; ésta es la tarea de la geometría de la información . $\beta$

Las derivadas múltiples con respecto a los multiplicadores de Lagrange dan lugar a una matriz de covarianza semidefinida positiva

g_{ij}(\beta )={\frac {\partial ^{2}}{\partial \beta ^{i}\partial \beta ^{j}}}\left(-\log Z(\beta )\right)=\langle \left(H_{i}-\langle H_{i}\rangle \right)\left(H_{j}-\langle H_{j}\rangle \right)\rangle

Esta matriz es semidefinida positiva y puede interpretarse como un tensor métrico , específicamente, una métrica de Riemann . Equipar el espacio de multiplicadores de Lagrange con una métrica de esta manera lo convierte en una variedad de Riemann . ^[1] El estudio de tales variedades se conoce como geometría de la información ; la métrica anterior es la métrica de información de Fisher . Aquí, sirve como una coordenada en la variedad. Es interesante comparar la definición anterior con la más simple información de Fisher , de la que está inspirada. $\beta$

Que lo anterior define la métrica de información de Fisher se puede ver fácilmente sustituyendo explícitamente el valor esperado:

{\begin{aligned}g_{ij}(\beta )&=\langle \left(H_{i}-\langle H_{i}\rangle \right)\left(H_{j}-\langle H_{j}\rangle \right)\rangle \\&=\sum _{x}P(x)\left(H_{i}-\langle H_{i}\rangle \right)\left(H_{j}-\langle H_{j}\rangle \right)\\&=\sum _{x}P(x)\left(H_{i}+{\frac {\partial \log Z}{\partial \beta _{i}}}\right)\left(H_{j}+{\frac {\partial \log Z}{\partial \beta _{j}}}\right)\\&=\sum _{x}P(x){\frac {\partial \log P(x)}{\partial \beta ^{i}}}{\frac {\partial \log P(x)}{\partial \beta ^{j}}}\\\end{aligned}}

donde hemos escrito para y se entiende que la suma se aplica a todos los valores de todas las variables aleatorias . Para las variables aleatorias de valor continuo, las sumas se reemplazan por integrales, por supuesto. $P(x)$ $P(x_{1},x_{2},\dots )$ $X_{k}$

Curiosamente, la métrica de información de Fisher también puede entenderse como la métrica euclidiana del espacio plano , después del cambio apropiado de variables, como se describe en el artículo principal sobre ella. Cuando tienen valores complejos, la métrica resultante es la métrica de Fubini-Study . Cuando se escribe en términos de estados mixtos , en lugar de estados puros , se conoce como la métrica de Bures . $\beta$

Funciones de correlación

Al introducir funciones auxiliares artificiales en la función de partición, se puede utilizar para obtener el valor esperado de las variables aleatorias. Así, por ejemplo, escribiendo $J_{k}$

{\begin{aligned}Z(\beta ,J)&=Z(\beta ,J_{1},J_{2},\dots )\\&=\sum _{x_{i}}\exp \left(-\beta H(x_{1},x_{2},\dots )+\sum _{n}J_{n}x_{n}\right)\end{aligned}}

Uno entonces tiene

\mathbf {E} [x_{k}]=\langle x_{k}\rangle =\left.{\frac {\partial }{\partial J_{k}}}\log Z(\beta ,J)\right|_{J=0}

como el valor esperado de . En la formulación de la integral de trayectoria de la teoría cuántica de campos , estas funciones auxiliares se denominan comúnmente campos fuente . $x_{k}$

Las diferenciaciones múltiples conducen a las funciones de correlación conectadas de las variables aleatorias. Por lo tanto, la función de correlación entre las variables y viene dada por: $C(x_{j},x_{k})$ $x_{j}$ $x_{k}$

C(x_{j},x_{k})=\left.{\frac {\partial }{\partial J_{j}}}{\frac {\partial }{\partial J_{k}}}\log Z(\beta ,J)\right|_{J=0}

Integrales gaussianas

Para el caso en que H se puede escribir como una forma cuadrática que involucra un operador diferencial , es decir, como

H={\frac {1}{2}}\sum _{n}x_{n}Dx_{n}

La función de partición puede entenderse como una suma o integral sobre las gaussianas. La función de correlación puede entenderse como la función de Green para el operador diferencial (y que generalmente da lugar a la teoría de Fredholm ). En el contexto de la teoría cuántica de campos, estas funciones se denominan propagadores ; los correladores de orden superior se denominan funciones de n puntos; trabajar con ellos define la acción efectiva de una teoría. $C(x_{j},x_{k})$

Cuando las variables aleatorias son números de Grassmann anticonmutativos , la función de partición se puede expresar como determinante del operador D. Esto se hace escribiéndola como una integral de Berezin (también llamada integral de Grassmann).

Propiedades generales

Las funciones de partición se utilizan para discutir la escala crítica , la universalidad y están sujetas al grupo de renormalización .

Véase también

Referencias

^ Crooks, Gavin E. (2007). "Medición de la longitud termodinámica". Phys. Rev. Lett. 99 (10): 100602. arXiv : 0706.0559 . Código Bibliográfico :2007PhRvL..99j0602C. doi :10.1103/PhysRevLett.99.100602. PMID 17930381. S2CID 7527491.