stringtranslate.com

Teoría de campos de información

La teoría de campos de información (IFT) es una teoría de campos estadística bayesiana relacionada con la reconstrucción de señales , la cosmografía y otras áreas relacionadas. [1] [2] La IFT resume la información disponible sobre un campo físico utilizando probabilidades bayesianas . Utiliza técnicas computacionales desarrolladas para la teoría cuántica de campos y la teoría estadística de campos para manejar el número infinito de grados de libertad de un campo y derivar algoritmos para el cálculo de valores esperados de campo . Por ejemplo, el valor esperado posterior de un campo generado por un proceso gaussiano conocido y medido por un dispositivo lineal con estadísticas de ruido gaussiano conocidas se da por un filtro de Wiener generalizado aplicado a los datos medidos. La IFT extiende dicha fórmula de filtro conocida a situaciones con física no lineal , dispositivos no lineales , estadísticas de ruido o campo no gaussiano , dependencia de las estadísticas de ruido de los valores de campo y parámetros de medición parcialmente desconocidos. Para esto utiliza diagramas de Feynman , ecuaciones de flujo de renormalización y otros métodos de la física matemática . [3]

Motivación

Los campos desempeñan un papel importante en la ciencia, la tecnología y la economía. Describen las variaciones espaciales de una cantidad, como la temperatura del aire, en función de la posición. Conocer la configuración de un campo puede ser de gran valor. Sin embargo, las mediciones de campos nunca pueden proporcionar la configuración precisa del campo con certeza. Los campos físicos tienen un número infinito de grados de libertad, pero los datos generados por cualquier dispositivo de medición son siempre finitos, lo que proporciona solo un número finito de restricciones sobre el campo. Por lo tanto, una deducción inequívoca de dicho campo a partir de los datos de medición únicamente es imposible y solo queda la inferencia probabilística como medio para hacer afirmaciones sobre el campo. Afortunadamente, los campos físicos muestran correlaciones y a menudo siguen leyes físicas conocidas. Esa información se fusiona mejor con la inferencia del campo para superar el desajuste de los grados de libertad del campo con los puntos de medición. Para abordar esto, se necesita una teoría de la información para campos, y eso es lo que es la teoría de campos de información.

Conceptos

Inferencia bayesiana

es un valor de campo en una ubicación en un espacio . El conocimiento previo sobre el campo de señal desconocido está codificado en la distribución de probabilidad . Los datos proporcionan información adicional sobre la probabilidad que se incorpora a la probabilidad posterior según el teorema de Bayes .

InformaciónHamiltoniano

En IFT, el teorema de Bayes generalmente se reescribe en el lenguaje de una teoría de campo estadística, con el hamiltoniano de información definido como el logaritmo negativo de la probabilidad conjunta de datos y señal y con la función de partición siendo Esta reformulación del teorema de Bayes permite el uso de métodos de física matemática desarrollados para el tratamiento de teorías de campo estadística y teorías de campo cuántica .

Campos

Como los campos tienen un número infinito de grados de libertad, la definición de probabilidades sobre espacios de configuraciones de campos tiene sutilezas. Identificar campos físicos como elementos de espacios de funciones plantea el problema de que no se define ninguna medida de Lebesgue sobre estos últimos y, por lo tanto, no se pueden definir allí densidades de probabilidad. Sin embargo, los campos físicos tienen mucha más regularidad que la mayoría de los elementos de los espacios de funciones, ya que son continuos y suaves en la mayoría de sus ubicaciones. Por lo tanto, se pueden utilizar construcciones menos generales, pero suficientemente flexibles, para manejar el número infinito de grados de libertad de un campo.

Un enfoque pragmático consiste en considerar el campo que se va a discretizar en términos de píxeles. Cada píxel lleva un único valor de campo que se supone constante dentro del volumen de píxeles. Todas las afirmaciones sobre el campo continuo deben entonces expresarse en su representación en píxeles. De esta manera, se trabaja con espacios de campo de dimensión finita, sobre los cuales las densidades de probabilidad son bien definibles.

Para que esta descripción sea una teoría de campo adecuada, se requiere además que la resolución de píxeles siempre se pueda refinar, mientras que los valores esperados del campo discretizado convergen a valores finitos:

Integrales de trayectoria

Si existe este límite, se puede hablar de integral espacial de configuración de campo o integral de trayectoria independientemente de la resolución con la que pueda evaluarse numéricamente.

Prior gaussiano

La distribución de probabilidad gaussiana más simple para un campo es la de una distribución de probabilidad gaussiana de media cero. El determinante en el denominador puede estar mal definido en el límite continuo , sin embargo, todo lo que se necesita para que la TIF sea consistente es que este determinante se pueda estimar para cualquier representación de campo de resolución finita con y que esto permita el cálculo de valores de expectativa convergente.

Una distribución de probabilidad gaussiana requiere la especificación de la función de correlación de dos puntos del campo con coeficientes y un producto escalar para campos continuos con respecto a los cuales se construye la covarianza del campo de señal inversa, es decir

El hamiltoniano de información previa correspondiente se lee

Ecuación de medición

Los datos de medición se generaron con la probabilidad . En caso de que el instrumento fuera lineal, se puede dar una ecuación de medición de la forma , en la que es la respuesta del instrumento, que describe cómo reaccionan los datos en promedio a la señal, y es el ruido, simplemente la diferencia entre los datos y la respuesta de la señal lineal . Es esencial tener en cuenta que la respuesta traduce el vector de señal de dimensión infinita al espacio de datos de dimensión finita. En componentes esto se lee

donde también se introdujo una notación de componentes vectoriales para los vectores de señales y datos.

Si el ruido sigue una estadística gaussiana de media cero independiente de la señal con covarianza , entonces la probabilidad también es gaussiana y el hamiltoniano de información de probabilidad es Una medición lineal de una señal gaussiana, sujeta a ruido gaussiano e independiente de la señal, conduce a una IFT libre.

Teoría libre

Hamiltoniano libre

El hamiltoniano de información conjunta del escenario gaussiano descrito anteriormente es donde denota igualdad hasta constantes irrelevantes, lo que, en este caso, significa expresiones que son independientes de . De esto se desprende claramente que la posterior debe ser una gaussiana con media y varianza , donde la igualdad entre los lados derecho e izquierdo se cumple ya que ambas distribuciones están normalizadas, .

Filtro de Wiener generalizado

La media posterior también se conoce como solución de filtro de Wiener generalizado y la covarianza de incertidumbre como varianza de Wiener.

En IFT, se le llama fuente de información, ya que actúa como término fuente para excitar el campo (conocimiento), y propagador de información, ya que propaga información de una ubicación a otra en

Teoría de la interacción

Hamiltoniano interactuante

Si se viola alguno de los supuestos que conducen a la teoría libre, la TIF se convierte en una teoría interactiva, con términos de orden superior al cuadrático en el campo de la señal. Esto sucede cuando la señal o el ruido no siguen las estadísticas gaussianas, cuando la respuesta no es lineal, cuando el ruido depende de la señal o cuando la respuesta o las covarianzas son inciertas.

En este caso, el hamiltoniano de información podría ser expandible en una serie de Taylor - Fréchet ,

donde es el hamiltoniano libre, que por sí solo conduciría a una posterior gaussiana, y es el hamiltoniano interactuante, que codifica correcciones no gaussianas. Los coeficientes de Taylor de primer y segundo orden se identifican a menudo con la fuente de información (negativa) y el propagador de información , respectivamente. Los coeficientes más altos se asocian con autointeracciones no lineales.

Campo clásico

El campo clásico minimiza el hamiltoniano de información y, por lo tanto, maximiza el posterior: el campo clásico es, por lo tanto, el estimador a posteriori máximo del problema de inferencia de campo.

Filtro crítico

El problema del filtro de Wiener requiere que se conozca la correlación de dos puntos de un campo. Si es desconocida, debe inferirse junto con el campo mismo. Esto requiere la especificación de un hiperprior . A menudo, se puede suponer homogeneidad estadística (invariancia de traslación), lo que implica que es diagonal en el espacio de Fourier (por ser un espacio cartesiano dimensional ). En este caso, solo se necesita inferir el espectro de potencia del espacio de Fourier . Dado un supuesto adicional de isotropía estadística, este espectro depende solo de la longitud del vector de Fourier y solo se debe determinar un espectro unidimensional . La covarianza del campo a priori se lee entonces en coordenadas del espacio de Fourier .

Si la anterior es plana, la probabilidad conjunta de los datos y el espectro es donde se utilizó nuevamente la notación del propagador de información y la fuente del problema del filtro de Wiener. El hamiltoniano de información correspondiente es donde denota igualdad hasta constantes irrelevantes (aquí: constante con respecto a ). Minimizar esto con respecto a , para obtener su estimador máximo del espectro de potencia a posteriori, produce donde se introdujeron la media del filtro de Wiener y el proyector de banda espectral . Este último conmuta con , ya que es diagonal en el espacio de Fourier. Por lo tanto, el estimador máximo a posteriori para el espectro de potencia es Debe calcularse iterativamente, ya que y dependen ambos de sí mismos. En un enfoque bayesiano empírico , el estimado se tomaría como dado. En consecuencia, la estimación media posterior para el campo de señal es el correspondiente y su incertidumbre el correspondiente en la aproximación bayesiana empírica.

El filtro no lineal resultante se denomina filtro crítico . [4] La generalización de la fórmula de estimación del espectro de potencia como exhibe umbrales de percepción para , lo que significa que la varianza de los datos en una banda de Fourier tiene que superar el nivel de ruido esperado en un cierto umbral antes de que la reconstrucción de la señal se vuelva distinta de cero para esta banda. Siempre que la varianza de los datos supere ligeramente este umbral, la reconstrucción de la señal salta a un nivel de excitación finito, similar a una transición de fase de primer orden en sistemas termodinámicos. Para el filtro con la percepción de la señal comienza de forma continua tan pronto como la varianza de los datos supere el nivel de ruido. La desaparición de la percepción discontinua en es similar a un sistema termodinámico que pasa por un punto crítico . De ahí el nombre de filtro crítico.

El filtro crítico, sus extensiones a mediciones no lineales y la inclusión de valores previos de espectro no planos permitieron la aplicación de IFT a problemas de inferencia de señales del mundo real, para los cuales la covarianza de la señal generalmente es desconocida a priori.

Ejemplos de aplicaciones del IFT

Imagen radiointerferométrica de radiogalaxias en el cúmulo de galaxias Abell 2219. Las imágenes se construyeron mediante retroproyección de datos (arriba), el algoritmo CLEAN (centro) y el algoritmo RESOLVE (abajo). Los flujos negativos y, por lo tanto, no físicos se muestran en blanco.

El filtro de Wiener generalizado, que surge en la IFT libre, se utiliza ampliamente en el procesamiento de señales. Se han derivado algoritmos basados ​​explícitamente en la IFT para diversas aplicaciones. Muchos de ellos se implementan utilizando la biblioteca de teoría de campos de información numérica (NIFTy).

Teoría avanzada

Se pueden utilizar muchas técnicas de la teoría cuántica de campos para abordar problemas de TIF, como los diagramas de Feynman, las acciones efectivas y el formalismo del operador de campo.

Diagramas de Feynman

Primeros tres diagramas de Feynman que contribuyen a la estimación de la media posterior de un campo. Una línea expresa un propagador de información, un punto al final de una línea, una fuente de información y un vértice, un término de interacción. El primer diagrama codifica el filtro de Wiener, el segundo, una corrección no lineal y el tercero, una corrección de incertidumbre del filtro de Wiener.

En caso de que los coeficientes de interacción en una expansión de Taylor - Fréchet del hamiltoniano de información sean pequeños, la función de partición logarítmica, o energía libre de Helmholtz , se puede expandir asintóticamente en términos de estos coeficientes. El hamiltoniano libre especifica la media y la varianza de la distribución gaussiana sobre la que se integra la expansión. Esto conduce a una suma sobre el conjunto de todos los diagramas de Feynman conectados . A partir de la energía libre de Helmholtz, cualquier momento conectado del campo se puede calcular mediante Las situaciones en las que existen pequeños parámetros de expansión que son necesarios para que dicha expansión diagramática converja están dadas por campos de señales casi gaussianos, donde la no gaussianidad de las estadísticas del campo conduce a pequeños coeficientes de interacción . Por ejemplo, las estadísticas del Fondo Cósmico de Microondas son casi gaussianas, y se cree que pequeñas cantidades de no gaussianidades se sembraron durante la época inflacionaria en el Universo Temprano .

Acción eficaz

Para tener una numérica estable para los problemas de IFT, se necesita un campo funcional que, si se minimiza, proporcione el campo medio posterior. Esto se da por la acción efectiva o energía libre de Gibbs de un campo. La energía libre de Gibbs se puede construir a partir de la energía libre de Helmholtz mediante una transformación de Legendre . En IFT, se da por la diferencia de la energía de información interna y la entropía de Shannon para la temperatura , donde se utiliza una aproximación posterior gaussiana con los datos aproximados que contienen la media y la dispersión del campo. [5]

La energía libre de Gibbs es entonces la divergencia de Kullback-Leibler entre los datos posteriores aproximados y exactos más la energía libre de Helmholtz. Como esta última no depende de los datos aproximados , minimizar la energía libre de Gibbs es equivalente a minimizar la divergencia de Kullback-Leibler entre los datos posteriores aproximados y exactos. Por lo tanto, el enfoque de acción efectiva de IFT es equivalente a los métodos bayesianos variacionales , que también minimizan la divergencia de Kullback-Leibler entre los datos posteriores aproximados y exactos.

Minimizar la energía libre de Gibbs proporciona aproximadamente el campo medio posterior, mientras que minimizar el hamiltoniano de información proporciona el campo máximo a posteriori. Como se sabe que este último sobreajusta el ruido, el primero suele ser un mejor estimador de campo.

Formalismo de operadores

El cálculo de la energía libre de Gibbs requiere el cálculo de integrales gaussianas sobre un hamiltoniano de información, ya que la energía de información interna es Tales integrales se pueden calcular mediante un formalismo de operador de campo, [6] en el que es el operador de campo. Esto genera la expresión de campo dentro de la integral si se aplica a la función de distribución gaussiana, y cualquier potencia superior del campo si se aplica varias veces, Si el hamiltoniano de información es analítico, todos sus términos se pueden generar mediante el operador de campo Como el operador de campo no depende del campo en sí, se puede extraer de la integral de trayectoria de la construcción de energía de información interna, donde debe considerarse como una funcional que siempre devuelve el valor independientemente del valor de su entrada . La expresión resultante se puede calcular conmutando el aniquilador de campo medio a la derecha de la expresión, donde se desvanecen ya que . El aniquilador de campo medio conmuta con el campo medio como

Mediante el uso del formalismo del operador de campo se puede calcular la energía libre de Gibbs, lo que permite la inferencia (aproximada) del campo medio posterior mediante una minimización funcional robusta numérica.

Historia

El libro de Norbert Wiener [7] puede considerarse como uno de los primeros trabajos sobre inferencia de campos. El uso de integrales de trayectorias para la inferencia de campos fue propuesto por varios autores, por ejemplo, Edmund Bertschinger [8] o William Bialek y A. Zee. [9] La conexión entre la teoría de campos y el razonamiento bayesiano fue explicitada por Jörg Lemm. [10] El término teoría de campos de información fue acuñado por Torsten Enßlin. [11] Véase la última referencia para obtener más información sobre la historia de la TIF.

Véase también

Referencias

  1. ^ Enßlin, Torsten (2013). "Teoría del campo de información". Actas de la conferencia AIP . 1553 (1): 184–191. arXiv : 1301.2556 . Código Bibliográfico :2013AIPC.1553..184E. doi :10.1063/1.4819999.
  2. ^ Enßlin, Torsten A. (2019). "Teoría de la información para campos". Annalen der Physik . 531 (3): 1800127. arXiv : 1804.03350 . Código Bib : 2019AnP...53100127E. doi : 10.1002/andp.201800127.
  3. ^ "Teoría de campos de información". Sociedad Max Planck . Consultado el 13 de noviembre de 2014 .
  4. ^ Enßlin, Torsten A.; Frommert, Mona (19 de mayo de 2011). "Reconstrucción de señales con espectros desconocidos en la teoría de campos de información con incertidumbre de parámetros". Physical Review D . 83 (10): 105014. arXiv : 1002.2928 . Código Bibliográfico :2011PhRvD..83j5014E. doi :10.1103/PhysRevD.83.105014.
  5. ^ Enßlin, Torsten A. (2010). "Inferencia con energía libre de Gibbs mínima en la teoría de campos de información". Physical Review E . 82 (5): 051112. arXiv : 1004.2868 . Bibcode :2010PhRvE..82e1112E. doi :10.1103/physreve.82.051112. PMID  21230442.
  6. ^ Leike, Reimar H.; Enßlin, Torsten A. (16 de noviembre de 2016). "Cálculo de operadores para la teoría de campos de información". Physical Review E . 94 (5): 053306. arXiv : 1605.00660 . Bibcode :2016PhRvE..94e3306L. doi :10.1103/PhysRevE.94.053306. PMID  27967173.
  7. ^ Wiener, Norbert (1964). Extrapolación, interpolación y suavizado de series temporales estacionarias con aplicaciones de ingeniería (quinta edición). Cambridge, Mass.: Technology Press del Instituto Tecnológico de Massachusetts. ISBN 0262730057.OCLC 489911338  .
  8. ^ Bertschinger, Edmund (diciembre de 1987). "Métodos de integral de trayectorias para perturbaciones de densidad primordiales - Muestreo de campos aleatorios gaussianos restringidos". The Astrophysical Journal . 323 : L103–L106. Bibcode :1987ApJ...323L.103B. doi : 10.1086/185066 . ISSN  0004-637X.
  9. ^ Bialek, William; Zee, A. (26 de septiembre de 1988). "Entendiendo la eficiencia de la percepción humana". Physical Review Letters . 61 (13): 1512–1515. Bibcode :1988PhRvL..61.1512B. doi :10.1103/PhysRevLett.61.1512. PMID  10038817.
  10. ^ Lemm, Jörg C. (2003). Teoría de campos bayesiana . Baltimore, Maryland: Johns Hopkins University Press. ISBN 9780801872204.OCLC 52762436  .
  11. ^ Enßlin, Torsten A.; Frommert, Mona; Kitaura, Francisco S. (9 de noviembre de 2009). "Teoría de campos de información para la reconstrucción de perturbaciones cosmológicas y el análisis de señales no lineales". Physical Review D . 80 (10): 105005. arXiv : 0806.3474 . Código Bibliográfico :2009PhRvD..80j5005E. doi :10.1103/PhysRevD.80.105005.