stringtranslate.com

Teoría del campo de información

La teoría de campos de información (IFT) es una teoría de campos estadísticos bayesianos relacionada con la reconstrucción de señales , la cosmografía y otras áreas relacionadas. [1] [2] IFT resume la información disponible en un campo físico utilizando probabilidades bayesianas . Utiliza técnicas computacionales desarrolladas para la teoría cuántica de campos y la teoría estadística de campos para manejar el número infinito de grados de libertad de un campo y derivar algoritmos para el cálculo de los valores esperados del campo . Por ejemplo, el valor esperado posterior de un campo generado por un proceso gaussiano conocido y medido por un dispositivo lineal con estadísticas de ruido gaussianas conocidas viene dado por un filtro Wiener generalizado aplicado a los datos medidos. IFT extiende esta fórmula de filtro conocida a situaciones con física no lineal , dispositivos no lineales , campos no gaussianos o estadísticas de ruido, dependencia de las estadísticas de ruido de los valores de campo y parámetros de medición parcialmente desconocidos. Para ello utiliza diagramas de Feynman , ecuaciones de flujo de renormalización y otros métodos de la física matemática . [3]

Motivación

Los campos juegan un papel importante en la ciencia, la tecnología y la economía. Describen las variaciones espaciales de una cantidad, como la temperatura del aire, en función de la posición. Conocer la configuración de un campo puede resultar de gran valor. Sin embargo, las mediciones de campos nunca pueden proporcionar con certeza la configuración precisa del campo. Los campos físicos tienen un número infinito de grados de libertad, pero los datos generados por cualquier dispositivo de medición son siempre finitos y sólo proporcionan un número finito de restricciones en el campo. Por lo tanto, una deducción inequívoca de dicho campo a partir únicamente de datos de medición es imposible y sólo queda la inferencia probabilística como medio para hacer afirmaciones sobre el campo. Afortunadamente, los campos físicos exhiben correlaciones y a menudo siguen leyes físicas conocidas. Esta información se fusiona mejor con la inferencia de campo para superar la discrepancia entre los grados de libertad del campo y los puntos de medición. Para manejar esto, se necesita una teoría de la información para campos, y eso es lo que es la teoría de campos de información.

Conceptos

Inferencia bayesiana

es un valor de campo en una ubicación en un espacio . El conocimiento previo sobre el campo de señal desconocido está codificado en la distribución de probabilidad . Los datos proporcionan información adicional sobre la probabilidad que se incorpora a la probabilidad posterior según el teorema de Bayes .

Informaciónhamiltoniano

En IFT, el teorema de Bayes suele reescribirse en el lenguaje de una teoría estadística de campos, con la información hamiltoniana definida como el logaritmo negativo de la probabilidad conjunta de datos y señales y siendo la función de partición. Esta reformulación del teorema de Bayes permite el uso de métodos de Física matemática desarrollada para el tratamiento de teorías estadísticas de campos y teorías cuánticas de campos .

Campos

Como los campos tienen un número infinito de grados de libertad, la definición de probabilidades sobre espacios de configuraciones de campo tiene sutilezas. La identificación de campos físicos como elementos de espacios funcionales plantea el problema de que no se define ninguna medida de Lebesgue sobre estos últimos y, por lo tanto, no se pueden definir densidades de probabilidad allí. Sin embargo, los campos físicos tienen mucha más regularidad que la mayoría de los elementos de los espacios funcionales, ya que son continuos y suaves en la mayoría de sus ubicaciones. Por lo tanto, se pueden utilizar construcciones menos generales, pero suficientemente flexibles, para manejar el número infinito de grados de libertad de un campo.

Un enfoque pragmático es considerar el campo a discretizar en términos de píxeles. Cada píxel lleva un valor de campo único que se supone que es constante dentro del volumen de píxeles. Todas las afirmaciones sobre el campo continuo deben entonces plasmarse en su representación en píxeles. De esta manera, se trata de espacios de campos de dimensiones finitas, sobre los cuales las densidades de probabilidad son bien definibles.

Para que esta descripción sea una teoría de campo adecuada, se requiere además que la resolución de píxeles siempre pueda refinarse, mientras que los valores esperados del campo discretizado convergen a valores finitos:

Integrales de ruta

Si este límite existe, se puede hablar de integral de espacio de configuración de campo o integral de trayectoria, independientemente de la resolución, podría evaluarse numéricamente.

previo gaussiano

La prioridad más simple para un campo es la de una distribución de probabilidad gaussiana de media cero . El determinante en el denominador puede estar mal definido en el límite del continuo ; sin embargo, todo lo que se necesita para que IFT sea consistente es que este determinante pueda estimarse para cualquier representación de campo de resolución finita y que esto permite el cálculo de valores esperados convergentes.

Una distribución de probabilidad gaussiana requiere la especificación de la función de correlación de dos puntos del campo con coeficientes y un producto escalar para campos continuos con respecto a los cuales se construye la covarianza inversa del campo de señal , es decir

La información previa correspondiente lee el hamiltoniano

Ecuación de medición

Los datos de medición se generaron con la probabilidad . En caso de que el instrumento fuera lineal, se puede dar una ecuación de medición de la forma , en la cual está la respuesta del instrumento, que describe cómo reaccionan los datos en promedio a la señal, y es el ruido, simplemente la diferencia entre los datos y la respuesta de la señal lineal . . Es esencial tener en cuenta que la respuesta traduce el vector de señal de dimensión infinita al espacio de datos de dimensión finita. En componentes esto lee

donde también se introdujo una notación de componentes vectoriales para vectores de señales y datos.

Si el ruido sigue una estadística gaussiana de media cero independiente de la señal con covarianza , entonces la probabilidad también es gaussiana, y la información de probabilidad hamiltoniana es Una medición lineal de una señal gaussiana, sujeta a ruido gaussiano e independiente de la señal, conduce a una IFT libre.

teoría libre

Hamiltoniano libre

La información conjunta hamiltoniana del escenario gaussiano descrito anteriormente es donde denota igualdad hasta constantes irrelevantes, que, en este caso, significa expresiones que son independientes de . De esto queda claro que la parte posterior debe ser gaussiana con media y varianza , donde la igualdad entre los lados derecho e izquierdo se cumple ya que ambas distribuciones están normalizadas .

Filtro Wiener generalizado

La media posterior también se conoce como solución de filtro de Wiener generalizada y la covarianza de incertidumbre como varianza de Wiener.

En IFT, se le llama fuente de información, ya que actúa como término fuente para excitar el campo (conocimiento), y propagador de información, ya que propaga información de un lugar a otro en

Teoría interactiva

Hamiltoniano interactuando

Si se viola alguno de los supuestos que conducen a la teoría libre, IFT se convierte en una teoría interactiva, con términos de orden superior al cuadrático en el campo de la señal. Esto sucede cuando la señal o el ruido no siguen las estadísticas gaussianas, cuando la respuesta no es lineal, cuando el ruido depende de la señal o cuando la respuesta o las covarianzas son inciertas.

En este caso, la información hamiltoniana podría ser ampliable en una serie de Taylor - Fréchet ,

¿Dónde está el hamiltoniano libre, que por sí solo conduciría a un posterior gaussiano, y el hamiltoniano interactivo, que codifica correcciones no gaussianas? Los coeficientes de Taylor de primer y segundo orden a menudo se identifican con la fuente de información (negativa) y el propagador de información , respectivamente. Los coeficientes más altos están asociados con autointeracciones no lineales.

Campo clásico

El campo clásico minimiza la información hamiltoniana y, por tanto, maximiza la posterior: el campo clásico es, por tanto, el estimador máximo a posteriori del problema de inferencia de campo.

filtro crítico

El problema del filtro de Wiener requiere que se conozca la correlación de dos puntos de un campo. Si se desconoce, debe inferirse junto con el campo mismo. Esto requiere la especificación de un hiperprior . A menudo, se puede asumir homogeneidad estadística (invariancia de traducción), lo que implica que es diagonal en el espacio de Fourier (por ser un espacio cartesiano dimensional ). En este caso, sólo es necesario inferir el espectro de potencia espacial de Fourier. Dada una suposición adicional de isotropía estadística, este espectro depende sólo de la longitud del vector de Fourier y sólo es necesario determinar un espectro unidimensional . La covarianza del campo anterior se lee entonces en coordenadas espaciales de Fourier .

Si el anterior es plano, la probabilidad conjunta de datos y espectro es donde se utilizó nuevamente la notación del propagador de información y la fuente del problema del filtro de Wiener. La información correspondiente hamiltoniana es donde denota igualdad hasta constantes irrelevantes (aquí: constante con respecto a ). Minimizando esto con respecto a , para obtener su máximo estimador de espectro de potencia a posteriori, se obtiene donde se introdujeron la media del filtro de Wiener y el proyector de banda espectral . Este último conmuta con , ya que es diagonal en el espacio de Fourier. Por lo tanto, el estimador máximo a posteriori para el espectro de potencia debe calcularse de forma iterativa, ya que dependen ambos de sí mismos. En un enfoque empírico de Bayes , la estimación se daría por dada. Como consecuencia, la estimación media posterior para el campo de señal es la correspondiente y su incertidumbre la correspondiente en la aproximación empírica de Bayes.

El filtro no lineal resultante se denomina filtro crítico . [4] La generalización de la fórmula de estimación del espectro de potencia muestra umbrales de percepción para , lo que significa que la varianza de los datos en una banda de Fourier tiene que exceder el nivel de ruido esperado en un cierto umbral antes de que la reconstrucción de la señal sea distinta de cero para esta banda. Siempre que la variación de los datos excede ligeramente este umbral, la reconstrucción de la señal salta a un nivel de excitación finito, similar a una transición de fase de primer orden en los sistemas termodinámicos. Para el filtro con percepción de la señal comienza continuamente tan pronto como la variación de los datos excede el nivel de ruido. La desaparición de la percepción discontinua es similar a un sistema termodinámico que pasa por un punto crítico . De ahí el nombre de filtro crítico.

El filtro crítico, sus extensiones a mediciones no lineales y la inclusión de espectros anteriores no planos permitieron la aplicación de IFT a problemas de inferencia de señales del mundo real, para los cuales la covarianza de la señal generalmente se desconoce a priori.

Ejemplos de aplicación del IFT

Imagen radiointerferométrica de radiogalaxias en el cúmulo de galaxias Abell 2219. Las imágenes se construyeron mediante retroproyección de datos (arriba), el algoritmo CLEAN (centro) y el algoritmo RESOLVE (abajo). Los flujos negativos y, por tanto, no físicos, se muestran en blanco.

El filtro Wiener generalizado, que surge en IFT libre, se utiliza ampliamente en el procesamiento de señales. Se derivaron algoritmos basados ​​explícitamente en IFT para varias aplicaciones. Muchos de ellos se implementan utilizando la biblioteca de Teoría de campos de información numérica (NIFTy).

Teoría avanzada

Se pueden utilizar muchas técnicas de la teoría cuántica de campos para abordar problemas IFT, como los diagramas de Feynman, las acciones efectivas y el formalismo del operador de campo.

diagramas de feynman

Los primeros tres diagramas de Feynman contribuyen a la estimación media posterior de un campo. Una línea expresa un propagador de información, un punto al final de una línea una fuente de información y un vértice un término de interacción. El primer diagrama codifica el filtro de Wiener, el segundo una corrección no lineal y el tercero una corrección de incertidumbre del filtro de Wiener.

En caso de que los coeficientes de interacción en una expansión de Taylor - Fréchet de la información hamiltoniana sean pequeños, la función de partición logarítmica, o energía libre de Helmholtz , se puede expandir asintóticamente en términos de estos coeficientes. El hamiltoniano libre especifica la media y la varianza de la distribución gaussiana sobre la que se integra la expansión. Esto conduce a una suma sobre el conjunto de todos los diagramas de Feynman conectados . A partir de la energía libre de Helmholtz, cualquier momento conectado del campo se puede calcular mediante campos de señales casi gaussianos, a donde conduce la no gaussianidad de las estadísticas del campo. a pequeños coeficientes de interacción . Por ejemplo, las estadísticas del Fondo Cósmico de Microondas son casi gaussianas, y se cree que pequeñas cantidades de no gaussianidades se sembraron durante la época inflacionaria del Universo Temprano .

Acción efectiva

Para tener números estables para problemas IFT, se necesita un campo funcional que, si se minimiza, proporcione el campo medio posterior. Ésta viene dada por la acción efectiva o energía libre de Gibbs de un campo. La energía libre de Gibbs se puede construir a partir de la energía libre de Helmholtz mediante una transformación de Legendre . En IFT, viene dada por la diferencia de la energía de información interna y la entropía de Shannon para la temperatura , donde se utiliza una aproximación posterior gaussiana con los datos aproximados que contienen la media y la dispersión del campo. [5]

La energía libre de Gibbs es entonces la divergencia de Kullback-Leibler entre posterior aproximativa y exacta más la energía libre de Helmholtz. Como este último no depende de los datos aproximados , minimizar la energía libre de Gibbs equivale a minimizar la divergencia de Kullback-Leibler entre posterior aproximado y exacto. Por lo tanto, el enfoque de acción efectiva de IFT es equivalente a los métodos bayesianos variacionales , que también minimizan la divergencia de Kullback-Leibler entre posteriores aproximados y exactos.

Minimizar la energía libre de Gibbs proporciona aproximadamente el campo medio posterior, mientras que minimizar la información hamiltoniana proporciona el campo medio posterior máximo. Como se sabe que este último se ajusta demasiado al ruido, el primero suele ser un mejor estimador de campo.

Formalismo del operador

El cálculo de la energía libre de Gibbs requiere el cálculo de integrales gaussianas sobre una información hamiltoniana, ya que la energía de información interna es Tales integrales se pueden calcular mediante un formalismo de operador de campo, [6] en el que es el operador de campo. Esto genera la expresión de campo dentro de la integral si se aplica a la función de distribución gaussiana, y cualquier potencia superior del campo si se aplica varias veces. Si la información hamiltoniana es analítica, todos sus términos se pueden generar a través del operador de campo como lo hace el operador de campo. No depende del campo en sí, se puede sacar de la integral de ruta de la construcción de energía de información interna, donde debe considerarse como un funcional que siempre devuelve el valor independientemente del valor de su entrada . La expresión resultante se puede calcular conmutando el aniquilador de campo medio a la derecha de la expresión, donde desaparecen desde . El aniquilador de campo medio conmuta con el campo medio como

Mediante el uso del formalismo del operador de campo se puede calcular la energía libre de Gibbs, lo que permite la inferencia (aproximada) del campo medio posterior mediante una minimización funcional numérica robusta.

Historia

El libro de Norbert Wiener [7] podría considerarse como uno de los primeros trabajos sobre inferencia de campo. Varios autores propusieron el uso de integrales de trayectoria para la inferencia de campos, por ejemplo Edmund Bertschinger [8] o William Bialek y A. Zee. [9] Jörg Lemm hizo explícita la conexión entre la teoría de campos y el razonamiento bayesiano. [10] El término teoría del campo de la información fue acuñado por Torsten Enßlin. [11] Véase la última referencia para obtener más información sobre la historia del IFT.

Ver también

Referencias

  1. ^ Enßlin, Torsten (2013). "Teoría del campo de la información". Actas de la conferencia AIP . 1553 (1): 184-191. arXiv : 1301.2556 . Código Bib : 2013AIPC.1553..184E. doi : 10.1063/1.4819999.
  2. ^ Enßlin, Torsten A. (2019). "Teoría de la información para campos". Annalen der Physik . 531 (3): 1800127. arXiv : 1804.03350 . Código Bib : 2019AnP...53100127E. doi : 10.1002/andp.201800127.
  3. ^ "Teoría del campo de la información". Sociedad Max Planck . Consultado el 13 de noviembre de 2014 .
  4. ^ Enßlin, Torsten A.; Frommert, Mona (19 de mayo de 2011). "Reconstrucción de señales con espectros desconocidos en teoría de campos de información con incertidumbre de parámetros". Revisión física D. 83 (10): 105014. arXiv : 1002.2928 . Código Bib : 2011PhRvD..83j5014E. doi : 10.1103/PhysRevD.83.105014.
  5. ^ Enßlin, Torsten A. (2010). "Inferencia con energía libre de Gibbs mínima en la teoría de campos de información". Revisión física E. 82 (5): 051112. arXiv : 1004.2868 . Código bibliográfico : 2010PhRvE..82e1112E. doi :10.1103/physreve.82.051112. PMID  21230442.
  6. ^ Leike, Reimar H.; Enßlin, Torsten A. (16 de noviembre de 2016). "Cálculo de operadores para la teoría de campos de información". Revisión física E. 94 (5): 053306. arXiv : 1605.00660 . Código Bib : 2016PhRvE..94e3306L. doi : 10.1103/PhysRevE.94.053306. PMID  27967173.
  7. ^ Viena, Norberto (1964). Extrapolación, interpolación y suavizado de series temporales estacionarias con aplicaciones de ingeniería (Quinta edición de impresión). Cambridge, Mass.: Technology Press del Instituto de Tecnología de Massachusetts. ISBN 0262730057. OCLC  489911338.
  8. ^ Bertschinger, Edmund (diciembre de 1987). "Métodos de integral de ruta para perturbaciones de densidad primordial: muestreo de campos aleatorios gaussianos restringidos". La revista astrofísica . 323 : L103–L106. Código bibliográfico : 1987ApJ...323L.103B. doi : 10.1086/185066 . ISSN  0004-637X.
  9. ^ Bialek, William; Zee, A. (26 de septiembre de 1988). "Comprensión de la eficiencia de la percepción humana". Cartas de revisión física . 61 (13): 1512-1515. Código bibliográfico : 1988PhRvL..61.1512B. doi : 10.1103/PhysRevLett.61.1512. PMID  10038817.
  10. ^ Lemm, Jörg C. (2003). Teoría de campos bayesianos . Baltimore, Maryland: Prensa de la Universidad Johns Hopkins. ISBN 9780801872204. OCLC  52762436.
  11. ^ Enßlin, Torsten A.; Frommert, Mona; Kitaura, Francisco S. (9 de noviembre de 2009). "Teoría del campo de información para la reconstrucción de perturbaciones cosmológicas y análisis de señales no lineales". Revisión física D. 80 (10): 105005. arXiv : 0806.3474 . Código Bib : 2009PhRvD..80j5005E. doi : 10.1103/PhysRevD.80.105005.