Filtrado generalizado

El filtrado generalizado es un esquema de filtrado bayesiano genérico para modelos de espacio de estados no lineales. ^[1] Se basa en un principio variacional de mínima acción , formulado en coordenadas generalizadas de movimiento. ^[2] Nótese que las "coordenadas generalizadas de movimiento" están relacionadas con, pero son distintas de, las coordenadas generalizadas tal como se usan en el análisis de sistemas dinámicos (multicuerpo). El filtrado generalizado proporciona densidades posteriores sobre estados ocultos (y parámetros) generando datos observados utilizando un descenso de gradiente generalizado sobre energía libre variacional, bajo el supuesto de Laplace . A diferencia del filtrado clásico (por ejemplo, Kalman-Bucy o de partículas ), el filtrado generalizado evita los supuestos markovianos sobre fluctuaciones aleatorias. Además, opera en línea, asimilando datos para aproximarse a la densidad posterior sobre cantidades desconocidas, sin la necesidad de un pase hacia atrás. Los casos especiales incluyen filtrado variacional , ^[3] maximización de expectativa dinámica ^[4] y codificación predictiva generalizada .

Definición

Definición : El filtrado generalizado se basa en la tupla : $(\Omega, U, X, S, p, q)$

Un espacio muestral del que se extraen fluctuaciones aleatorias ${\estilo de visualización \Omega}$ $\omega \en \Omega$
Estados de control : que actúan como causas externas, términos de entrada o de fuerza. $U\in \mathbb {R}$
Estados ocultos : que provocan estados sensoriales y dependen de estados de control. $X:X\veces U\veces \Omega \to \mathbb {R}$
Estados de los sensores : un mapeo probabilístico de estados ocultos y de control $S:X\veces U\veces \Omega \to \mathbb {R}$
Densidad generativa – sobre estados sensoriales, ocultos y de control bajo un modelo generativo $p({\tilde {s}},{\tilde {x}},{\tilde {u}}\mid m)$ ${\estilo de visualización m}$
Densidad variacional – sobre estados ocultos y de control con media $q({\tilde {x}},{\tilde {u}}\mid {\tilde {\mu }})$ ${\tilde {\mu }}\in \mathbb {R}$

Aquí ~ denota una variable en coordenadas generalizadas de movimiento: ${\tilde {u}}=[u,u',u'',\ldots ]^{T}$

Filtrado generalizado

El objetivo es aproximar la densidad posterior sobre estados ocultos y de control, dados los estados del sensor y un modelo generativo, y estimar la evidencia del modelo (integral de trayectoria) para comparar diferentes modelos. Esto generalmente implica una marginalización intratable sobre estados ocultos, por lo que la evidencia del modelo (o probabilidad marginal) se reemplaza con un límite de energía libre variacional. ^[5] Dadas las siguientes definiciones: $p({\tilde {s}}(t)\vert m)$

{\tilde {\mu }}(t)={\underset {\tilde {\mu }}{\operatorname {arg\,min} }}\{F({\tilde {s}}(t),{\tilde {\mu }})\}

G({\tilde {s}},{\tilde {x}},{\tilde {u}})=-\ln p({\tilde {s}},{\tilde {x}},{\tilde {u}}\vert m)

Denotemos la entropía de Shannon de la densidad por . Podemos escribir entonces la energía libre variacional de dos maneras: $q$ $H[q]=E_{q}[-\log(q)]$

F({\tilde {s}},{\tilde {\mu }})=E_{q}[G({\tilde {s}},{\tilde {x}},{\tilde {u}})]-H[q({\tilde {x}},{\tilde {u}}\vert {\tilde {\mu }})]=-\ln p({\tilde {s}}\vert m)+D_{KL}[q({\tilde {x}},{\tilde {u}}\vert {\tilde {\mu }})\vert \vert p({\tilde {x}},{\tilde {u}}\vert {\tilde {s}},m)]

La segunda igualdad muestra que al minimizar la energía libre variacional (i) se minimiza la divergencia de Kullback-Leibler entre la densidad variacional y la densidad posterior verdadera y (ii) se obtiene la energía libre variacional (una aproximación límite a) como evidencia logarítmica negativa (porque la divergencia nunca puede ser menor que cero). ^[6] Según el supuesto de Laplace, la densidad variacional es gaussiana y la precisión que minimiza la energía libre es . Esto significa que la energía libre se puede expresar en términos de la media variacional ^[7] (omitiendo las constantes): $q({\tilde {x}},{\tilde {u}}\mid {\tilde {\mu }})={\mathcal {N}}({\tilde {\mu }},C)$ $C^{-1}=\Pi =\partial _{{\tilde {\mu }}{\tilde {\mu }}}G({\tilde {\mu }})$

F=G({\tilde {\mu }})+\textstyle {1 \over 2}\ln \vert \partial _{{\tilde {\mu }}{\tilde {\mu }}}G({\tilde {\mu }})\vert

Los medios variacionales que minimizan la (integral de trayectoria) de la energía libre ahora se pueden recuperar resolviendo el filtro generalizado:

{\dot {\tilde {\mu }}}=D{\tilde {\mu }}-\partial _{\tilde {\mu }}F({\tilde {s}},{\tilde {\mu }})

donde es un operador de derivada de matriz de bloques de matrices de identificación tales que $D$ $D{\tilde {u}}=[u',u'',\ldots ]^{T}$

Base variacional

El filtrado generalizado se basa en el siguiente lema: La solución autoconsistente para satisface el principio variacional de acción estacionaria , donde la acción es la integral de trayectoria de la energía libre variacional. ${\dot {\tilde {\mu }}}=D{\tilde {\mu }}-\partial _{\tilde {\mu }}F(s,{\tilde {\mu }})$

S=\int dt\,F({\tilde {s}}(t),{\tilde {\mu }}(t))

Prueba : la autoconsistencia requiere que el movimiento de la media sea la media del movimiento y (por el lema fundamental del cálculo variacional )

{\dot {\tilde {\mu }}}=D{\tilde {\mu }}\Leftrightarrow \partial _{\tilde {\mu }}F({\tilde {s}},{\tilde {\mu }})=0\Leftrightarrow \delta _{\tilde {\mu }}S=0

En pocas palabras, pequeñas perturbaciones en la trayectoria de la media no cambian la energía libre variacional y tiene la menor acción de todas las trayectorias (locales) posibles.

Observaciones : Heurísticamente, el filtrado generalizado realiza un descenso de gradiente sobre la energía libre variacional en un marco de referencia móvil: , donde el propio marco minimiza la energía libre variacional. Para un ejemplo relacionado en física estadística, véase Kerr y Graham ^[8], quienes utilizan dinámica de conjuntos en coordenadas generalizadas para proporcionar una versión generalizada en el espacio de fases de las ecuaciones de Langevin y Fokker-Planck asociadas. ${\dot {\tilde {\mu }}}-D{\tilde {\mu }}=-\partial _{\tilde {\mu }}F(s,{\tilde {\mu }})$

En la práctica, el filtrado generalizado utiliza la linealización local ^[9] a lo largo de intervalos para recuperar actualizaciones discretas. $\Delta t$

{\begin{aligned}\Delta {\tilde {\mu }}&=(\exp(\Delta t\cdot J)-I)J^{-1}{\dot {\tilde {\mu }}}\\J&=\partial _{\tilde {\mu }}{\dot {\tilde {\mu }}}=D-\partial _{{\tilde {\mu }}{\tilde {\mu }}}F({\tilde {s}},{\tilde {\mu }})\end{aligned}}

Esto actualiza las medias de las variables ocultas en cada intervalo (normalmente el intervalo entre observaciones).

Modelos generativos (espacio de estados) en coordenadas generalizadas

Generalmente, la densidad o modelo generativo se especifica en términos de un modelo de entrada-estado-salida no lineal con funciones no lineales continuas:

{\begin{aligned}s&=g(x,u)+\omega _{s}\\{\dot {x}}&=f(x,u)+\omega _{x}\end{aligned}}

El modelo generalizado correspondiente (bajo supuestos de linealidad local) obtiene la regla de la cadena.

{\begin{aligned}{\tilde {s}}&={\tilde {g}}({\tilde {x}},{\tilde {u}})+{\tilde {\omega }}_{s}\\\\s&=g(x,u)+\omega _{s}\\s'&=\partial _{x}g\cdot x'+\partial _{u}g\cdot u'+\omega '_{s}\\s''&=\partial _{x}g\cdot x''+\partial _{u}g\cdot u''+\omega ''_{s}\\&\vdots \\\end{aligned}}\qquad {\begin{aligned}{\dot {\tilde {x}}}&={\tilde {f}}({\tilde {x}},{\tilde {u}})+{\tilde {\omega }}_{x}\\\\{\dot {x}}&=f(x,u)+\omega _{x}\\{\dot {x}}'&=\partial _{x}f\cdot x'+\partial _{u}f\cdot u'+\omega '_{x}\\{\dot {x}}''&=\partial _{x}f\cdot x''+\partial _{u}f\cdot u''+\omega ''_{x}\\&\vdots \end{aligned}}

Las suposiciones gaussianas sobre las fluctuaciones aleatorias prescriben entonces la probabilidad y los antecedentes empíricos sobre el movimiento de los estados ocultos. $\omega$

{\begin{aligned}p\left({\tilde {s}},{\tilde {x}},{\tilde {u}}\vert m\right)&=p\left({\tilde {s}}\vert {\tilde {x}},{\tilde {u}},m\right)p\left({D{\tilde {x}}\vert x,{\tilde {u}},m}\right)p(x\vert m)p({\tilde {u}}\vert m)\\p\left({\tilde {s}}\vert {\tilde {x}},{\tilde {u}},m\right)&={\mathcal {N}}({\tilde {g}}({\tilde {x}},{\tilde {u}}),{\tilde {\Sigma }}({\tilde {x}},{\tilde {u}})_{s})\\p\left({D{\tilde {x}}\vert x,{\tilde {u}},m}\right)&={\mathcal {N}}({\tilde {f}}({\tilde {x}},{\tilde {u}}),{\tilde {\Sigma }}({\tilde {x}},{\tilde {u}})_{x})\\\end{aligned}}

Las covarianzas se factorizan en una covarianza entre variables y correlaciones entre fluctuaciones generalizadas que codifica su autocorrelación : ${\tilde {\Sigma }}=V\otimes \Sigma$ $V$

V={\begin{bmatrix}1&0&{\ddot {\rho }}(0)&\cdots \\0&-{\ddot {\rho }}(0)&0\ &\ \\{\ddot {\rho }}(0)\ &0\ &{\ddot {\ddot {\rho }}}(0)\ &\ \\\vdots \ &\ &\ &\ddots \ \\\end{bmatrix}}

Aquí, se evalúa la segunda derivada de la función de autocorrelación en cero. Esta es una medida ubicua de la rugosidad en la teoría de los procesos estocásticos . ^[10] Fundamentalmente, la precisión (varianza inversa) de las derivadas de alto orden cae a cero con bastante rapidez, lo que significa que solo es necesario modelar un movimiento generalizado de orden relativamente bajo (generalmente entre dos y ocho) para cualquier función de autocorrelación dada o parametrizada. ${\ddot {\rho }}(0)$

Casos especiales

Filtrado de series temporales discretas

Cuando las series de tiempo se observan como una secuencia discreta de observaciones, el muestreo implícito se trata como parte del proceso generativo, donde (utilizando el teorema de Taylor ) $N$

[s_{1},\dots ,s_{N}]^{T}=(E\otimes I)\cdot {\tilde {s}}(t):\qquad E_{ij}={\frac {(i-t)^{(j-1)}}{(j-1)!}}

En principio, se podría utilizar toda la secuencia para estimar variables ocultas en cada punto temporal. Sin embargo, la precisión de las muestras del pasado y del futuro disminuye rápidamente y se puede ignorar. Esto permite que el esquema asimile los datos en línea, utilizando observaciones locales en torno a cada punto temporal (normalmente entre dos y ocho).

Filtrado generalizado y parámetros del modelo

Para cualquier modelo que varíe lentamente los parámetros de las ecuaciones de movimiento o el filtrado generalizado de precisión toma la siguiente forma (donde corresponde a la media variacional de los parámetros) $f(x,u,\theta )$ ${\tilde {\Pi }}(x,u,\theta )$ $\mu$

{\begin{aligned}{\dot {\mu }}&=\mu '\\{\dot {\mu '}}&=-\partial _{\mu }F({\tilde {s}},\mu )-\kappa \mu '\end{aligned}}

Aquí, la solución minimiza la energía libre variacional, cuando el movimiento de la media es pequeño. Esto se puede ver notando . Es sencillo demostrar que esta solución corresponde a una actualización clásica de Newton . ^[11] ${\dot {\tilde {\mu }}}=0$ ${\dot {\mu }}={\dot {\mu }}'=0\Rightarrow \partial _{\mu }F=0\Rightarrow \delta _{\mu }S=0$

Relación con el filtrado bayesiano y la codificación predictiva

Filtrado generalizado y filtrado de Kalman

El filtrado clásico bajo supuestos markovianos o de Wiener es equivalente a suponer que la precisión del movimiento de fluctuaciones aleatorias es cero. En este caso límite, sólo hay que considerar los estados y su primera derivada . Esto significa que el filtrado generalizado toma la forma de un filtro de Kalman-Bucy, con términos de predicción y corrección: ${\tilde {\mu }}=(\mu ,{\mu }')$

{\begin{aligned}{\dot {\mu }}&=\mu '-\partial _{\mu }F(s,{\tilde {\mu }})\\{\dot {\mu '}}&=-\partial _{\mu '}F(s,{\tilde {\mu }})\end{aligned}}

Sustituir este filtrado de primer orden en el esquema de actualización discreto anterior proporciona el equivalente del filtrado de Kalman (extendido). ^[12]

Filtrado generalizado y filtrado de partículas

El filtrado de partículas es un esquema basado en muestreo que relaja los supuestos sobre la forma de la densidad posterior aproximada o variacional. El esquema de filtrado generalizado correspondiente se denomina filtrado variacional . ^[3] En el filtrado variacional, un conjunto de partículas se difunde sobre el paisaje de energía libre en un marco de referencia que se mueve con el movimiento esperado (generalizado) del conjunto. Esto proporciona un esquema relativamente simple que evita los supuestos gaussianos (unimodales). A diferencia del filtrado de partículas, no requiere densidades propuestas, ni la eliminación o creación de partículas.

Filtrado generalizado y Bayes variacional

El Bayes variacional se basa en una partición de campo medio de la densidad variacional:

q({\tilde {x}},{\tilde {u}},\theta \dots \vert {\tilde {\mu }},\mu )=q({\tilde {x}},{\tilde {u}}\vert {\tilde {\mu }})q(\theta \vert \mu )\dots

Esta partición induce una actualización o paso variacional para cada densidad marginal, que generalmente se resuelve analíticamente utilizando valores previos conjugados. En el filtrado generalizado, esto conduce a una maximización de la expectativa dinámica ^[4] que comprende un paso D que optimiza las estadísticas suficientes de los estados desconocidos, un paso E para los parámetros y un paso M para las precisiones.

Filtrado generalizado y codificación predictiva

El filtrado generalizado se utiliza generalmente para invertir modelos jerárquicos de la siguiente forma

{\begin{aligned}{\tilde {s}}&={\tilde {g}}^{1}({\tilde {x}}^{1},{\tilde {u}}^{(1)})+{\tilde {\omega }}_{s}^{(1)}\\{\dot {\tilde {x}}}^{(1)}&={\tilde {f}}^{(1)}({\tilde {x}}^{(1)},{\tilde {u}}^{(1)})+{\tilde {\omega }}_{x}^{(1)}\\\vdots \\{\tilde {u}}^{(i-1)}&={\tilde {g}}^{(i)}({\tilde {x}}^{(i)},{\tilde {u}}^{(i)})+{\tilde {\omega }}_{u}^{(i)}\\{\dot {\tilde {x}}}^{(i)}&={\tilde {f}}^{(i)}({\tilde {x}}^{(i)},{\tilde {u}}^{(i)})+{\tilde {\omega }}_{x}^{(i)}\\\vdots \end{aligned}}

El consiguiente descenso de gradiente generalizado sobre la energía libre se puede expresar entonces de forma compacta en términos de errores de predicción, donde (omitiendo los términos de orden superior):

{\begin{aligned}{\dot {\tilde {\mu }}}_{u}^{(i)}&=D{\tilde {\mu }}^{(u,i)}-\partial _{u}{\tilde {\varepsilon }}^{(i)}\cdot \Pi ^{(i)}{\tilde {\varepsilon }}^{(i)}-\Pi ^{(i+1)}{\tilde {\varepsilon }}_{u}^{(i+1)}\\{\dot {\tilde {\mu }}}_{x}^{(i)}&=D{\tilde {\mu }}^{(x,i)}-\partial _{x}{\tilde {\varepsilon }}^{(i)}\cdot \Pi ^{(i)}{\tilde {\varepsilon }}^{(i)}\\\\{\tilde {\varepsilon }}_{u}^{(i)}&={\tilde {\mu }}_{u}^{(i-1)}-{\tilde {g}}^{(i)}\\{\tilde {\varepsilon }}_{x}^{(i)}&=D{\tilde {\mu }}_{x}^{(i)}-{\tilde {f}}^{(i)}\end{aligned}}

Aquí se muestra la precisión de las fluctuaciones aleatorias en el nivel i . Esto se conoce como codificación predictiva generalizada [11], siendo la codificación predictiva lineal un caso especial. $\Pi ^{(i)}$

Aplicaciones

El filtrado generalizado se ha aplicado principalmente a series temporales biológicas, en particular a imágenes por resonancia magnética funcional y datos electrofisiológicos. Esto suele ocurrir en el contexto de modelos causales dinámicos para hacer inferencias sobre las arquitecturas subyacentes de los sistemas (neuronales) que generan datos. ^[13] También se utiliza para simular inferencias en términos de codificación predictiva generalizada (jerárquica) en el cerebro. ^[14]

Véase también

Referencias

^ K Friston, K Stephan, B Li y J. Daunizeau, "Filtrado generalizado", Problemas matemáticos en ingeniería , vol. vol., 2010, pág. 621670, 2010.
^ B Balaji y K Friston, "Estimación de estado bayesiano utilizando coordenadas generalizadas", Proc. SPIE, pág. 80501Y, 2011
^ ab KJ Friston, "Filtrado variacional", Neuroimage, vol. 41, núm. 3, págs. 747-66, 2008.
^ ab KJ Friston, N Trujillo-Barreto y J Daunizeau, "DEM: Un tratamiento variacional de sistemas dinámicos", Neuroimage, vol. 41, núm. 3, págs. 849-85, 2008
^ RP Feynman, Mecánica estadística. Lectura MA: Benjamin, 1972
^ MJ Beal, "Algoritmos variacionales para inferencia bayesiana aproximada", tesis doctoral, University College London, 2003.
^ K Friston, J Mattout, N Trujillo-Barreto, J Ashburner y W Penny, "Energía libre variacional y la aproximación de Laplace", NeuroImage, vol. 34, núm. 1, págs. 220-34, 2007
^ WC Kerr y AJ Graham, "Versión generalizada del espacio de fases de las ecuaciones de Langevin y ecuaciones de Fokker-Planck asociadas", Eur. Phys. JB, vol. 15, págs. 305-11, 2000.
^ T Ozaki, "Un puente entre los modelos de series temporales no lineales y los sistemas dinámicos estocásticos no lineales: un enfoque de linealización local", Statistica Sin., vol. 2, págs. 113-135, 1992
^ DR Cox y HD Miller, La teoría de los procesos estocásticos. Londres: Methuen, 1965.
^ K Friston, K Stephan, B Li y J. Daunizeau, "Filtrado generalizado", Problemas matemáticos en ingeniería, vol. vol., 2010, pág. 621670, 2010.
^ KJ Friston, N Trujillo-Barreto y J Daunizeau, "DEM: Un tratamiento variacional de sistemas dinámicos", Neuroimage, vol. 41, núm. 3, págs. 849-85, 2008
^ J Daunizeau, O David y KE Stephan, "Modelado causal dinámico: una revisión crítica de los fundamentos biofísicos y estadísticos Archivado el 7 de diciembre de 2012 en Wayback Machine ", Neuroimage, vol. 58, núm. 2, págs. 312-22, 2011
^ K Friston, "Modelos jerárquicos en el cerebro", PLoS Comput. Biol., vol. 4, núm. 11, pág. e1000211, 2008.

Enlaces externos

Las demostraciones y aplicaciones de software están disponibles como software académico gratuito (como código Matlab) en la caja de herramientas DEM de SPM
Colección de artículos técnicos y de aplicación.