Proceso gaussiano

En teoría de probabilidad y estadística , un proceso gaussiano es un proceso estocástico (una colección de variables aleatorias indexadas por tiempo o espacio), de modo que cada colección finita de esas variables aleatorias tiene una distribución normal multivariante . La distribución de un proceso gaussiano es la distribución conjunta de todas esas (infinitas) variables aleatorias y, como tal, es una distribución sobre funciones con un dominio continuo, por ejemplo, tiempo o espacio.

El concepto de procesos gaussianos recibe su nombre de Carl Friedrich Gauss porque se basa en la noción de distribución gaussiana ( distribución normal ). Los procesos gaussianos pueden considerarse como una generalización de dimensión infinita de distribuciones normales multivariadas.

Los procesos gaussianos son útiles en el modelado estadístico , ya que se benefician de las propiedades heredadas de la distribución normal. Por ejemplo, si se modela un proceso aleatorio como un proceso gaussiano, se pueden obtener explícitamente las distribuciones de varias cantidades derivadas. Dichas cantidades incluyen el valor promedio del proceso en un rango de tiempos y el error en la estimación del promedio utilizando valores de muestra en un pequeño conjunto de tiempos. Si bien los modelos exactos a menudo escalan mal a medida que aumenta la cantidad de datos, se han desarrollado métodos de aproximación múltiple que a menudo mantienen una buena precisión al tiempo que reducen drásticamente el tiempo de cálculo.

Definición

Un proceso estocástico continuo en el tiempo es gaussiano si y solo si para cada conjunto finito de índices en el conjunto de índices $\left\{X_{t};t\en T\right\}$ $t_{1},\ldots ,t_{k}$ ${\estilo de visualización T}$

$\mathbf {X} _{t_{1},\ldots ,t_{k}}=(X_{t_{1}},\ldots ,X_{t_{k}})$

es una variable aleatoria gaussiana multivariada . ^[1] Esto es lo mismo que decir que cada combinación lineal de tiene una distribución normal (o gaussiana) univariante. $(X_{t_{1}},\ldots ,X_{t_{k}})$

Utilizando funciones características de variables aleatorias con denotando la unidad imaginaria tal que , la propiedad gaussiana se puede formular de la siguiente manera: es gaussiana si y solo si, para cada conjunto finito de índices , hay , con valores reales tales que la siguiente igualdad se cumple para todos los , ${\estilo de visualización i}$ $i^{2}=-1$ $\left\{X_{t};t\en T\right\}$ $t_{1},\ldots ,t_{k}$ $\sigma _{\ell j}$ $\mu _{\ell }$ $\sigma _{jj}>0$ $s_{1},s_{2},\ldots ,s_{k}\in \mathbb {R}$

${\mathbb {E}}[\exp \left(i\sum _{\ell =1}^{k}s_{\ell }\,\mathbf {X} _{t_{\ell }}\right)\right]=\exp \left(-{\tfrac {1}{2}}\sum _{\ell ,j}\sigma _{\ell j}s_{\ell }s_{j}+i\sum _{\ell }\mu _{\ell }s_{\ell }\right),$

o . Se puede demostrar que los números y son las covarianzas y medias de las variables en el proceso. ^[2] ${\mathbb {E} }\left[{\mathrm {e} }^{i\,\mathbf {s} \,(\mathbf {X} _{t}-\mathbf {\mu } ) }\right]={\mathrm {e} }^{-\mathbf {s} \,\sigma \,\mathbf {s} /2}$ $\sigma _{\ell j}$ $\mu _{\ell }$

Diferencia

La varianza de un proceso gaussiano es finita en cualquier momento , formalmente ^[3]^{: p. 515} ${\estilo de visualización t}$ $\operatorname {var} [X(t)]={\mathbb {E} }\left[\left|X(t)-\operatorname {E} [X(t)]\right|^{2}\right]<\infty \quad {\text{para todo }}t\in T.$

Estacionariedad

Para los procesos estocásticos generales, la estacionariedad en sentido estricto implica la estacionariedad en sentido amplio , pero no todos los procesos estocásticos estacionarios en sentido amplio son estacionarios en sentido estricto. Sin embargo, para un proceso estocástico gaussiano, los dos conceptos son equivalentes. ^[3]^{: p. 518}

Un proceso estocástico gaussiano es estacionario en sentido estricto si y solo si es estacionario en sentido amplio.

Ejemplo

Existe una representación explícita para los procesos gaussianos estacionarios. ^[4] Un ejemplo simple de esta representación es

$X_{t}=\cos(at)\,\xi _{1}+\sin(at)\,\xi _{2}$

donde y son variables aleatorias independientes con distribución normal estándar . $estilo de visualización {\xi _{1}}$ $estilo de visualización {\xi _{2}}$

Funciones de covarianza

Un hecho clave de los procesos gaussianos es que pueden definirse completamente por sus estadísticas de segundo orden. ^[5] Por lo tanto, si se supone que un proceso gaussiano tiene media cero, la definición de la función de covarianza define completamente el comportamiento del proceso. Es importante destacar que la definición no negativa de esta función permite su descomposición espectral utilizando la expansión de Karhunen–Loève . Los aspectos básicos que pueden definirse a través de la función de covarianza son la estacionariedad , la isotropía , la suavidad y la periodicidad del proceso . ^[6]^[7]

La estacionariedad se refiere al comportamiento del proceso con respecto a la separación de dos puntos cualesquiera y . Si el proceso es estacionario, la función de covarianza depende únicamente de . Por ejemplo, el proceso de Ornstein-Uhlenbeck es estacionario. ${\estilo de visualización x}$ ${\estilo de visualización x'}$ ${\estilo de visualización xx'}$

Si el proceso depende únicamente de , la distancia euclidiana (no la dirección) entre y , entonces el proceso se considera isótropo. Un proceso que es simultáneamente estacionario e isótropo se considera homogéneo ; ^[8] en la práctica, estas propiedades reflejan las diferencias (o más bien la falta de ellas) en el comportamiento del proceso dada la ubicación del observador. ${\estilo de visualización |xx'|}$ ${\estilo de visualización x}$ ${\estilo de visualización x'}$

En última instancia, los procesos gaussianos se traducen en la toma de valores a priori sobre funciones y la suavidad de estos valores a priori puede ser inducida por la función de covarianza. ^[6] Si esperamos que para los puntos de entrada "cercanos" y sus puntos de salida correspondientes y que también sean "cercanos", entonces está presente el supuesto de continuidad. Si deseamos permitir un desplazamiento significativo, entonces podemos elegir una función de covarianza más aproximada. Ejemplos extremos de este comportamiento son la función de covarianza de Ornstein-Uhlenbeck y la exponencial al cuadrado, donde la primera nunca es diferenciable y la segunda infinitamente diferenciable. ${\estilo de visualización x}$ ${\estilo de visualización x'}$ ${\estilo de visualización y}$ ${\estilo de visualización y'}$

La periodicidad se refiere a la inducción de patrones periódicos en el comportamiento del proceso. Formalmente, esto se logra asignando la entrada a un vector bidimensional . ${\estilo de visualización x}$ $u(x)=\left(\cos(x),\sin(x)\right)$

Funciones de covarianza usuales

Hay varias funciones de covarianza comunes: ^[7]

Constante : $K_{\operatorname {C}}(x,x')=C$
Lineal: $K_{\operatorname {L} }(x,x')=x^{\mathsf {T}}x'$
ruido gaussiano blanco: $K_{\operatorname {GN} }(x,x')=\sigma ^{2}\delta _{x,x'}$
Exponencial al cuadrado: $K_{\operatorname {SE} }(x,x')=\exp \left(-{\tfrac {d^{2}}{2\ell ^{2}}}\right)$
Ornstein-Uhlenbeck: $K_{\operatorname {OU} }(x,x')=\exp \left(-{\tfrac {d}{\ell }}\right)$
Materno: $K_{\operatorname {Matern} }(x,x')={\tfrac {2^{1-\nu }}{\Gamma (\nu )}}\left({\tfrac {{\sqrt {2\nu }}d}{\ell }}\right)^{\nu }K_{\nu }\left({\tfrac {{\sqrt {2\nu }}d}{\ell }}\ bien)$
Periódico: $K_{\operatorname {P} }(x,x')=\exp \left(-{\tfrac {2}{\ell ^{2}}}\sin ^{2}(d/2)\right)$
Cuadrática racional: $K_{\operatorname {RQ} }(x,x')=\left(1+d^{2}\right)^{-\alpha },\quad \alpha \geq 0$

Aquí . El parámetro es la escala de longitud característica del proceso (prácticamente, "cuán cerca" deben estar dos puntos y para influirse significativamente entre sí), es el delta de Kronecker y la desviación estándar de las fluctuaciones de ruido. Además, es la función de Bessel modificada de orden y es la función gamma evaluada en . Es importante destacar que una función de covarianza complicada se puede definir como una combinación lineal de otras funciones de covarianza más simples para incorporar diferentes perspectivas sobre el conjunto de datos en cuestión. $d=|x-x'|$ $\ell$ $x$ $x'$ $\delta$ $\sigma$ $K_{\nu }$ $\nu$ $\Gamma (\nu )$ $\nu$

Los resultados inferenciales dependen de los valores de los hiperparámetros (por ejemplo , y ) que definen el comportamiento del modelo. Una opción popular para es proporcionar estimaciones a posteriori máximas (MAP) de este con algún a priori elegido. Si el a priori es muy cercano a la uniformidad, esto es lo mismo que maximizar la verosimilitud marginal del proceso; la marginalización se realiza sobre los valores del proceso observados . ^[7] Este enfoque también se conoce como máxima verosimilitud II , maximización de la evidencia o Bayes empírico . ^[9] $\theta$ $\ell$ $\sigma$ $\theta$ $y$

Continuidad

Para un proceso gaussiano, la continuidad en probabilidad es equivalente a la continuidad cuadrática media , ^[10]^{: 145} y la continuidad con probabilidad uno es equivalente a la continuidad muestral . ^[11]^{: 91 "Los procesos gaussianos son discontinuos en puntos fijos".} Esto último implica, pero no está implícito por, la continuidad en probabilidad. La continuidad en probabilidad se cumple si y solo si la media y la autocovarianza son funciones continuas. En contraste, la continuidad muestral fue un desafío incluso para procesos gaussianos estacionarios (como probablemente notó primero Andrey Kolmogorov ), y más desafiante para procesos más generales. ^[12]^{: Sect. 2.8}^[13]^{: 69, 81}^[14]^{: 80}^[15] Como es habitual, por un proceso continuo muestral se entiende un proceso que admite una modificación continua muestral . ^[16]^{: 292}^[17]^{: 424}

Caja estacionaria

Para un proceso gaussiano estacionario, algunas condiciones en su espectro son suficientes para la continuidad de la muestra, pero no son necesarias. Una condición necesaria y suficiente, a veces llamada teorema de Dudley-Fernique, involucra la función definida por (el lado derecho no depende de debido a la estacionariedad). La continuidad de en probabilidad es equivalente a la continuidad de en Cuando la convergencia de a (como ) es demasiado lenta, la continuidad de la muestra de puede fallar. La convergencia de las siguientes integrales importa: estas dos integrales son iguales de acuerdo con la integración por sustitución El primer integrando no necesita estar acotado como por lo tanto, la integral puede converger ( ) o divergir ( ). Tomando por ejemplo para grande es decir, para pequeño se obtiene cuando y cuando En estos dos casos la función es creciente en pero generalmente no lo es. Además, la condición $X=(X_{t})_{t\in \mathbb {R} },$ $\sigma$ $\sigma (h)={\sqrt {{\mathbb {E} }{\big [}X(t+h)-X(t){\big ]}^{2}}}$ $t$ $X$ $\sigma$ $0.$ $\sigma (h)$ $0$ $h\to 0$ $X$ $I(\sigma )=\int _{0}^{1}{\frac {\sigma (h)}{h{\sqrt {\log(1/h)}}}}\,dh=\int _{0}^{\infty }2\sigma (e^{-x^{2}})\,dx,$ ${\textstyle h=e^{-x^{2}},}$ ${\textstyle x={\sqrt {\log(1/h)}}.}$ $h\to 0+,$ $I(\sigma )<\infty$ $I(\sigma )=\infty$ ${\textstyle \sigma (e^{-x^{2}})={\tfrac {1}{x^{a}}}}$ $x,$ ${\textstyle \sigma (h)=(\log(1/h))^{-a/2}}$ $h,$ $I(\sigma )<\infty$ $a>1,$ $I(\sigma )=\infty$ $0<a\leq 1.$ $\sigma$ $[0,\infty ),$

(*) existetal quees monótona en

\varepsilon >0

\sigma

[0,\varepsilon ]

no se sigue de la continuidad de y las relaciones evidentes (para todos ) y $\sigma$ $\sigma (h)\geq 0$ $h$ $\sigma (0)=0.$

Teorema 1 — Sea continua y satisfaga (*). Entonces la condición es necesaria y suficiente para la continuidad muestral de $\sigma$ $I(\sigma )<\infty$ $X.$

Un poco de historia. ^[17]^{: 424} La suficiencia fue anunciada por Xavier Fernique en 1964, pero la primera prueba fue publicada por Richard M. Dudley en 1967. ^[16]^{: El teorema 7.1} de necesidad fue demostrado por Michael B. Marcus y Lawrence Shepp en 1970. ^[18]^{: 380}

Existen procesos continuos de muestra tales que violan la condición (*). Un ejemplo encontrado por Marcus y Shepp ^[18]^{: 387} es una serie de Fourier aleatoria lacunar donde son variables aleatorias independientes con distribución normal estándar ; las frecuencias son una secuencia de rápido crecimiento; y los coeficientes satisfacen La última relación implica $X$ $I(\sigma )=\infty ;$ $X_{t}=\sum _{n=1}^{\infty }c_{n}(\xi _{n}\cos \lambda _{n}t+\eta _{n}\sin \lambda _{n}t),$ $\xi _{1},\eta _{1},\xi _{2},\eta _{2},\dots$ $0<\lambda _{1}<\lambda _{2}<\dots$ $c_{n}>0$ ${\textstyle \sum _{n}c_{n}<\infty .}$

${\textstyle {\mathbb {E} }\sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)=\sum _{n}c_{n}{\mathbb {E} }[|\xi _{n}|+|\eta _{n}|]={\text{const}}\cdot \sum _{n}c_{n}<\infty ,}$

de donde casi con seguridad, lo que asegura la convergencia uniforme de la serie de Fourier casi con seguridad, y la continuidad de la muestra de ${\textstyle \sum _{n}c_{n}(|\xi _{n}|+|\eta _{n}|)<\infty }$ $X.$

Su función de autocovariación no es en ningún caso monótona (ver la imagen), así como la función correspondiente ${\mathbb {E} }[X_{t}X_{t+h}]=\sum _{n=1}^{\infty }c_{n}^{2}\cos \lambda _{n}h$ $\sigma ,$ $\sigma (h)={\sqrt {2{\mathbb {E} }[X_{t}X_{t}]-2{\mathbb {E} }[X_{t}X_{t+h}]}}=2{\sqrt {\sum _{n=1}^{\infty }c_{n}^{2}\sin ^{2}{\frac {\lambda _{n}h}{2}}}}.$

El movimiento browniano como integral de los procesos gaussianos

Un proceso de Wiener (también conocido como movimiento browniano) es la integral de un proceso gaussiano generalizado de ruido blanco . No es estacionario , pero tiene incrementos estacionarios .

El proceso de Ornstein-Uhlenbeck es un proceso gaussiano estacionario .

El puente browniano es (como el proceso de Ornstein-Uhlenbeck) un ejemplo de un proceso gaussiano cuyos incrementos no son independientes .

El movimiento browniano fraccional es un proceso gaussiano cuya función de covarianza es una generalización de la del proceso de Wiener.

Estructura RKHS y proceso gaussiano

Sea un proceso gaussiano de media cero con una función de covarianza definida no negativa y sea una función semidefinida positiva y simétrica. Entonces, existe un proceso gaussiano que tiene la covarianza . Además, el espacio de Hilbert del núcleo reproductor asociado a coincide con el espacio asociado del teorema de Cameron-Martin de , y todos los espacios , , y son isométricos. ^[19] De ahora en adelante, sea un espacio de Hilbert del núcleo reproductor con núcleo definido positivo . $f$ $\left\{X_{t};t\in T\right\}$ $K$ $R$ $X$ $R$ $R$ $R(H)$ $X$ $R(H)$ $H_{X}$ ${\mathcal {H}}(K)$ ${\mathcal {H}}(R)$ $R$

La ley cero-uno de Driscoll es un resultado que caracteriza las funciones de muestra generadas por un proceso gaussiano: donde y son las matrices de covarianza de todos los pares de puntos posibles, implica $\lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]<\infty ,$ $K_{n}$ $R_{n}$ $n$ $\Pr[f\in {\mathcal {H}}(R)]=1.$

Además, implica ^[20] $\lim _{n\to \infty }\operatorname {tr} [K_{n}R_{n}^{-1}]=\infty$ $\Pr[f\in {\mathcal {H}}(R)]=0.$

Esto tiene implicaciones importantes cuando , como $K=R$ $\lim _{n\to \infty }\operatorname {tr} [R_{n}R_{n}^{-1}]=\lim _{n\to \infty }\operatorname {tr} [I]=\lim _{n\to \infty }n=\infty .$

Como tal, casi todas las trayectorias de muestra de un proceso gaussiano de media cero con núcleo definido positivo estarán fuera del espacio de Hilbert . $K$ ${\mathcal {H}}(K)$

Procesos gaussianos con restricciones lineales

Para muchas aplicaciones de interés ya se cuenta con algún conocimiento previo sobre el sistema en cuestión. Consideremos, por ejemplo, el caso en el que la salida del proceso gaussiano corresponde a un campo magnético; en este caso, el campo magnético real está limitado por las ecuaciones de Maxwell y sería deseable encontrar una forma de incorporar esta restricción al formalismo del proceso gaussiano, ya que esto probablemente mejoraría la precisión del algoritmo.

Ya existe un método sobre cómo incorporar restricciones lineales en los procesos gaussianos: ^[21]

Considere la función de salida (con valores vectoriales) que se sabe que obedece la restricción lineal (es decir, es un operador lineal). Entonces, la restricción se puede cumplir eligiendo , donde se modela como un proceso gaussiano, y encontrando que Dado y usando el hecho de que los procesos gaussianos están cerrados bajo transformaciones lineales, el proceso gaussiano para obedecer la restricción se convierte en Por lo tanto, las restricciones lineales se pueden codificar en la función de media y covarianza de un proceso gaussiano. $f(x)$ ${\mathcal {F}}_{X}$ ${\mathcal {F}}_{X}(f(x))=0.$ ${\mathcal {F}}_{X}$ $f(x)={\mathcal {G}}_{X}(g(x))$ $g(x)\sim {\mathcal {GP}}(\mu _{g},K_{g})$ ${\mathcal {G}}_{X}$ ${\mathcal {F}}_{X}({\mathcal {G}}_{X}(g))=0\qquad \forall g.$ ${\mathcal {G}}_{X}$ $f$ ${\mathcal {F}}_{X}$ $f(x)={\mathcal {G}}_{X}g\sim {\mathcal {GP}}({\mathcal {G}}_{X}\mu _{g},{\mathcal {G}}_{X}K_{g}{\mathcal {G}}_{X'}^{\mathsf {T}}).$

Aplicaciones

Un proceso gaussiano puede utilizarse como una distribución de probabilidad previa sobre funciones en la inferencia bayesiana . ^[7]^[23] Dado cualquier conjunto de N puntos en el dominio deseado de sus funciones, tome una gaussiana multivariada cuyo parámetro de matriz de covarianza sea la matriz de Gram de sus N puntos con algún kernel deseado , y tome una muestra de esa gaussiana. Para la solución del problema de predicción de múltiples salidas, se desarrolló la regresión del proceso gaussiano para la función con valores vectoriales. En este método, se construye una covarianza "grande", que describe las correlaciones entre todas las variables de entrada y salida tomadas en N puntos en el dominio deseado. ^[24] Este enfoque se elaboró en detalle para los procesos gaussianos con valores matriciales y se generalizó a procesos con "colas más pesadas" como los procesos t de Student . ^[25]

La inferencia de valores continuos con un proceso gaussiano previo se conoce como regresión de proceso gaussiano o kriging ; la extensión de la regresión de proceso gaussiano a múltiples variables objetivo se conoce como cokriging . ^{[26] Los procesos gaussianos son, por lo tanto, útiles como una poderosa herramienta}de interpolación multivariable no lineal . Kriging también se utiliza para extender el proceso gaussiano en el caso de entradas de números enteros mixtos. ^[27]

Los procesos gaussianos también se utilizan comúnmente para abordar problemas de análisis numérico como la integración numérica, la resolución de ecuaciones diferenciales o la optimización en el campo de la numérica probabilística .

Los procesos gaussianos también se pueden utilizar en el contexto de modelos de mezcla de expertos, por ejemplo. ^[28]^[29] La lógica subyacente de un marco de aprendizaje de este tipo consiste en la suposición de que una función de mapeo dada no puede ser bien capturada por un solo modelo de proceso gaussiano. En cambio, el espacio de observación se divide en subconjuntos, cada uno de los cuales se caracteriza por una función de mapeo diferente; cada uno de estos se aprende a través de un componente de proceso gaussiano diferente en la mezcla postulada.

En las ciencias naturales, los procesos gaussianos se han utilizado como modelos probabilísticos de series temporales astronómicas y como predictores de propiedades moleculares. ^[30]

Predicción del proceso gaussiano o Kriging

Cuando se trata de un problema general de regresión de proceso gaussiano (Kriging), se supone que para un proceso gaussiano observado en las coordenadas , el vector de valores ⁠ ⁠ es solo una muestra de una distribución gaussiana multivariada de dimensión igual al número de coordenadas observadas ⁠ ⁠ . Por lo tanto, bajo el supuesto de una distribución de media cero, ⁠ ⁠ , donde ⁠ ⁠ es la matriz de covarianza entre todos los pares posibles ⁠ ⁠ para un conjunto dado de hiperparámetros θ . ^[7] Como tal, la verosimilitud marginal logarítmica es: $f$ $x$ $f(x)$ $n$ $f(x')\sim N(0,K(\theta ,x,x'))$ $K(\theta ,x,x')$ $(x,x')$

$\log p(f(x')\mid \theta ,x)=-{\frac {1}{2}}\left(f(x)^{\mathsf {T}}K(\theta ,x,x')^{-1}f(x')+\log \det(K(\theta ,x,x'))+n\log 2\pi \right)$

y maximizar esta probabilidad marginal hacia $θ$ proporciona la especificación completa del proceso gaussiano $f$ . En este punto se puede notar brevemente que el primer término corresponde a un término de penalización por el fallo de un modelo en ajustar los valores observados y el segundo término a un término de penalización que aumenta proporcionalmente a la complejidad de un modelo. Habiendo especificado $θ$ , hacer predicciones sobre valores no observados ⁠ ⁠ $f(x^{*})$ en las coordenadas $x *$ es entonces solo una cuestión de extraer muestras de la distribución predictiva donde la estimación de la media posterior $A$ se define como y la estimación de la varianza posterior B se define como: donde ⁠ ⁠ es la covarianza entre la nueva coordenada de estimación x * y todas las demás coordenadas observadas x para un vector de hiperparámetros dado $θ$ , ⁠ ⁠ y ⁠ ⁠ se definen como antes y ⁠ ⁠ es la varianza en el punto $x$ $*$ según lo dictado por $θ$ . Es importante notar que prácticamente la estimación media posterior de ⁠ ⁠ (la "estimación puntual") es simplemente una combinación lineal de las observaciones ⁠ ⁠ ; de manera similar, la varianza de ⁠ ⁠ es en realidad independiente de las observaciones ⁠ ⁠ . Un cuello de botella conocido en la predicción de procesos gaussianos es que la complejidad computacional de la inferencia y la evaluación de probabilidad es cúbica en el número de puntos | x |, y como tal puede volverse inviable para conjuntos de datos más grandes. ^[6] Los trabajos sobre procesos gaussianos dispersos, que generalmente se basan en la idea de construir un conjunto representativo para el proceso dado f , intentan sortear este problema. ^[31]^[32] El método kriging se puede utilizar en el nivel latente de un modelo no lineal de efectos mixtos para una predicción funcional espacial: esta técnica se llama kriging latente. ^[33] $p(y^{*}\mid x^{*},f(x),x)=N(y^{*}\mid A,B)$ $A=K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}f(x)$ $B=K(\theta ,x^{*},x^{*})-K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}K(\theta ,x^{*},x)^{\mathsf {T}}$ $K(\theta ,x^{*},x)$ $K(\theta ,x,x')$ $f(x)$ $K(\theta ,x^{*},x^{*})$ $f(x^{*})$ $f(x)$ $f(x^{*})$ $f(x)$

A menudo, la covarianza tiene la forma , donde es un parámetro de escala. Ejemplos de ello son las funciones de covarianza de la clase Matérn. Si este parámetro de escala es conocido o desconocido (es decir, debe marginarse), entonces la probabilidad posterior, , es decir, la probabilidad de los hiperparámetros dado un conjunto de pares de datos de observaciones de y , admite una expresión analítica. ^[34] ${\textstyle K(\theta ,x,x')={\frac {1}{\sigma ^{2}}}{\tilde {K}}(\theta ,x,x')}$ $\sigma ^{2}$ $\sigma ^{2}$ $p(\theta \mid D)$ $\theta$ $D$ $x$ $f(x)$

Redes neuronales bayesianas como procesos gaussianos

Las redes neuronales bayesianas son un tipo particular de red bayesiana que resulta de tratar los modelos de aprendizaje profundo y de redes neuronales artificiales de manera probabilística, y de asignar una distribución previa a sus parámetros . El cálculo en redes neuronales artificiales generalmente se organiza en capas secuenciales de neuronas artificiales . La cantidad de neuronas en una capa se denomina ancho de capa. A medida que el ancho de capa aumenta, muchas redes neuronales bayesianas se reducen a un proceso gaussiano con un núcleo compositivo de forma cerrada . Este proceso gaussiano se denomina proceso gaussiano de redes neuronales (NNGP). ^[7]^[35]^[36] Permite evaluar de manera más eficiente las predicciones de las redes neuronales bayesianas y proporciona una herramienta analítica para comprender los modelos de aprendizaje profundo .

Problemas computacionales

En aplicaciones prácticas, los modelos de procesos gaussianos suelen evaluarse en una cuadrícula que da lugar a distribuciones normales multivariadas. El uso de estos modelos para la predicción o la estimación de parámetros mediante máxima verosimilitud requiere la evaluación de una densidad gaussiana multivariada, lo que implica calcular el determinante y la inversa de la matriz de covarianza. Ambas operaciones tienen una complejidad computacional cúbica, lo que significa que incluso para cuadrículas de tamaños modestos, ambas operaciones pueden tener un coste computacional prohibitivo. Este inconveniente condujo al desarrollo de métodos de aproximación múltiple .

Véase también

Referencias

^ MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (PDF) . Cambridge University Press . pág. 540. ISBN. 9780521642989La distribución de probabilidad de una función es un proceso gaussiano si para cualquier selección finita de puntos , la densidad es gaussiana . $y(\mathbf {x} )$ $\mathbf {x} ^{(1)},\mathbf {x} ^{(2)},\ldots ,\mathbf {x} ^{(N)}$ $P(y(\mathbf {x} ^{(1)}),y(\mathbf {x} ^{(2)}),\ldots ,y(\mathbf {x} ^{(N)}))$
^ Dudley, RM (1989). Análisis real y probabilidad . Wadsworth y Brooks/Cole. ISBN 0-534-10050-3.
^ de Amos Lapidoth (8 de febrero de 2017). Una base para la comunicación digital. Cambridge University Press. ISBN 978-1-107-17732-1.
^ Kac, M.; Siegert, AJF (1947). "Una representación explícita de un proceso gaussiano estacionario". Anales de estadística matemática . 18 (3): 438–442. doi : 10.1214/aoms/1177730391 .
^ Bishop, CM (2006). Reconocimiento de patrones y aprendizaje automático . Springer . ISBN. 978-0-387-31073-2.
^ abc Barber, David (2012). Razonamiento bayesiano y aprendizaje automático. Cambridge University Press . ISBN 978-0-521-51814-7.
^ abcdef Rasmussen, CE; Williams, CKI (2006). Procesos gaussianos para el aprendizaje automático. MIT Press . ISBN 978-0-262-18253-9.
^ Grimmett, Geoffrey; David Stirzaker (2001). Probabilidad y procesos aleatorios . Oxford University Press . ISBN 978-0198572220.
^ Seeger, Matthias (2004). "Procesos gaussianos para el aprendizaje automático". Revista internacional de sistemas neuronales . 14 (2): 69–104. CiteSeerX 10.1.1.71.1079 . doi :10.1142/s0129065704001899. PMID 15112367. S2CID 52807317.
^ Dudley, RM (1975). "El proceso gaussiano y cómo abordarlo" (PDF) . Actas del Congreso Internacional de Matemáticos . Vol. 2. págs. 143–146.
^ Dudley, RM (2010). "Funciones de muestra del proceso gaussiano". Obras seleccionadas de RM Dudley . Vol. 1. págs. 66–103. doi :10.1007/978-1-4419-5821-1_13. ISBN 978-1-4419-5820-4. {{cite book}}: |journal=ignorado ( ayuda )
^ Talagrand, Michel (2014). Límites superior e inferior de procesos estocásticos: métodos modernos y problemas clásicos. Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Folge / Una serie de estudios modernos en matemáticas. Springer, Heidelberg. ISBN 978-3-642-54074-5.
^ Ledoux, Michel (1996), "Isoperimetría y análisis gaussiano", en Dobrushin, Roland; Groeneboom, Piet; Ledoux, Michel (eds.), Lecciones sobre teoría de probabilidad y estadística: Escuela de verano de probabilidades de Saint-Flour XXIV–1994 , Lecture Notes in Mathematics, vol. 1648, Berlín: Springer, págs. 165–294, doi :10.1007/BFb0095676, ISBN 978-3-540-62055-6, Sr. 1600888
^ Adler, Robert J. (1990). Introducción a la continuidad, los extremos y temas relacionados para los procesos gaussianos generales . Vol. 12. Hayward, California: Instituto de Estadística Matemática. ISBN 0-940600-17-X. JSTOR 4355563. MR 1088478. {{cite book}}: |journal=ignorado ( ayuda )
^ Berman, Simeon M. (1992). "Reseña de: Adler 1990 'Una introducción a la continuidad...'". Reseñas matemáticas . MR 1088478.
^ ab Dudley, RM (1967). "Los tamaños de los subconjuntos compactos del espacio de Hilbert y la continuidad de los procesos gaussianos". Journal of Functional Analysis . 1 (3): 290–330. doi : 10.1016/0022-1236(67)90017-1 .
^ ab Marcus, MB; Shepp, Lawrence A. (1972). "Comportamiento de muestra de procesos gaussianos". Actas del sexto simposio de Berkeley sobre estadística matemática y probabilidad, vol. II: teoría de la probabilidad . Vol. 6. Univ. California, Berkeley. págs. 423–441.
^ ab Marcus, Michael B.; Shepp, Lawrence A. (1970). "Continuidad de los procesos gaussianos". Transacciones de la American Mathematical Society . 151 (2): 377–391. doi : 10.1090/s0002-9947-1970-0264749-1 . JSTOR 1995502.
^ Azmoodeh, Ehsan; Sottinen, Tommi; Viitasaari, Lauri; Yazigi, Adil (2014). "Condiciones necesarias y suficientes para la continuidad de Hölder de los procesos gaussianos". Cartas de estadística y probabilidad . 94 : 230–235. arXiv : 1403.2215 . doi :10.1016/j.spl.2014.07.030.
^ Driscoll, Michael F. (1973). "La estructura espacial de Hilbert del núcleo reproductor de las rutas de muestra de un proceso gaussiano". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 26 (4): 309–316. doi : 10.1007/BF00534894 . ISSN 0044-3719. S2CID 123348980.
^ Jidling, Carl; Wahlström, Niklas; Wills, Adrian; Schön, Thomas B. (19 de septiembre de 2017). "Procesos gaussianos con restricciones lineales". arXiv : 1703.00787 [stat.ML].
^ La documentación de scikit-learn también tiene ejemplos similares.
^ Liu, W.; Principe, JC; Haykin, S. (2010). Filtrado adaptativo de núcleo: una introducción completa. John Wiley . ISBN 978-0-470-44753-6Archivado desde el original el 4 de marzo de 2016. Consultado el 26 de marzo de 2010 .
^ Álvarez, Mauricio A.; Rosasco, Lorenzo; Lawrence, Neil D. (2012). "Núcleos para funciones con valores vectoriales: una revisión" (PDF) . Fundamentos y tendencias en aprendizaje automático . 4 (3): 195–266. doi :10.1561/2200000036. S2CID 456491.
^ Chen, Zexun; Wang, Bo; Gorban, Alexander N. (2019). "Regresión de proceso gaussiano multivariante y t de Student para predicción de múltiples salidas". Computación neuronal y aplicaciones . 32 (8): 3005–3028. arXiv : 1703.04455 . doi : 10.1007/s00521-019-04687-8 .
^ Stein, ML (1999). Interpolación de datos espaciales: algo de teoría para el kriging . Springer .
^ Saves, Paul; Diouane, Youssef; Bartoli, Nathalie; Lefebvre, Thierry; Morlier, Joseph (2023). "Un núcleo de correlación categórico mixto para el proceso gaussiano". Neurocomputing . 550 : 126472. arXiv : 2211.08262 . doi :10.1016/j.neucom.2023.126472.
^ Platanios, Emmanouil A.; Chatzis, Sotirios P. (2014). "Heteroscedasticidad condicional de mezcla de procesos gaussianos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 36 (5): 888–900. doi :10.1109/TPAMI.2013.183. PMID 26353224. S2CID 10424638.
^ Chatzis, Sotirios P. (2013). "Un modelo de proceso gaussiano de variable latente con procesos previos de Pitman-Yor para clasificación multiclase". Neurocomputing . 120 : 482–489. doi :10.1016/j.neucom.2013.04.029.
^ Griffiths, Ryan-Rhys (2022). Aplicaciones de los procesos gaussianos en escalas de longitud extremas: de las moléculas a los agujeros negros (tesis doctoral). Universidad de Cambridge. arXiv : 2303.14291 . doi :10.17863/CAM.93643.
^ Smola, AJ; Schoellkopf, B. (2000). "Aproximación matricial dispersa y voraz para el aprendizaje automático". Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático : 911–918. CiteSeerX 10.1.1.43.3153 .
^ Csato, L.; Opper, M. (2002). "Procesos gaussianos dispersos en línea". Computación neuronal . 14 (3): 641–668. CiteSeerX 10.1.1.335.9713 . doi :10.1162/089976602317250933. PMID 11860686. S2CID 11375333.
^ Lee, Se Yoon; Mallick, Bani (2021). "Modelado jerárquico bayesiano: aplicación a los resultados de producción en Eagle Ford Shale del sur de Texas". Sankhya B . 84 : 1–43. doi : 10.1007/s13571-020-00245-8 .
^ Ranftl, Sascha; Melito, Gian Marco; Badeli, Vahid; Reinbacher-Köstinger, Alice; Ellermann, Katrin; von der Linden, Wolfgang (31 de diciembre de 2019). "Cuantificación de la incertidumbre bayesiana con datos de fidelidad múltiple y procesos gaussianos para cardiografía de impedancia de disección aórtica". Entropy . 22 (1): 58. Bibcode :2019Entrp..22...58R. doi : 10.3390/e22010058 . ISSN 1099-4300. PMC 7516489 . PMID 33285833.
^ Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2020). "Tangentes neuronales: redes neuronales infinitas rápidas y fáciles en Python". Conferencia internacional sobre representaciones de aprendizaje . arXiv : 1912.02803 .
^ Neal, Radford M. (2012). Aprendizaje bayesiano para redes neuronales . Springer Science and Business Media.

Enlaces externos

Wikilibros tiene un libro sobre el tema: Proceso gaussiano

Literatura

El sitio web de Procesos Gaussianos, incluido el texto de Procesos Gaussianos para Aprendizaje Automático de Rasmussen y Williams
Ebden, Mark (2015). "Procesos gaussianos: una breve introducción". arXiv : 1505.02965 [math.ST].
Una revisión de los campos aleatorios gaussianos y las funciones de correlación
Aprendizaje por refuerzo eficiente mediante procesos gaussianos

Software

GPML: una completa caja de herramientas de Matlab para la clasificación y regresión de GP
STK: una pequeña caja de herramientas (Matlab/Octave) para modelado de GP y Kriging
Módulo Kriging en el marco UQLab (Matlab)
CODES Toolbox: implementaciones de Kriging, kriging variacional y modelos multifidelidad (Matlab)
Función Matlab/Octave para campos gaussianos estacionarios
Yelp MOE: un motor de optimización de caja negra que utiliza el aprendizaje de procesos gaussianos
ooDACE Archivado el 9 de agosto de 2020 en Wayback Machine – Una caja de herramientas Matlab de Kriging orientada a objetos y flexible.
GPstuff: caja de herramientas de procesos gaussianos para Matlab y Octave
GPy: un marco de trabajo para procesos gaussianos en Python
GSTools: una caja de herramientas geoestadísticas, que incluye regresión de proceso gaussiano, escrita en Python
Demostración interactiva de regresión del proceso gaussiano
Biblioteca básica de procesos gaussianos escrita en C++11
scikit-learn: una biblioteca de aprendizaje automático para Python que incluye regresión y clasificación de procesos gaussianos
[1] - El kit de herramientas Kriging (KriKit) se desarrolla en el Instituto de Bio y Geociencias 1 (IBG-1) del Forschungszentrum Jülich (FZJ)

Tutoriales en vídeo

Fundamentos del proceso gaussiano por David MacKay
Aprendizaje con procesos gaussianos por Carl Edward Rasmussen
Inferencia bayesiana y procesos gaussianos por Carl Edward Rasmussen