stringtranslate.com

Aproximaciones del proceso gaussiano

En estadística y aprendizaje automático, la aproximación del proceso gaussiano es un método computacional que acelera las tareas de inferencia en el contexto de un modelo de proceso gaussiano , más comúnmente evaluación y predicción de probabilidad . Al igual que las aproximaciones de otros modelos, a menudo pueden expresarse como supuestos adicionales impuestos al modelo, que no corresponden a ninguna característica real, pero que conservan sus propiedades clave al tiempo que simplifican los cálculos. Muchos de estos métodos de aproximación se pueden expresar en términos algebraicos puramente lineales o analíticos funcionales como aproximaciones matriciales o de funciones. Otros son puramente algorítmicos y no pueden reformularse fácilmente como una modificación de un modelo estadístico.

Ideas básicas

En el modelado estadístico , a menudo es conveniente suponer que el fenómeno bajo investigación es un proceso gaussiano indexado por el cual tiene función media y función de covarianza . También se puede suponer que los datos son valores de una realización particular de este proceso para índices .

En consecuencia, la distribución conjunta de los datos se puede expresar como

,

donde y , es decir, respectivamente, una matriz con los valores de la función de covarianza y un vector con los valores medios de la función en (pares de) índices correspondientes. La probabilidad logarítmica negativa de los datos toma entonces la forma

De manera similar, el mejor predictor de los valores de los índices dados los datos tiene la forma

En el contexto de los modelos gaussianos, especialmente en geoestadística , la predicción utilizando el mejor predictor, es decir, la media condicionada a los datos, también se conoce como kriging .

El componente computacionalmente más costoso de la fórmula del mejor predictor es invertir la matriz de covarianza , que tiene complejidad cúbica . De manera similar, evaluar la probabilidad implica tanto calcular como el determinante que tiene la misma complejidad cúbica.

Las aproximaciones del proceso gaussiano a menudo se pueden expresar en términos de suposiciones sobre las cuales se pueden calcular con mucha menor complejidad. Dado que generalmente no se cree que estos supuestos reflejen la realidad, la probabilidad y el mejor predictor obtenidos de esta manera no son exactos, pero deben estar cerca de sus valores originales.

Métodos basados ​​en modelos

Esta clase de aproximaciones se expresa a través de un conjunto de supuestos que se imponen al proceso original y que, típicamente, implican alguna estructura especial de la matriz de covarianza. Aunque la mayoría de estos métodos se desarrollaron de forma independiente, la mayoría de ellos pueden expresarse como casos especiales de la escasa aproximación general de Vecchia .

Métodos de covarianza dispersa

Estos métodos se aproximan al modelo verdadero de manera que la matriz de covarianza es escasa. Normalmente, cada método propone su propio algoritmo que aprovecha al máximo el patrón de escasez en la matriz de covarianza. Dos miembros destacados de esta clase de enfoques son la reducción gradual de la covarianza y la partición de dominios. El primer método generalmente requiere una métrica y asume que solo tenemos if para algún radio . El segundo método supone que existen tales que . Luego, con una distribución adecuada de índices entre los elementos de partición y el orden de los elementos de la matriz de covarianza, se obtiene una diagonal de bloques.

Métodos de escasa precisión

Esta familia de métodos supone que la matriz de precisión es escasa y generalmente especifica cuáles de sus elementos son distintos de cero. Esto conduce a una inversión rápida porque solo es necesario calcular esos elementos. Algunas de las aproximaciones destacadas en esta categoría incluyen el enfoque basado en la equivalencia entre procesos gaussianos con la función de covarianza de Matern y PDE estocásticas, incrustaciones periódicas y procesos gaussianos del vecino más cercano. El primer método se aplica al caso de y cuando tiene una métrica definida y aprovecha el hecho de que la propiedad de Markov se cumple, lo que la hace muy escasa. El segundo extiende el dominio y utiliza la Transformada Discreta de Fourier para descorrelacionar los datos, lo que da como resultado una matriz de precisión diagonal. El tercero requiere una métrica y aprovecha el llamado efecto de detección suponiendo que solo si , para algunos .

Métodos dispersos del factor Cholesky

En muchas aplicaciones prácticas, el cálculo se reemplaza con el cálculo primero del factor de Cholesky y segundo de su inverso . Se sabe que esto es más estable que una simple inversión. Por este motivo, algunos autores se centran en construir una aproximación dispersa del factor de Cholesky de las matrices de precisión o covarianza. Uno de los métodos más establecidos en esta clase es la aproximación de Vecchia y su generalización. Estos enfoques determinan el orden óptimo de los índices y, en consecuencia, los elementos y luego asumen una estructura de dependencia que minimiza el relleno en el factor de Cholesky. En este marco se pueden expresar varios otros métodos, la aproximación de resolución múltiple (MRA), el proceso gaussiano del vecino más cercano, el proceso predictivo modificado y la aproximación a escala completa.

Métodos de bajo rango

Si bien este enfoque abarca muchos métodos, el supuesto común subyacente a todos ellos es el de que , el proceso de interés gaussiano, es efectivamente de rango bajo. Más precisamente, se supone que existe un conjunto de índices tal que cualquier otro conjunto de índices

donde es una matriz y y es una matriz diagonal. Dependiendo del método y de la aplicación, se han propuesto varias formas de selección. Normalmente, se selecciona para que sea mucho menor que, lo que significa que el costo computacional de la inversión es manejable ( en lugar de ).

De manera más general, además de seleccionar , también se puede encontrar una matriz y suponer que , donde los valores de un proceso gaussiano posiblemente sean independientes de . Muchos métodos de aprendizaje automático entran en esta categoría, como el subconjunto de regresores (SoR), la máquina de vectores de relevancia , el proceso gaussiano de espectro disperso y otros, y generalmente difieren en la forma en que derivan y .

Métodos jerárquicos

El principio general de las aproximaciones jerárquicas consiste en la aplicación repetida de algún otro método, de modo que cada aplicación consecutiva refina la calidad de la aproximación. Aunque pueden expresarse como un conjunto de supuestos estadísticos, a menudo se describen en términos de una aproximación matricial jerárquica (HODLR) o una expansión de función básica (LatticeKrig, MRA, wavelets). El enfoque matricial jerárquico a menudo se puede representar como una aplicación repetida de una aproximación de rango bajo a subconjuntos sucesivamente más pequeños del conjunto de índices . La expansión de funciones básicas se basa en el uso de funciones con soporte compacto. Estas características pueden luego ser explotadas por un algoritmo que recorre capas consecutivas de la aproximación. En los entornos más favorables, algunos de estos métodos pueden alcanzar una complejidad casi lineal ( ).

Marco unificado

Los modelos gráficos probabilísticos proporcionan un marco conveniente para comparar aproximaciones basadas en modelos. En este contexto, el valor del proceso en el índice se puede representar mediante un vértice en un gráfico dirigido y las aristas corresponden a los términos en la factorización de la densidad conjunta de . En general, cuando no se suponen relaciones independientes, la distribución de probabilidad conjunta se puede representar mediante un gráfico acíclico dirigido arbitrario. El uso de una aproximación particular se puede expresar como una determinada forma de ordenar los vértices y agregar o eliminar aristas específicas.

Métodos sin modelo estadístico.

Esta clase de métodos no especifica un modelo estadístico ni impone suposiciones sobre uno existente. Tres miembros principales de este grupo son el algoritmo meta-kriging, el algoritmo de relleno de huecos y el enfoque del proceso gaussiano aproximado local. El primero divide el conjunto de índices en componentes , calcula la distribución condicional para cada uno de esos componentes por separado y luego usa la mediana geométrica de los PDF condicionales para combinarlos. El segundo se basa en una regresión cuantil que utiliza valores del proceso cercanos al valor que se intenta predecir, donde la distancia se mide en términos de una métrica del conjunto de índices. El proceso gaussiano aproximado local utiliza una lógica similar pero construye un proceso estocástico válido basado en estos valores vecinos.

Referencias