En teoría de la probabilidad y estadística , un proceso gaussiano es un proceso estocástico (una colección de variables aleatorias indexadas por el tiempo o el espacio), de modo que cada colección finita de esas variables aleatorias tiene una distribución normal multivariada . La distribución de un proceso gaussiano es la distribución conjunta de todas aquellas (infinitas) variables aleatorias y, como tal, es una distribución sobre funciones con un dominio continuo, por ejemplo, el tiempo o el espacio.
El concepto de procesos gaussianos lleva el nombre de Carl Friedrich Gauss porque se basa en la noción de distribución gaussiana ( distribución normal ). Los procesos gaussianos pueden verse como una generalización de dimensión infinita de distribuciones normales multivariadas.
Los procesos gaussianos son útiles en el modelado estadístico , beneficiándose de propiedades heredadas de la distribución normal. Por ejemplo, si un proceso aleatorio se modela como un proceso gaussiano, las distribuciones de varias cantidades derivadas se pueden obtener explícitamente. Dichas cantidades incluyen el valor promedio del proceso en un rango de tiempos y el error al estimar el promedio usando valores de muestra en un pequeño conjunto de tiempos. Si bien los modelos exactos a menudo escalan mal a medida que aumenta la cantidad de datos, se han desarrollado múltiples métodos de aproximación que a menudo conservan una buena precisión y al mismo tiempo reducen drásticamente el tiempo de cálculo.
es una variable aleatoria gaussiana multivariada . [1] Eso es lo mismo que decir que toda combinación lineal de tiene una distribución normal univariada (o gaussiana).
Usando funciones características de variables aleatorias que denotan la unidad imaginaria tal que , la propiedad gaussiana se puede formular de la siguiente manera: es gaussiana si y solo si, para cada conjunto finito de índices , hay valores reales , de modo que se cumple la siguiente igualdad para todos ,
o . Se puede demostrar que los números y son las covarianzas y medias de las variables en el proceso. [2]
Diferencia
La varianza de un proceso gaussiano es finita en cualquier momento , formalmente [3] : p. 515
Estacionariedad
Para procesos estocásticos generales, la estacionariedad en sentido estricto implica estacionariedad en sentido amplio, pero no todos los procesos estocásticos estacionarios en sentido amplio son estacionarios en sentido estricto. Sin embargo, para un proceso estocástico gaussiano los dos conceptos son equivalentes. [3] : pág. 518
Un proceso estocástico gaussiano es estacionario en sentido estricto si y sólo si es estacionario en sentido amplio.
Ejemplo
Existe una representación explícita para procesos gaussianos estacionarios. [4] Un ejemplo simple de esta representación es
Un hecho clave de los procesos gaussianos es que pueden definirse completamente mediante sus estadísticas de segundo orden. [5] Por lo tanto, si se supone que un proceso gaussiano tiene media cero, definir la función de covarianza define completamente el comportamiento del proceso. Es importante destacar que la precisión no negativa de esta función permite su descomposición espectral utilizando la expansión de Karhunen-Loève . Los aspectos básicos que se pueden definir a través de la función de covarianza son la estacionariedad , isotropía , suavidad y periodicidad del proceso . [6] [7]
La estacionariedad se refiere al comportamiento del proceso con respecto a la separación de dos puntos cualesquiera y . Si el proceso es estacionario, la función de covarianza depende sólo de . Por ejemplo, el proceso Ornstein-Uhlenbeck es estacionario.
Si el proceso depende sólo de , la distancia euclidiana (no de la dirección) entre y , entonces el proceso se considera isotrópico. Un proceso que es al mismo tiempo estacionario e isotrópico se considera homogéneo ; [8] en la práctica estas propiedades reflejan las diferencias (o más bien la falta de ellas) en el comportamiento del proceso dada la ubicación del observador.
En última instancia, los procesos gaussianos se traducen en tomar prioridades en funciones y la función de covarianza puede inducir la suavidad de estas prioridades. [6] Si esperamos que para los puntos de entrada "cercanos" y sus correspondientes puntos de salida también estén "cercanos", entonces el supuesto de continuidad está presente. Si deseamos permitir un desplazamiento significativo, entonces podríamos elegir una función de covarianza más aproximada. Ejemplos extremos de este comportamiento son la función de covarianza de Ornstein-Uhlenbeck y la exponencial al cuadrado donde la primera nunca es diferenciable y la segunda infinitamente diferenciable.
La periodicidad se refiere a inducir patrones periódicos dentro del comportamiento del proceso. Formalmente, esto se logra mapeando la entrada a un vector bidimensional .
Funciones de covarianza habituales
Hay una serie de funciones de covarianza comunes: [7]
Constante :
Lineal:
ruido blanco gaussiano:
Exponencial al cuadrado:
Ornstein-Uhlenbeck:
Madre:
Periódico:
Cuadrática racional:
Aquí . El parámetro es la longitud característica del proceso (prácticamente, "qué tan cerca" deben estar dos puntos para influir significativamente entre sí), el delta de Kronecker y la desviación estándar de las fluctuaciones del ruido. Además, es la función de orden de Bessel modificada y la función gamma se evalúa en . Es importante destacar que una función de covarianza complicada se puede definir como una combinación lineal de otras funciones de covarianza más simples para incorporar diferentes conocimientos sobre el conjunto de datos en cuestión.
Los resultados inferenciales dependen de los valores de los hiperparámetros (p. ej. y ) que definen el comportamiento del modelo. Una opción popular es proporcionar estimaciones máximas a posteriori (MAP) con alguna elección previa. Si el prior es casi uniforme, esto es lo mismo que maximizar la probabilidad marginal del proceso; la marginación se hace sobre los valores del proceso observados . [7] Este enfoque también se conoce como máxima verosimilitud II , maximización de evidencia o Bayes empírico . [9]
Continuidad
Para un proceso gaussiano, la continuidad en probabilidad es equivalente a la continuidad cuadrática media , [10] : 145
y la continuidad con probabilidad uno es equivalente a la continuidad muestral . [11] : 91 "Los procesos gaussianos son discontinuos en puntos fijos".
Esto último implica, pero no está implícito, continuidad en la probabilidad. La continuidad en la probabilidad se cumple si y sólo si la media y la autocovarianza son funciones continuas. Por el contrario, la continuidad de la muestra fue un desafío incluso para los procesos gaussianos estacionarios (como probablemente señaló primero Andrey Kolmogorov ), y más desafiante para procesos más generales. [12] : Sección. 2.8 [13] : 69, 81 [14] : 80 [15]
Como es habitual, por proceso continuo de muestra se entiende un proceso que admite una modificación continua de muestra . [16] : 292 [17] : 424
Caso estacionario
Para un proceso gaussiano estacionario, algunas condiciones en su espectro son suficientes para la continuidad de la muestra, pero no son necesarias. Una condición necesaria y suficiente, a veces llamada teorema de Dudley-Fernique, implica la función definida por
(el lado derecho no depende de debido a la estacionariedad). La continuidad de in probabilidad es equivalente a la continuidad de at Cuando la convergencia de to (as ) es demasiado lenta, la continuidad de la muestra de puede fallar. La convergencia de las siguientes integrales es importante:
estas dos integrales son iguales según la integración por sustitución. El primer integrando no necesita estar acotado, por lo que la integral puede converger ( ) o divergir ( ). Tomando por ejemplo grande , es decir, pequeño se obtiene cuando y cuando.
En estos dos casos la función aumenta pero generalmente no lo es. Es más, la condición
(*) existealgo quees monótono en
no se sigue de la continuidad de y de las relaciones evidentes (para todos ) y
Teorema 1 : Sea continuo y satisfaga (*). Entonces la condición es necesaria y suficiente para la continuidad de la muestra de
Algo de historia. [17] : 424
La suficiencia fue anunciada por Xavier Fernique en 1964, pero la primera prueba fue publicada por Richard M. Dudley en 1967. [16] : Teorema 7.1
La necesidad fue demostrada por Michael B. Marcus y Lawrence Shepp en 1970. [18 ] : 380
Existen ejemplos de procesos continuos que violan la condición (*). Un ejemplo encontrado por Marcus y Shepp [18] : 387 es una serie lagunar aleatoria de Fourier
donde hay variables aleatorias independientes con distribución normal estándar ; las frecuencias son una secuencia de rápido crecimiento; y los coeficientes satisfacen La última relación implica
de donde casi con seguridad, lo que asegura la convergencia uniforme de la serie de Fourier casi con seguridad, y la continuidad de la muestra de
Su función de autocovariación
no es monótona (ver imagen), así como la función correspondiente
El movimiento browniano como integral de los procesos gaussianos
El puente browniano es (al igual que el proceso de Ornstein-Uhlenbeck) un ejemplo de proceso gaussiano cuyos incrementos no son independientes .
El movimiento browniano fraccionario es un proceso gaussiano cuya función de covarianza es una generalización de la del proceso de Wiener.
La ley cero uno de Driscoll
La ley cero uno de Driscoll es un resultado que caracteriza las funciones de muestra generadas por un proceso gaussiano.
Sea un proceso gaussiano de media cero con función de covarianza definida no negativa . Sea un espacio de Hilbert con núcleo reproductivo con núcleo definido positivo .
Entonces
donde y son las matrices de covarianza de todos los posibles pares de puntos, implica
Además,
implica [19]
Esto tiene implicaciones significativas cuando , como
Como tal, casi todas las rutas de muestra de un proceso gaussiano de media cero con núcleo definido positivo se ubicarán fuera del espacio de Hilbert .
Procesos gaussianos linealmente restringidos
Para muchas aplicaciones de interés ya se proporciona algún conocimiento preexistente sobre el sistema en cuestión. Consideremos, por ejemplo, el caso en el que la salida del proceso gaussiano corresponde a un campo magnético; aquí, el campo magnético real está limitado por las ecuaciones de Maxwell y sería deseable una forma de incorporar esta restricción al formalismo del proceso gaussiano, ya que esto probablemente mejoraría la precisión del algoritmo.
Ya existe un método sobre cómo incorporar restricciones lineales en los procesos gaussianos: [20]
Considere la función de salida (con valor vectorial) que se sabe que obedece a la restricción lineal (es decir, es un operador lineal).
Entonces la restricción se puede cumplir eligiendo , donde se modela como un proceso gaussiano, y encontrando tal que
Dado y usando el hecho de que Los procesos gaussianos se cierran bajo transformaciones lineales, el proceso gaussiano para obedecer la restricción se convierte en
Por lo tanto, las restricciones lineales se pueden codificar en la función media y covarianza de un proceso gaussiano.
Aplicaciones
Se puede utilizar un proceso gaussiano como distribución de probabilidad previa sobre funciones en la inferencia bayesiana . [7] [22] Dado cualquier conjunto de N puntos en el dominio deseado de sus funciones, tome una gaussiana multivariada cuyo parámetro de matriz de covarianza sea la matriz de Gram de sus N puntos con algún núcleo deseado y tome una muestra de esa gaussiana. Para la solución del problema de predicción de múltiples salidas, se desarrolló el proceso de regresión gaussiano para funciones con valores vectoriales. En este método, se construye una covarianza "grande", que describe las correlaciones entre todas las variables de entrada y salida tomadas en N puntos en el dominio deseado. [23] Este enfoque se elaboró en detalle para los procesos gaussianos con valores matriciales y se generalizó a procesos con "colas más pesadas" como los procesos t de Student . [24]
La inferencia de valores continuos con un proceso gaussiano previo se conoce como regresión del proceso gaussiano o kriging ; extender la regresión del proceso gaussiano a múltiples variables objetivo se conoce como cokriging . [25] Los procesos gaussianos son, por tanto, útiles como una poderosa herramienta de interpolación multivariada no lineal .
Los procesos gaussianos también se utilizan habitualmente para abordar problemas de análisis numérico como la integración numérica, la resolución de ecuaciones diferenciales o la optimización en el campo de la numérica probabilística .
Los procesos gaussianos también se pueden utilizar, por ejemplo, en el contexto de modelos mixtos de expertos. [26] [27] La lógica subyacente de tal marco de aprendizaje consiste en la suposición de que un mapeo dado no puede ser bien capturado por un único modelo de proceso gaussiano. En cambio, el espacio de observación se divide en subconjuntos, cada uno de los cuales se caracteriza por una función cartográfica diferente; cada uno de estos se aprende a través de un componente del proceso gaussiano diferente en la mezcla postulada.
En las ciencias naturales, los procesos gaussianos se han utilizado como modelos probabilísticos de series temporales astronómicas y como predictores de propiedades moleculares. [28]
Predicción del proceso gaussiano o Kriging
Cuando se trata de un problema general de regresión del proceso gaussiano (Kriging), se supone que para un proceso gaussiano observado en las coordenadas , el vector de valores es solo una muestra de una distribución gaussiana multivariada de dimensión igual al número de coordenadas observadas . Por lo tanto, bajo el supuesto de una distribución de media cero, , donde es la matriz de covarianza entre todos los pares posibles para un conjunto dado de hiperparámetros θ . [7]
Como tal, la probabilidad logarítmica marginal es:
y maximizar esta probabilidad marginal hacia θ proporciona la especificación completa del proceso gaussiano f . Se puede señalar brevemente en este punto que el primer término corresponde a un término de penalización por el hecho de que un modelo no se ajuste a los valores observados y el segundo término a un término de penalización que aumenta proporcionalmente a la complejidad del modelo. Habiendo especificado θ , hacer predicciones sobre valores no observados en las coordenadas x * es entonces solo una cuestión de extraer muestras de la distribución predictiva donde la estimación media posterior A se define como
y la estimación de la varianza posterior B se define como:
donde es la covarianza entre la nueva coordenada de estimación x * y todas las demás coordenadas observadas x para un vector de hiperparámetro dado θ , y se definen como antes y es la varianza en el punto x * dictada por θ . Es importante señalar que prácticamente la estimación media posterior de (la "estimación puntual") es solo una combinación lineal de las observaciones ; de manera similar, la varianza de es en realidad independiente de las observaciones . Un cuello de botella conocido en la predicción del proceso gaussiano es que la complejidad computacional de la inferencia y la evaluación de la probabilidad es cúbica en el número de puntos. x |, y como tal puede volverse inviable para conjuntos de datos más grandes. [6] Los trabajos sobre procesos gaussianos dispersos, que generalmente se basan en la idea de construir un conjunto representativo para el proceso dado f , intentan evitar este problema. [29] [30] El método kriging se puede utilizar en el nivel latente de un modelo no lineal de efectos mixtos para una predicción funcional espacial: esta técnica se llama kriging latente. [31]
A menudo, la covarianza tiene la forma , donde es un parámetro de escala. Algunos ejemplos son las funciones de covarianza de la clase Matérn. Si este parámetro de escala es conocido o desconocido (es decir, debe marginarse), entonces la probabilidad posterior, es decir, la probabilidad de los hiperparámetros dado un conjunto de pares de datos de observaciones de y , admite una expresión analítica. [32]
Redes neuronales bayesianas como procesos gaussianos
Las redes neuronales bayesianas son un tipo particular de red bayesiana que resulta de tratar probabilísticamente los modelos de redes neuronales artificiales y de aprendizaje profundo , y asignar una distribución previa a sus parámetros . La computación en redes neuronales artificiales suele estar organizada en capas secuenciales de neuronas artificiales . El número de neuronas en una capa se llama ancho de capa. A medida que el ancho de la capa aumenta, muchas redes neuronales bayesianas se reducen a un proceso gaussiano con un núcleo compositivo de forma cerrada . Este proceso gaussiano se denomina proceso gaussiano de red neuronal (NNGP). [7] [33] [34] Permite que las predicciones de las redes neuronales bayesianas se evalúen de manera más eficiente y proporciona una herramienta analítica para comprender los modelos de aprendizaje profundo .
Problemas computacionales
En aplicaciones prácticas, los modelos de procesos gaussianos a menudo se evalúan en una cuadrícula que conduce a distribuciones normales multivariadas. El uso de estos modelos para predicción o estimación de parámetros usando máxima verosimilitud requiere evaluar una densidad gaussiana multivariada, lo que implica calcular el determinante y la inversa de la matriz de covarianza. Ambas operaciones tienen una complejidad computacional cúbica, lo que significa que incluso para redes de tamaños modestos, ambas operaciones pueden tener un costo computacional prohibitivo. Este inconveniente llevó al desarrollo de múltiples métodos de aproximación .
^ MacKay, David, JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (PDF) . Prensa de la Universidad de Cambridge . pag. 540.ISBN 9780521642989. La distribución de probabilidad de una función es un proceso gaussiano si para cualquier selección finita de puntos , la densidad es gaussiana{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Dudley, RM (1989). Análisis Real y Probabilidad . Wadsworth y Brooks/Cole. ISBN0-534-10050-3.
^ ab Amos Lapidoth (8 de febrero de 2017). Una Fundación en Comunicación Digital. Prensa de la Universidad de Cambridge. ISBN978-1-107-17732-1.
^ Kac, M.; Siegert, AJF (1947). "Una representación explícita de un proceso gaussiano estacionario". Los anales de la estadística matemática . 18 (3): 438–442. doi : 10.1214/aoms/1177730391 .
^ Obispo, CM (2006). Reconocimiento de patrones y aprendizaje automático . Saltador . ISBN978-0-387-31073-2.
^ Seeger, Matías (2004). "Procesos gaussianos para el aprendizaje automático". Revista internacional de sistemas neuronales . 14 (2): 69-104. CiteSeerX 10.1.1.71.1079 . doi :10.1142/s0129065704001899. PMID 15112367. S2CID 52807317.
^ Dudley, RM (1975). «El proceso gaussiano y cómo abordarlo» (PDF) . Actas del Congreso Internacional de Matemáticos . vol. 2. págs. 143-146.
^ Dudley, RM (2010). "Funciones de muestra del proceso gaussiano". Obras seleccionadas de RM Dudley . vol. 1. págs. 66-103. doi :10.1007/978-1-4419-5821-1_13. ISBN978-1-4419-5820-4. {{cite book}}: |journal=ignorado ( ayuda )
^ Talagrand, Michel (2014). Límites superior e inferior de procesos estocásticos: métodos modernos y problemas clásicos. Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Folge / Una serie de estudios modernos en matemáticas. Springer, Heidelberg. ISBN978-3-642-54074-5.
^ Ledoux, Michel (1996), "Isoperimetría y análisis gaussiano", en Dobrushin, Roland; Groeneboom, Piet; Ledoux, Michel (eds.), Conferencias sobre teoría de la probabilidad y estadística: Ecole d'Eté de Probabilités de Saint-Flour XXIV–1994 , Lecture Notes in Mathematics, vol. 1648, Berlín: Springer, págs. 165–294, doi :10.1007/BFb0095676, ISBN978-3-540-62055-6, señor 1600888
^ Adler, Robert J. (1990). Introducción a la continuidad, los extremos y temas relacionados para los procesos gaussianos generales . vol. 12. Hayward, California: Instituto de Estadística Matemática. ISBN0-940600-17-X. JSTOR 4355563. SEÑOR 1088478. {{cite book}}: |journal=ignorado ( ayuda )
^ Berman, Simeón M. (1992). "Reseña de: Adler 1990 'Una introducción a la continuidad...'". Revisiones Matemáticas . SEÑOR 1088478.
^ ab Dudley, RM (1967). "Los tamaños de subconjuntos compactos del espacio de Hilbert y la continuidad de los procesos gaussianos". Revista de análisis funcional . 1 (3): 290–330. doi : 10.1016/0022-1236(67)90017-1 .
^ ab Marcus, MB; Shepp, Lawrence A. (1972). "Muestra de comportamiento de procesos gaussianos". Actas del sexto simposio de Berkeley sobre probabilidad y estadística matemática, vol. II: teoría de la probabilidad . vol. 6. Universidad. California, Berkeley. págs. 423–441.
^ Driscoll, Michael F. (1973). "La estructura espacial de Hilbert del núcleo reproductor de las rutas de muestra de un proceso gaussiano". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 26 (4): 309–316. doi : 10.1007/BF00534894 . ISSN 0044-3719. S2CID 123348980.
^ Jugando, Carl; Wahlström, Niklas; Testamentos, Adrián; Schön, Thomas B. (19 de septiembre de 2017). "Procesos gaussianos linealmente restringidos". arXiv : 1703.00787 [estad.ML].
^ La documentación de scikit-learn también tiene ejemplos similares.
^ Liu, W.; Príncipe, JC; Haykin, S. (2010). Filtrado adaptativo del kernel: una introducción completa. Juan Wiley . ISBN978-0-470-44753-6. Archivado desde el original el 4 de marzo de 2016 . Consultado el 26 de marzo de 2010 .
^ Álvarez, Mauricio A.; Rosasco, Lorenzo; Lawrence, Neil D. (2012). "Núcleos para funciones con valores vectoriales: una revisión" (PDF) . Fundamentos y tendencias en aprendizaje automático . 4 (3): 195–266. doi :10.1561/2200000036. S2CID 456491.
^ Chen, Zexun; Wang, Bo; Gorban, Alexander N. (2019). "Regresión de procesos multivariados gaussianos y t de Student para predicción de múltiples salidas". Computación neuronal y aplicaciones . 32 (8): 3005–3028. arXiv : 1703.04455 . doi : 10.1007/s00521-019-04687-8 .
^ Stein, ML (1999). Interpolación de datos espaciales: alguna teoría para Kriging . Saltador .
^ Platanios, Emmanouil A.; Chatzis, Sotirios P. (2014). "Heterocedasticidad condicional de mezcla de proceso gaussiano". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 36 (5): 888–900. doi :10.1109/TPAMI.2013.183. PMID 26353224. S2CID 10424638.
^ Chatzis, Sotirios P. (2013). "Un modelo de proceso gaussiano de variable latente con procesos previos de Pitman-Yor para clasificación multiclase". Neurocomputación . 120 : 482–489. doi :10.1016/j.neucom.2013.04.029.
^ Griffiths, Ryan-Rhys (2022). Aplicaciones de procesos gaussianos a escalas de longitud extremas: de moléculas a agujeros negros (tesis doctoral). Universidad de Cambridge. arXiv : 2303.14291 . doi :10.17863/CAM.93643.
^ Smola, AJ; Schoellkopf, B. (2000). "Aproximación de matriz escasa y codiciosa para el aprendizaje automático". Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático : 911–918. CiteSeerX 10.1.1.43.3153 .
^ Csato, L.; Opper, M. (2002). "Escasos procesos gaussianos en línea". Computación neuronal . 14 (3): 641–668. CiteSeerX 10.1.1.335.9713 . doi :10.1162/089976602317250933. PMID 11860686. S2CID 11375333.
^ Lee, Se Yoon; Mallick, Bani (2021). "Modelado jerárquico bayesiano: aplicación a resultados de producción en Eagle Ford Shale del sur de Texas". Sankhya B. 84 : 1–43. doi : 10.1007/s13571-020-00245-8 .
^ Ranftl, Sascha; Melito, Gian Marco; Badeli, Vahid; Reinbacher-Köstinger, Alice; Ellermann, Katrin; von der Linden, Wolfgang (31 de diciembre de 2019). "Cuantificación de la incertidumbre bayesiana con datos de fidelidad múltiple y procesos gaussianos para la cardiografía de impedancia de la disección aórtica". Entropía . 22 (1): 58. Bibcode : 2019Entrp..22...58R. doi : 10.3390/e22010058 . ISSN 1099-4300. PMC 7516489 . PMID 33285833.
^ Novak, romano; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alejandro A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2020). "Tangentes neuronales: redes neuronales infinitas rápidas y sencillas en Python". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1912.02803 .
^ Neal, Radford M. (2012). Aprendizaje bayesiano para redes neuronales . Medios científicos y empresariales de Springer.
enlaces externos
Wikilibros tiene un libro sobre el tema: Proceso gaussiano
Literatura
El sitio web de Procesos Gaussianos, que incluye el texto de Procesos Gaussianos para el Aprendizaje Automático de Rasmussen y Williams