stringtranslate.com

proceso gaussiano

En teoría de la probabilidad y estadística , un proceso gaussiano es un proceso estocástico (una colección de variables aleatorias indexadas por el tiempo o el espacio), de modo que cada colección finita de esas variables aleatorias tiene una distribución normal multivariada . La distribución de un proceso gaussiano es la distribución conjunta de todas aquellas (infinitas) variables aleatorias y, como tal, es una distribución sobre funciones con un dominio continuo, por ejemplo, el tiempo o el espacio.

El concepto de procesos gaussianos lleva el nombre de Carl Friedrich Gauss porque se basa en la noción de distribución gaussiana ( distribución normal ). Los procesos gaussianos pueden verse como una generalización de dimensión infinita de distribuciones normales multivariadas.

Los procesos gaussianos son útiles en el modelado estadístico , beneficiándose de propiedades heredadas de la distribución normal. Por ejemplo, si un proceso aleatorio se modela como un proceso gaussiano, las distribuciones de varias cantidades derivadas se pueden obtener explícitamente. Dichas cantidades incluyen el valor promedio del proceso en un rango de tiempos y el error al estimar el promedio usando valores de muestra en un pequeño conjunto de tiempos. Si bien los modelos exactos a menudo escalan mal a medida que aumenta la cantidad de datos, se han desarrollado múltiples métodos de aproximación que a menudo conservan una buena precisión y reducen drásticamente el tiempo de cálculo.

Definición

Un proceso estocástico continuo en el tiempo es gaussiano si y sólo si para cada conjunto finito de índices en el conjunto de índices

es una variable aleatoria gaussiana multivariada . [1] Eso es lo mismo que decir que toda combinación lineal de tiene una distribución normal univariada (o gaussiana).

Utilizando funciones características de variables aleatorias que denotan la unidad imaginaria tal que , la propiedad gaussiana se puede formular de la siguiente manera: es gaussiana si y sólo si, para cada conjunto finito de índices , hay valores reales , de modo que se cumple la siguiente igualdad para todos ,

o . Se puede demostrar que los números y son las covarianzas y medias de las variables en el proceso. [2]

Diferencia

La varianza de un proceso gaussiano es finita en cualquier momento , formalmente [3] : p. 515 

Estacionariedad

Para procesos estocásticos generales, la estacionariedad en sentido estricto implica estacionariedad en sentido amplio , pero no todos los procesos estocásticos estacionarios en sentido amplio son estacionarios en sentido estricto. Sin embargo, para un proceso estocástico gaussiano los dos conceptos son equivalentes. [3] : pág. 518 

Un proceso estocástico gaussiano es estacionario en sentido estricto si y sólo si es estacionario en sentido amplio.

Ejemplo

Existe una representación explícita para procesos gaussianos estacionarios. [4] Un ejemplo simple de esta representación es

donde y son variables aleatorias independientes con distribución normal estándar .

Funciones de covarianza

Un hecho clave de los procesos gaussianos es que pueden definirse completamente mediante sus estadísticas de segundo orden. [5] Por lo tanto, si se supone que un proceso gaussiano tiene media cero, definir la función de covarianza define completamente el comportamiento del proceso. Es importante destacar que la precisión no negativa de esta función permite su descomposición espectral utilizando la expansión de Karhunen-Loève . Los aspectos básicos que se pueden definir a través de la función de covarianza son la estacionariedad , isotropía , suavidad y periodicidad del proceso . [6] [7]

La estacionariedad se refiere al comportamiento del proceso con respecto a la separación de dos puntos cualesquiera y . Si el proceso es estacionario, la función de covarianza depende sólo de . Por ejemplo, el proceso Ornstein-Uhlenbeck es estacionario.

Si el proceso depende sólo de , la distancia euclidiana (no la dirección) entre y , entonces el proceso se considera isotrópico. Se considera homogéneo un proceso que es a la vez estacionario e isotrópico ; [8] en la práctica estas propiedades reflejan las diferencias (o más bien la falta de ellas) en el comportamiento del proceso dada la ubicación del observador.

En última instancia, los procesos gaussianos se traducen en tomar prioridades en funciones y la función de covarianza puede inducir la suavidad de estas prioridades. [6] Si esperamos que para los puntos de entrada "cercanos" y sus correspondientes puntos de salida también estén "cercanos", entonces el supuesto de continuidad está presente. Si deseamos permitir un desplazamiento significativo, entonces podríamos elegir una función de covarianza más aproximada. Ejemplos extremos de este comportamiento son la función de covarianza de Ornstein-Uhlenbeck y la exponencial al cuadrado donde la primera nunca es diferenciable y la segunda infinitamente diferenciable.

La periodicidad se refiere a inducir patrones periódicos dentro del comportamiento del proceso. Formalmente, esto se logra mapeando la entrada a un vector bidimensional .

Funciones de covarianza habituales

El efecto de elegir diferentes núcleos sobre la distribución de funciones previas del proceso gaussiano. La izquierda es un núcleo exponencial al cuadrado. El medio es browniano. La derecha es cuadrática.

Hay una serie de funciones de covarianza comunes: [7]

Aquí . El parámetro es la longitud característica del proceso (prácticamente, "qué tan cerca" deben estar dos puntos para que influyan significativamente entre sí), el delta de Kronecker y la desviación estándar de las fluctuaciones del ruido. Además, es la función de orden de Bessel modificada y la función gamma se evalúa en . Es importante destacar que una función de covarianza complicada se puede definir como una combinación lineal de otras funciones de covarianza más simples para incorporar diferentes conocimientos sobre el conjunto de datos en cuestión.

Los resultados inferenciales dependen de los valores de los hiperparámetros (p. ej. y ) que definen el comportamiento del modelo. Una opción popular es proporcionar estimaciones máximas a posteriori (MAP) con alguna elección previa. Si el prior es casi uniforme, esto es lo mismo que maximizar la probabilidad marginal del proceso; la marginación se hace sobre los valores del proceso observados . [7] Este enfoque también se conoce como máxima verosimilitud II , maximización de evidencia o Bayes empírico . [9]

Continuidad

Para un proceso gaussiano, la continuidad en la probabilidad es equivalente a la continuidad cuadrática media , [10] : 145  y la continuidad con probabilidad uno es equivalente a la continuidad de la muestra . [11] : 91 "Los procesos gaussianos son discontinuos en puntos fijos". Esto último implica, pero no está implicado, continuidad en la probabilidad. La continuidad en la probabilidad se cumple si y sólo si la media y la autocovarianza son funciones continuas. Por el contrario, la continuidad de la muestra fue un desafío incluso para los procesos gaussianos estacionarios (como probablemente señaló primero Andrey Kolmogorov ), y más desafiante para procesos más generales. [12] : Sección. 2.8  [13] : 69, 81  [14] : 80  [15] Como es habitual, por proceso continuo de muestra se entiende un proceso que admite una modificación continua de muestra .[16] : 292  [17] : 424 

Caso estacionario

Para un proceso gaussiano estacionario, algunas condiciones en su espectro son suficientes para la continuidad de la muestra, pero no son necesarias. Una condición necesaria y suficiente, a veces llamada teorema de Dudley-Fernique, implica la función definida por

integración por sustitución.
(*)   existealgo quees monótono en

no se sigue de la continuidad de y de las relaciones evidentes (para todos ) y

Teorema 1  :  Sea continuo y satisfaga (*). Entonces la condición es necesaria y suficiente para la continuidad de la muestra de

Algo de historia. [17] : 424  La suficiencia fue anunciada por Xavier Fernique en 1964, pero la primera prueba fue publicada por Richard M. Dudley en 1967. [16] : Teorema 7.1  La necesidad fue demostrada por Michael B. Marcus y Lawrence Shepp en 1970. [18 ] : 380 

Existen ejemplos de procesos continuos que violan la condición (*). Un ejemplo encontrado por Marcus y Shepp [18] : 387  es una serie lagunar aleatoria de Fourier

distribución normal estándar

de donde casi con seguridad, lo que asegura la convergencia uniforme de la serie de Fourier casi con seguridad, y la continuidad de la muestra de

Autocorrelación de una serie lagunar aleatoria de Fourier

Su función de autocovariación.

El movimiento browniano como integral de los procesos gaussianos

Un proceso de Wiener (también conocido como movimiento browniano) es la integral de un proceso gaussiano generalizado de ruido blanco . No es estacionario , pero tiene incrementos estacionarios .

El proceso de Ornstein-Uhlenbeck es un proceso gaussiano estacionario .

El puente browniano es (al igual que el proceso de Ornstein-Uhlenbeck) un ejemplo de proceso gaussiano cuyos incrementos no son independientes .

El movimiento browniano fraccionario es un proceso gaussiano cuya función de covarianza es una generalización de la del proceso de Wiener.

La ley cero uno de Driscoll

La ley cero uno de Driscoll es un resultado que caracteriza las funciones de muestra generadas por un proceso gaussiano.

Sea un proceso gaussiano de media cero con función de covarianza definida no negativa . Sea un espacio de Hilbert con núcleo reproductivo con núcleo definido positivo .

Entonces

Además,

[19]

Esto tiene implicaciones significativas cuando , como

Como tal, casi todas las rutas de muestra de un proceso gaussiano de media cero con núcleo definido positivo se ubicarán fuera del espacio de Hilbert .

Procesos gaussianos linealmente restringidos

Para muchas aplicaciones de interés ya se proporciona algún conocimiento preexistente sobre el sistema en cuestión. Consideremos, por ejemplo, el caso en el que la salida del proceso gaussiano corresponde a un campo magnético; aquí, el campo magnético real está limitado por las ecuaciones de Maxwell y sería deseable una forma de incorporar esta restricción al formalismo del proceso gaussiano, ya que esto probablemente mejoraría la precisión del algoritmo.

Ya existe un método sobre cómo incorporar restricciones lineales en los procesos gaussianos: [20]

Considere la función de salida (con valor vectorial) que se sabe que obedece a la restricción lineal (es decir, es un operador lineal)

Aplicaciones

Un ejemplo de regresión (predicción) del proceso gaussiano en comparación con otros modelos de regresión. [21]

Se puede utilizar un proceso gaussiano como distribución de probabilidad previa sobre funciones en la inferencia bayesiana . [7] [22] Dado cualquier conjunto de N puntos en el dominio deseado de sus funciones, tome una gaussiana multivariada cuyo parámetro de matriz de covarianza sea la matriz de Gram de sus N puntos con algún núcleo deseado y tome una muestra de esa gaussiana. Para la solución del problema de predicción de múltiples salidas, se desarrolló el proceso de regresión gaussiano para funciones con valores vectoriales. En este método, se construye una covarianza "grande", que describe las correlaciones entre todas las variables de entrada y salida tomadas en N puntos en el dominio deseado. [23] Este enfoque se elaboró ​​en detalle para los procesos gaussianos con valores matriciales y se generalizó a procesos con "colas más pesadas" como los procesos t de Student . [24]

La inferencia de valores continuos con un proceso gaussiano previo se conoce como regresión del proceso gaussiano o kriging ; extender la regresión del proceso gaussiano a múltiples variables objetivo se conoce como cokriging . [25] Los procesos gaussianos son, por tanto, útiles como una poderosa herramienta de interpolación multivariada no lineal .

Los procesos gaussianos también se utilizan habitualmente para abordar problemas de análisis numérico como la integración numérica, la resolución de ecuaciones diferenciales o la optimización en el campo de la numérica probabilística .

Los procesos gaussianos también se pueden utilizar, por ejemplo, en el contexto de modelos mixtos de expertos. [26] [27] La ​​lógica subyacente de dicho marco de aprendizaje consiste en la suposición de que un mapeo dado no puede ser capturado bien por un único modelo de proceso gaussiano. En cambio, el espacio de observación se divide en subconjuntos, cada uno de los cuales se caracteriza por una función cartográfica diferente; cada uno de estos se aprende a través de un componente del proceso gaussiano diferente en la mezcla postulada.

En las ciencias naturales, los procesos gaussianos se han utilizado como modelos probabilísticos de series temporales astronómicas y como predictores de propiedades moleculares. [28]

Predicción del proceso gaussiano o Kriging

Regresión (predicción) del proceso gaussiano con un núcleo exponencial al cuadrado. El gráfico de la izquierda se extrae de la distribución de funciones anterior. El medio se extrae de la parte posterior. La derecha es la predicción media con una desviación estándar sombreada.

Cuando se trata de un problema general de regresión de un proceso gaussiano (Kriging), se supone que para un proceso gaussiano observado en las coordenadas , el vector de valores es solo una muestra de una distribución gaussiana multivariada de dimensión igual al número de coordenadas observadas . Por lo tanto, bajo el supuesto de una distribución de media cero, donde está la matriz de covarianza entre todos los pares posibles para un conjunto dado de hiperparámetros θ . [7] Como tal, la probabilidad logarítmica marginal es:

y maximizar esta probabilidad marginal hacia θ proporciona la especificación completa del proceso gaussiano f . Se puede señalar brevemente en este punto que el primer término corresponde a un término de penalización por el hecho de que un modelo no se ajuste a los valores observados y el segundo término a un término de penalización que aumenta proporcionalmente a la complejidad del modelo. Habiendo especificado θ , hacer predicciones sobre valores no observados en las coordenadas x * es entonces sólo una cuestión de extraer muestras de la distribución predictiva donde la estimación media posterior A se define como

B
xxθx *θx[6]conjunto representativof[29] [30]krigingmodelo no lineal de efectos mixtos[31]

A menudo, la covarianza tiene la forma , donde es un parámetro de escala. Algunos ejemplos son las funciones de covarianza de la clase Matérn. Si este parámetro de escala es conocido o desconocido (es decir, debe marginarse), entonces la probabilidad posterior, es decir, la probabilidad de los hiperparámetros dado un conjunto de pares de datos de observaciones de y , admite una expresión analítica. [32]

Redes neuronales bayesianas como procesos gaussianos

Las redes neuronales bayesianas son un tipo particular de red bayesiana que resulta de tratar probabilísticamente los modelos de redes neuronales artificiales y de aprendizaje profundo , y asignar una distribución previa a sus parámetros . La computación en redes neuronales artificiales suele estar organizada en capas secuenciales de neuronas artificiales . El número de neuronas en una capa se llama ancho de capa. A medida que el ancho de la capa aumenta, muchas redes neuronales bayesianas se reducen a un proceso gaussiano con un núcleo compositivo de forma cerrada . Este proceso gaussiano se denomina proceso gaussiano de red neuronal (NNGP). [7] [33] [34] Permite que las predicciones de las redes neuronales bayesianas se evalúen de manera más eficiente y proporciona una herramienta analítica para comprender los modelos de aprendizaje profundo .

Problemas computacionales

En aplicaciones prácticas, los modelos de procesos gaussianos a menudo se evalúan en una cuadrícula que conduce a distribuciones normales multivariadas. El uso de estos modelos para predicción o estimación de parámetros usando máxima verosimilitud requiere evaluar una densidad gaussiana multivariada, lo que implica calcular el determinante y la inversa de la matriz de covarianza. Ambas operaciones tienen una complejidad computacional cúbica, lo que significa que incluso para redes de tamaños modestos, ambas operaciones pueden tener un costo computacional prohibitivo. Este inconveniente llevó al desarrollo de múltiples métodos de aproximación .

Ver también

Referencias

  1. ^ MacKay, David, JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (PDF) . Prensa de la Universidad de Cambridge . pag. 540.ISBN​ 9780521642989. La distribución de probabilidad de una función es un proceso gaussiano si para cualquier selección finita de puntos , la densidad es gaussiana{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. ^ Dudley, RM (1989). Análisis Real y Probabilidad . Wadsworth y Brooks/Cole. ISBN 0-534-10050-3.
  3. ^ ab Amos Lapidoth (8 de febrero de 2017). Una Fundación en Comunicación Digital. Prensa de la Universidad de Cambridge. ISBN 978-1-107-17732-1.
  4. ^ Kac, M.; Siegert, AJF (1947). "Una representación explícita de un proceso gaussiano estacionario". Los anales de la estadística matemática . 18 (3): 438–442. doi : 10.1214/aoms/1177730391 .
  5. ^ Obispo, CM (2006). Reconocimiento de patrones y aprendizaje automático . Saltador . ISBN 978-0-387-31073-2.
  6. ^ abc barbero, David (2012). Razonamiento bayesiano y aprendizaje automático. Prensa de la Universidad de Cambridge . ISBN 978-0-521-51814-7.
  7. ^ abcdef Rasmussen, CE; Williams, CKI (2006). Procesos gaussianos para el aprendizaje automático. Prensa del MIT . ISBN 978-0-262-18253-9.
  8. ^ Grimmett, Geoffrey; David Stirzaker (2001). Probabilidad y Procesos Aleatorios . Prensa de la Universidad de Oxford . ISBN 978-0198572220.
  9. ^ Seeger, Matías (2004). "Procesos gaussianos para el aprendizaje automático". Revista internacional de sistemas neuronales . 14 (2): 69-104. CiteSeerX 10.1.1.71.1079 . doi :10.1142/s0129065704001899. PMID  15112367. S2CID  52807317. 
  10. ^ Dudley, RM (1975). «El proceso gaussiano y cómo abordarlo» (PDF) . Actas del Congreso Internacional de Matemáticos . vol. 2. págs. 143-146.
  11. ^ Dudley, RM (2010). "Funciones de muestra del proceso gaussiano". Obras seleccionadas de RM Dudley . vol. 1. págs. 66-103. doi :10.1007/978-1-4419-5821-1_13. ISBN 978-1-4419-5820-4. {{cite book}}: |journal=ignorado ( ayuda )
  12. ^ Talagrand, Michel (2014). Límites superior e inferior de procesos estocásticos: métodos modernos y problemas clásicos. Ergebnisse der Mathematik und ihrer Grenzgebiete. 3. Folge / Una serie de estudios modernos en matemáticas. Springer, Heidelberg. ISBN 978-3-642-54074-5.
  13. ^ Ledoux, Michel (1996), "Isoperimetría y análisis gaussiano", en Dobrushin, Roland; Groeneboom, Piet; Ledoux, Michel (eds.), Conferencias sobre teoría de la probabilidad y estadística: Ecole d'Eté de Probabilités de Saint-Flour XXIV–1994 , Lecture Notes in Mathematics, vol. 1648, Berlín: Springer, págs. 165–294, doi :10.1007/BFb0095676, ISBN 978-3-540-62055-6, señor  1600888
  14. ^ Adler, Robert J. (1990). Introducción a la continuidad, los extremos y temas relacionados para los procesos gaussianos generales . vol. 12. Hayward, California: Instituto de Estadística Matemática. ISBN 0-940600-17-X. JSTOR  4355563. SEÑOR  1088478. {{cite book}}: |journal=ignorado ( ayuda )
  15. ^ Berman, Simeón M. (1992). "Reseña de: Adler 1990 'Una introducción a la continuidad...'". Revisiones Matemáticas . SEÑOR  1088478.
  16. ^ ab Dudley, RM (1967). "Los tamaños de subconjuntos compactos del espacio de Hilbert y la continuidad de los procesos gaussianos". Revista de análisis funcional . 1 (3): 290–330. doi : 10.1016/0022-1236(67)90017-1 .
  17. ^ ab Marcus, MB; Shepp, Lawrence A. (1972). "Muestra de comportamiento de procesos gaussianos". Actas del sexto simposio de Berkeley sobre probabilidad y estadística matemática, vol. II: teoría de la probabilidad . vol. 6. Universidad. California, Berkeley. págs. 423–441.
  18. ^ ab Marcus, Michael B.; Shepp, Lawrence A. (1970). "Continuidad de los procesos gaussianos". Transacciones de la Sociedad Matemática Estadounidense . 151 (2): 377–391. doi : 10.1090/s0002-9947-1970-0264749-1 . JSTOR  1995502.
  19. ^ Driscoll, Michael F. (1973). "La estructura espacial de Hilbert del núcleo reproductor de las rutas de muestra de un proceso gaussiano". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 26 (4): 309–316. doi : 10.1007/BF00534894 . ISSN  0044-3719. S2CID  123348980.
  20. ^ Jugando, Carl; Wahlström, Niklas; Testamentos, Adrián; Schön, Thomas B. (19 de septiembre de 2017). "Procesos gaussianos linealmente restringidos". arXiv : 1703.00787 [estad.ML].
  21. ^ La documentación de scikit-learn también tiene ejemplos similares.
  22. ^ Liu, W.; Príncipe, JC; Haykin, S. (2010). Filtrado adaptativo del kernel: una introducción completa. Juan Wiley . ISBN 978-0-470-44753-6. Archivado desde el original el 4 de marzo de 2016 . Consultado el 26 de marzo de 2010 .
  23. ^ Álvarez, Mauricio A.; Rosasco, Lorenzo; Lawrence, Neil D. (2012). "Núcleos para funciones con valores vectoriales: una revisión" (PDF) . Fundamentos y tendencias en aprendizaje automático . 4 (3): 195–266. doi :10.1561/2200000036. S2CID  456491.
  24. ^ Chen, Zexun; Wang, Bo; Gorban, Alexander N. (2019). "Regresión de procesos multivariados gaussianos y t de Student para predicción de múltiples salidas". Computación neuronal y aplicaciones . 32 (8): 3005–3028. arXiv : 1703.04455 . doi : 10.1007/s00521-019-04687-8 .
  25. ^ Stein, ML (1999). Interpolación de datos espaciales: alguna teoría para Kriging . Saltador .
  26. ^ Platanios, Emmanouil A.; Chatzis, Sotirios P. (2014). "Heterocedasticidad condicional de mezcla de proceso gaussiano". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 36 (5): 888–900. doi :10.1109/TPAMI.2013.183. PMID  26353224. S2CID  10424638.
  27. ^ Chatzis, Sotirios P. (2013). "Un modelo de proceso gaussiano de variable latente con procesos previos de Pitman-Yor para clasificación multiclase". Neurocomputación . 120 : 482–489. doi :10.1016/j.neucom.2013.04.029.
  28. ^ Griffiths, Ryan-Rhys (2022). Aplicaciones de procesos gaussianos a escalas de longitud extremas: de moléculas a agujeros negros (tesis doctoral). Universidad de Cambridge. arXiv : 2303.14291 . doi :10.17863/CAM.93643.
  29. ^ Smola, AJ; Schoellkopf, B. (2000). "Aproximación de matriz escasa y codiciosa para el aprendizaje automático". Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático : 911–918. CiteSeerX 10.1.1.43.3153 . 
  30. ^ Csato, L.; Opper, M. (2002). "Escasos procesos gaussianos en línea". Computación neuronal . 14 (3): 641–668. CiteSeerX 10.1.1.335.9713 . doi :10.1162/089976602317250933. PMID  11860686. S2CID  11375333. 
  31. ^ Lee, Se Yoon; Mallick, Bani (2021). "Modelado jerárquico bayesiano: aplicación a resultados de producción en Eagle Ford Shale del sur de Texas". Sankhya B. 84 : 1–43. doi : 10.1007/s13571-020-00245-8 .
  32. ^ Ranftl, Sascha; Melito, Gian Marco; Badeli, Vahid; Reinbacher-Köstinger, Alice; Ellermann, Katrin; von der Linden, Wolfgang (31 de diciembre de 2019). "Cuantificación de la incertidumbre bayesiana con datos de fidelidad múltiple y procesos gaussianos para la cardiografía de impedancia de la disección aórtica". Entropía . 22 (1): 58. Bibcode : 2019Entrp..22...58R. doi : 10.3390/e22010058 . ISSN  1099-4300. PMC 7516489 . PMID  33285833. 
  33. ^ Novak, romano; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alejandro A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2020). "Tangentes neuronales: redes neuronales infinitas rápidas y sencillas en Python". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1912.02803 .
  34. ^ Neal, Radford M. (2012). Aprendizaje bayesiano para redes neuronales . Medios científicos y empresariales de Springer.

enlaces externos

Literatura

Software

Tutoriales en vídeo