Distribución de probabilidad de puntos extremos de un proceso estocástico de Wiener

En la teoría matemática de la probabilidad, el proceso de Wiener , llamado así por Norbert Wiener , es un proceso estocástico utilizado para modelar diversos fenómenos, incluidos el movimiento browniano y las fluctuaciones en los mercados financieros. Una fórmula para la distribución de probabilidad condicional del extremo del proceso de Wiener y un esbozo de su prueba aparecen en el trabajo de H. J. Kusher (apéndice 3, página 106) publicado en 1964. ^[1] Una prueba constructiva detallada aparece en el trabajo de Dario Ballabio en 1978. ^[2] Este resultado se desarrolló dentro de un proyecto de investigación sobre algoritmos de optimización bayesianos .

En algunos problemas de optimización global se desconoce la definición analítica de la función objetivo y sólo es posible obtener valores en puntos fijos. Existen funciones objetivo en las que el coste de una evaluación es muy elevado, por ejemplo cuando la evaluación es el resultado de un experimento o de una medición especialmente onerosa. En estos casos, la búsqueda del extremo global (máximo o mínimo) puede llevarse a cabo mediante una metodología denominada " optimización bayesiana ", que tiende a obtener a priori el mejor resultado posible con un número predeterminado de evaluaciones. En resumen se supone que fuera de los puntos en los que ya ha sido evaluada, la función objetivo tiene un patrón que puede ser representado por un proceso estocástico con características apropiadas. El proceso estocástico se toma como modelo de la función objetivo, suponiendo que la distribución de probabilidad de sus extremos da la mejor indicación sobre los extremos de la función objetivo. En el caso más simple de la optimización unidimensional, dado que la función objetivo ha sido evaluada en un número de puntos, se plantea el problema de elegir en cuál de los intervalos así identificados es más apropiado invertir en una evaluación posterior. Si se elige un proceso estocástico de Wiener como modelo para la función objetivo, es posible calcular la distribución de probabilidad de los puntos extremos del modelo dentro de cada intervalo, condicionada por los valores conocidos en los límites del intervalo. La comparación de las distribuciones obtenidas proporciona un criterio para seleccionar el intervalo en el que se debe iterar el proceso. El valor de probabilidad de haber identificado el intervalo en el que cae el punto extremo global de la función objetivo puede usarse como criterio de parada. La optimización bayesiana no es un método eficiente para la búsqueda precisa de extremos locales por lo que, una vez que se ha restringido el rango de búsqueda, dependiendo de las características del problema, se puede utilizar un método de optimización local específico.

Proposición

Sea un proceso estocástico de Wiener en un intervalo con valor inicial ${\estilo de visualización X(t)}$ ${\estilo de visualización [a,b]}$ $X(a)=X_{a}.$

Por definición del proceso de Wiener , los incrementos tienen una distribución normal:

{\text{para }}a\leq t_{1}<t_{2}\leq b,\qquad X(t_{2})-X(t_{1})\sim N(0,\sigma ^{2}(t_{2}-t_{1})).

Dejar

F(z)=\Pr(\min _{a\leq t\leq b}X(t)\leq z\mid X(b)=X_{b})

sea la función de distribución de probabilidad acumulada del valor mínimo de la función en el intervalo condicionado por el valor ${\estilo de visualización X(t)}$ ${\estilo de visualización [a,b]}$ $X(b)=X_{b}.$

Se demuestra que: ^[1]^[3]^{[nota 1]}

F(z)={\begin{cases}1&{\text{para }}z\geq \min\{X_{a},X_{b}\},\\\exp \left(-2{\dfrac {(z-X_{b})(z-X_{a})}{\sigma ^{2}(ba)}}\right)&{\text{para }}z<\min(X_{a},X_{b}).\end{cases}}

Prueba constructiva

El caso es una consecuencia inmediata de la definición mínima, en lo sucesivo se asumirá siempre y también se excluirá el caso extremo. $z\geq \min(X_{a},X_{b})$ $z<\min(X_{a},X_{b})$ $\min_{a\leq t\leq b}X(t)=\min(X_{a},X_{b})$

Supongamos que se define en un número finito de puntos . ${\estilo de visualización X(t)}$ $t_{k}\en [a,b],\ \ 0\leq k\leq n,\ \ t_{0}=a$

Sea variando el entero α una sucesión de conjuntos tales que α y α un conjunto denso en , $T_{n}\ \ {\overset {\underset {\mathrm {def} }{}}{=}}\ \ \{t_{k},\ \ 0\leq k\leq n,\}$ ${\estilo de visualización n}$ $\{T_{n}\}$ $T_{n}\subconjunto T_{n+1}$ $\bigcup _{n=0}^{+\infty }T_{n}$ ${\estilo de visualización [a,b]}$

Por lo tanto, cada vecindad de cada punto en contiene un elemento de uno de los conjuntos . ${\estilo de visualización [a,b]}$ $Estilo de visualización T_{n}$

Sea un número real positivo tal que $\Delta z$ $z+\Delta z<\min(X_{a},X_{b}).$

Sea el evento definido como: . ${\estilo de visualización E}$ $E\ \ {\overset {\underset {\mathrm {def} }{}}{=}}\ \ (\min _{a\leq t\leq b}X(t)<z+\Delta z)$ $\Flecha larga izquierda derecha$ $(\existe \,t\en [a,b]:X(t)<z+\Delta z)$

Habiendo excluido el caso extremo , seguramente es . $\min_{a\leq t\leq b}X(t)=\min(X_{a},X_{b})$ $P(E)>0$

Sean los eventos definidos como: y sea el primer k entre los que definen . $E_{n},\ \ n=0,1,2,\ldots$ $E_{n}\ \ {\overset {\underset {\mathrm {def} }{}}{=}}\ \ (\existe \,t_{k}\en T_{n}:z<X(t_{k})<z+\Delta z)$ ${\estilo de visualización \nu}$ $t_{k}\en T_{n}$ $Estilo de visualización E_{n}$

Puesto que es evidente . Ahora se demostrará la ecuación (2.1) . $T_{n}\subconjunto T_{n+1}$ $E_{n}\subconjunto E_{n+1}$

(2.1) $\ \ \ \ E=\bigcup _{n=0}^{+\infty }E_{n}$

Por la definición de eventos, , por lo tanto . Ahora se verificará la relación, por lo tanto se demostrará (2.1) . $E_{n}$ $\forall \,n\ \ E_{n}\Rightarrow E$ $\bigcup _{n=0}^{+\infty }E_{n}\subset E$ $E\subset \bigcup _{n=0}^{+\infty }E_{n}$

La definición de , la continuidad de y la hipótesis implican, por el teorema del valor intermedio , . $E$ $X(t)$ $z<X_{a}=X(a)$ $(\exists \,{\bar {t}}\in [a,b]:z<X({\bar {t}})<z+\Delta z)$

Por la continuidad de y la hipótesis que en ella hay denso se deduce que tal que para ello debe ser , $X(t)$ $\bigcup _{n=0}^{+\infty }T_{n}$ $[a,b]$ $\exists \,{\bar {n}}$ $t_{\nu }\in T_{\bar {n}}$ $z<X(t_{\nu })<z+\Delta z$

por lo tanto lo que implica (2.1) . $E\subset E_{\bar {n}}\subset \bigcup _{n=0}^{+\infty }E_{n}$

(2.2) $\ \ \ \ P(E)=\lim _{n\rightarrow +\infty }P(E_{n})$

(2.2) se deduce de (2.1) , considerando que implica que la secuencia de probabilidades es monótona no decreciente y por lo tanto converge a su supremo . La definición de eventos implica y (2.2) implica . $E_{n}\Rightarrow E_{n+1}$ $P(E_{n})$ $E_{n}$ $\forall n\ \ P(E_{n})>0\Rightarrow P(E_{n})=P(E_{\nu })$ $P(E)=P(E_{\nu })$

En lo sucesivo se asumirá siempre que , por lo que está bien definido. $n\geq \nu$ $t_{\nu }$

(2.3) $\ \ \ \ P(X(b)\leqslant -X_{b}+2z)\leqslant P(X(b)-X(t_{\nu })<-X_{b}+z)$

De hecho, por definición es , entonces . $E_{n}$ $z<X(t_{\nu })$ $(X(b)\leqslant -X_{b}+2z)\Rightarrow (X(b)-X(t_{\nu })<-X_{b}+z)$

De manera similar, dado que por definición es , (2.4) es válida: $E_{n}$ $z<X(t_{\nu })$

(2.4) $\ \ \ \ P(X(b)-X(t_{\nu })>X_{b}-z)\leqslant P(X(b)>X_{b})$

(2.5) $\ \ \ \ P(X(b)-X(t_{\nu })<-X_{b}+z)=P(X(b)-X(t_{\nu })>X_{b}-z)$

Lo anterior se explica por el hecho de que la variable aleatoria tiene una densidad de probabilidad simétrica respecto de su media que es cero. $(X(b)-X(t_{\nu }))\thicksim N(\varnothing ;\ \ \sigma ^{2}(b-t_{\nu }))$

Aplicando en secuencia las relaciones (2.3) , (2.5) y (2.4) obtenemos (2.6) :

(2.6) $\ \ \ \ P(X(b)\leqslant -X_{b}+2z)\leqslant P(X(b)>X_{b})$

Con el mismo procedimiento empleado para obtener (2.3) , (2.4) y (2.5) aprovechando esta vez la relación obtenemos (2.7) : $X(t_{\nu })<z+\Delta z$

(2.7) $\ \ \ \ P(X(b)>X_{b})\leqslant P(X(b)-X(t_{\nu })>X_{b}-z-\Delta z)\ \$ $=\ \ P(X(b)-X(t_{\nu })<-X_{b}+z+\Delta z)\leqslant P(X(b)<-X_{b}+2z+2\Delta z)$

Aplicando en secuencia (2.6) y ( 2.7) obtenemos:

(2.8) $P(X(b)\leqslant -X_{b}+2z)\leqslant P(X(b)>X_{b})$ $\leqslant P(X(b)<-X_{b}+2z+2\Delta z)$

De , considerando la continuidad de y el teorema del valor intermedio obtenemos , $X_{b}>z+\Delta z>z$ $X(t)$ $X(b)>X_{b}>z+\Delta z>z\Rightarrow E_{n}$

lo que implica . $P(X(b)>X_{b})=P(E_{n},X(b)>X_{b})$

Reemplazando lo anterior en (2.8) y pasando a los límites: y para , el evento converge a $\lim _{n\rightarrow +\ \infty }\ \ E_{n}(\Delta z)\rightarrow E(\Delta z)$ $\Delta z\rightarrow 0$ $E(\Delta z)$ $\min _{a\leq t\leq b}X(t)\leqslant z$

(2.9) $\ \ \ \ P(X(b)\leqslant -X_{b}+2z)=$ $P(\min _{a\leq t\leq b}X(t)\leqslant z,\ \ X(b)>X_{b})$

$\forall \,dX_{b}>0$ , sustituyendo con en (2.9) obtenemos la relación equivalente: $(X_{b})$ $(X_{b}-dX_{b})$

(2.10) $\ \ \ \ P(X(b)\leqslant -X_{b}+2z+dX_{b})=$ $P(\min _{a\leq t\leq b}X(t)\leqslant z,\ \ X(b)>X_{b}-dX_{b})$

Aplicación del teorema de Bayes al evento conjunto $(\min _{a\leq t\leq b}X(t)\leqslant z,\ \ X_{b}-dX_{b}<X(b)\leqslant X_{b})$

(2.11) $\ \ \ \ P(\min _{a\leq t\leq b}X(t)\leqslant z\mid X_{b}-dX_{b}<X(b)\leqslant X_{b})=$ $P(\min _{a\leq t\leq b}X(t)\leqslant z,\ \ X_{b}-dX_{b}<X(b)\leqslant X_{b})$ $/\ \ P(X_{b}-dX_{b}<X(b)\leqslant X_{b})$

Sea: De las definiciones anteriores se deduce: $B\ {\overset {\underset {\mathrm {def} }{}}{=}}\ \{X(b)>X_{b}\},\ C\ {\overset {\underset {\mathrm {def} }{}}{=}}\ \{X_{b}-dX_{b}<X(b)\leq X_{b}\},\ D\ {\overset {\underset {\mathrm {def} }{}}{=}}\ \{X(b)>X_{b}-dX_{b}\},\ A\ {\overset {\underset {\mathrm {def} }{}}{=}}\ \ \{\min _{a\leq t\leq b}X(t)\leqslant z\}$

$D=B\cup C\Rightarrow \ P(A,D)=P(A,B\cup C)=P(A,B)+P(A,C)\Rightarrow P(A,C)=P(A,D)-P(A,B)$

(2.12) $\ \ \ \ P(A,C)=P(A,D)-P(A,B)$

Sustituyendo (2.12) en (2.11) , obtenemos el equivalente:

(2.13) $P(\min _{a\leq t\leq b}X(t)\leqslant z\mid X_{b}-dX_{b}<X(b)\leqslant X_{b})=(P(\min _{a\leqslant t\leqslant b}X(t)\leq z,\ \ X(b)>X_{b}-dX_{b})-P(\min _{a\leqslant t\leqslant b}X(t)\leq z,\ \ X(b)>X_{b}))\ \ /\ \ P(X_{b}-dX_{b}<X(b)\leqslant X_{b})$

Sustituyendo (2.9) y (2.10) en (2.13):

(2.14) $\ \ \ \ P(\min _{a\leq t\leq b}X(t)\leqslant z\mid X_{b}-dX_{b}<X(b)\leqslant X_{b})=$ $(P(X(b)\leqslant -X_{b}+2z+dX_{b})-P(X(b)\leqslant -X_{b}+2z)$ $/\ \ P(X_{b}-dX_{b}<X(b)\leqslant X_{b})$

Se puede observar que en el segundo miembro de (2.14) aparece la distribución de probabilidad de la variable aleatoria , normal con media y varianza . $X(b)$ $X_{a}$ $\sigma ^{2}(b-a)$

Las realizaciones y de la variable aleatoria coinciden respectivamente con las densidades de probabilidad: $X_{b}$ $-X_{b}+2z$ $X(b)$

(2.15) $\ \ \ \ P(X_{b})\,dX_{b}={\frac {1}{\sigma {\sqrt {2\pi (b-a)}}}}\exp {\biggl (}-{\frac {1}{2}}{\frac {(X_{b}-X_{a})^{2}}{\sigma ^{2}(b-a)}}{\biggr )}\,dX_{b}$

(2.16) $\ \ \ \ P(-X_{b}+2z)\,dX_{b}={\frac {1}{\sigma {\sqrt {2\pi (b-a)}}}}\exp {\biggl (}-{\frac {1}{2}}{\frac {(-X_{b}+2z-X_{a})^{2}}{\sigma ^{2}(b-a)}}{\biggr )}\,dX_{b}$

Sustituyendo (2.15) y (2.16) en (2.14) y tomando el límite para la tesis se demuestra: $dX_{b}\rightarrow 0$

$F(z)=P(\min _{a\leq t\leq b}X(t)\leq z\ \ |\ \ X(b)=X_{b})=$

$={\frac {1}{\sigma {\sqrt {2\pi (b-a)}}}}\exp {\biggl (}-{\frac {1}{2}}{\frac {(-X_{b}+2z-X_{a})^{2}}{\sigma ^{2}(b-a)}}{\biggr )}\,dX_{b}$ $\ \ \diagup \ \ {\frac {1}{\sigma {\sqrt {2\pi (b-a)}}}}\exp {\biggl (}-{\frac {1}{2}}{\frac {(X_{b}-X_{a})^{2}}{\sigma ^{2}(b-a)}}{\biggr )}\,dX_{b}=$

$=\exp {\biggl (}-{\frac {1}{2}}{\frac {(-X_{b}+2z-X_{a})^{2}-(X_{b}-X_{a})^{2}}{\sigma ^{2}(b-a)}}{\biggr )}=$ $\ \ \exp {\biggl (}-2\ \ {\frac {(z-X_{b})(z-X_{a})}{\sigma ^{2}(b-a)}}{\biggr )}$

Bibliografía

Un modelo estocástico versátil de una función de forma desconocida y variable en el tiempo - Harold J Kushner - Revista de análisis matemático y aplicaciones Volumen 5, Número 1, agosto de 1962, páginas 150-167.
La aplicación de métodos bayesianos para buscar el extremo - J. Mockus, J. Tiesis, A. Zilinskas - Congreso IFIP 1977, 8-12 de agosto, Toronto.

Véase también

Notas

^ El teorema, tal como se establece y se muestra para el caso del mínimo del proceso de Wiener, también se aplica al máximo.

Referencias

^ ab HJ Kushner, "Un nuevo método para localizar el punto máximo de una curva multipico arbitraria en presencia de ruido", J. Basic Eng 86(1), 97–106 (01 de marzo de 1964).
^ Dario Ballabio, "Una nuova classe di algoritmi stocastici per l'ottimizzazione globale" (Una nueva clase de algoritmos estocásticos para la optimización global), Universidad de Milán, Instituto de Matemáticas, tesis doctoral presentada el 12 de julio de 1978, págs. 29-33 .
^ János D. Pintér, Optimización global en acción: optimización continua y de Lipschitz, 1996 Springer Science & Business Media , página 57.