Aproximación estocástica

Los métodos de aproximación estocástica son una familia de métodos iterativos que se utilizan normalmente para problemas de búsqueda de raíces o para problemas de optimización . Las reglas de actualización recursivas de los métodos de aproximación estocástica se pueden utilizar, entre otras cosas, para resolver sistemas lineales cuando los datos recopilados están corrompidos por el ruido, o para aproximar valores extremos de funciones que no se pueden calcular directamente, sino que sólo se estiman mediante observaciones ruidosas.

En pocas palabras, los algoritmos de aproximación estocástica tratan con una función de la forma que es el valor esperado de una función que depende de una variable aleatoria . El objetivo es recuperar propiedades de dicha función sin evaluarla directamente. En cambio, los algoritmos de aproximación estocástica utilizan muestras aleatorias para aproximar eficientemente propiedades como ceros o extremos. ${\textstyle f(\theta )=\operatorname {E} _{\xi }[F(\theta ,\xi )]}$ ${\estilo de texto \xi }$ ${\estilo de texto f}$ ${\estilo de texto F(\theta,\xi)}$ ${\estilo de texto f}$

Recientemente, las aproximaciones estocásticas han encontrado amplias aplicaciones en los campos de la estadística y el aprendizaje automático, especialmente en entornos con big data . Estas aplicaciones van desde métodos y algoritmos de optimización estocástica hasta formas en línea del algoritmo EM , aprendizaje por refuerzo mediante diferencias temporales y aprendizaje profundo , entre otros. ^[1] Los algoritmos de aproximación estocástica también se han utilizado en las ciencias sociales para describir dinámicas colectivas: el juego ficticio en la teoría del aprendizaje y los algoritmos de consenso se pueden estudiar utilizando su teoría. ^[2]

Los algoritmos más antiguos y prototípicos de este tipo son los algoritmos de Robbins-Monro y Kiefer-Wolfowitz, introducidos respectivamente en 1951 y 1952.

Algoritmo de Robbins-Monro

El algoritmo Robbins-Monro, introducido en 1951 por Herbert Robbins y Sutton Monro , ^[3] presentó una metodología para resolver un problema de búsqueda de raíces, donde la función se representa como un valor esperado. Supongamos que tenemos una función y una constante tal que la ecuación tiene una raíz única en . Se supone que si bien no podemos observar directamente la función , podemos obtener medidas de la variable aleatoria donde . La estructura del algoritmo es generar iteraciones de la forma: ${\estilo de texto M(\theta )}$ ${\estilo de texto \alpha }$ ${\textstyle M(\theta )=\alpha }$ ${\estilo de texto \theta ^{*}}$ ${\estilo de texto M(\theta )}$ ${\estilo de texto N(\theta )}$ ${\textstyle \operatorname {E} [N(\theta )]=M(\theta )}$

{\ Displaystyle \ theta _ {n + 1} = \ theta _ {n} -a_ {n} (N (\ theta _ {n}) - \ alpha)}

Aquí hay una secuencia de tamaños de pasos positivos. Robbins y Monro demostraron ^[3]^{, el teorema 2} que converge en (y por tanto también en probabilidad) a , y Blum ^[4] demostró más tarde que la convergencia es en realidad con probabilidad uno, siempre que: ${\ Displaystyle a_ {1}, a_ {2}, \ puntos}$ $\theta _ {n}$ $L^{2}$ $\theta ^{*}$

${\estilo de texto N(\theta )}$ está uniformemente delimitado,
${\estilo de texto M(\theta )}$ es no decreciente,
${\textstyle M'(\theta ^{*})}$ existe y es positivo, y
La secuencia satisface los siguientes requisitos: ${\estilo de texto a_ {n}}$

\qquad \sum _ {n=0}^{\infty }a_ {n}=\infty \quad {\mbox{ y }}\quad \sum _ {n=0}^{\infty }a_ {n}^{2}<\infty \quad

Una secuencia particular de pasos que satisface estas condiciones, sugerida por Robbins-Monro, tiene la forma: , para . Son posibles otras series, pero para promediar el ruido en , se debe cumplir la condición anterior. ${\estilo de texto a_ {n}=a/n}$ ${\estilo de texto a>0}$ ${\estilo de texto N(\theta )}$

Resultados de complejidad

Si es dos veces continuamente diferenciable, y fuertemente convexo, y el minimizador de pertenece al interior de , entonces el algoritmo de Robbins-Monro logrará la tasa de convergencia asintóticamente óptima, con respecto a la función objetivo, siendo , donde es el valor mínimo de sobre . ^[5]^[6] ${\estilo de texto f(\theta )}$ ${\estilo de texto f(\theta )}$ ${\estilo de texto \Theta }$ ${\textstyle \operatorname {E} [f(\theta _ {n})-f^{*}]=O(1/n)}$ ${\estilo de texto f^{*}}$ ${\estilo de texto f(\theta )}$ ${\textstyle \theta \en \Theta }$
Por el contrario, en el caso convexo general, donde carecemos del supuesto de suavidad y de convexidad fuerte, Nemirovski y Yudin ^[7] han demostrado que la tasa de convergencia asintóticamente óptima, con respecto a los valores de la función objetivo, es . También han demostrado que esta tasa no se puede mejorar. ${\textstyle O(1/{\sqrt {n}})}$

Desarrollos posteriores y promedio Polyak-Ruppert

Si bien el algoritmo de Robbins-Monro es teóricamente capaz de lograr resultados bajo el supuesto de diferenciabilidad dos veces continua y una fuerte convexidad, puede funcionar bastante mal tras su implementación. Esto se debe principalmente al hecho de que el algoritmo es muy sensible a la elección de la secuencia del tamaño de paso, y la supuesta política de tamaño de paso asintóticamente óptima puede ser bastante perjudicial al principio. ^[6]^[8] ${\estilo de texto O(1/n)}$

Chung (1954) ^[9] y Fabian (1968) ^[10] demostraron que alcanzaríamos una tasa de convergencia óptima con (o ). Lai y Robbins ^[11]^[12] diseñaron procedimientos adaptativos para estimar aquellos que tengan una varianza asintótica mínima. Sin embargo, la aplicación de estos métodos óptimos requiere mucha información a priori que es difícil de obtener en la mayoría de las situaciones. Para superar este déficit, Polyak (1991) ^[13] y Ruppert (1988) ^[14] desarrollaron de forma independiente un nuevo algoritmo óptimo basado en la idea de promediar las trayectorias. Polyak y Juditsky ^[15] también presentaron un método para acelerar Robbins-Monro para problemas de búsqueda de raíces lineales y no lineales mediante el uso de pasos más largos y el promedio de las iteraciones. El algoritmo tendría la siguiente estructura: ${\textstyle O(1/{\sqrt {n}})}$ ${\textstyle a_{n}=\bigtriangledown ^{2}f(\theta ^{*})^{-1}/n}$ ${\textstyle a_{n}={\frac {1}{(nM'(\theta ^{*}))}}}$ ${\textstyle M'(\theta ^{*})}$ ${\estilo de texto \theta _ {n}}$

\theta _ {n+1}-\theta _ {n}=a_ {n}(\alpha -N(\theta _ {n})),\qquad {\bar {\theta }}_{ n}={\frac {1}{n}}\sum _{i=0}^{n-1}\theta _{i}

{\bar {\theta }}_{n}

\theta ^{*}

\{a_{n}\}

A1)

a_{n}\rightarrow 0,\qquad {\frac {a_{n}-a_{n+1}}{a_{n}}}=o(a_{n})

Por lo tanto, la secuencia con satisface esta restricción, pero no, de ahí los pasos más largos. Según los supuestos descritos en el algoritmo de Robbins-Monro, la modificación resultante dará como resultado la misma tasa de convergencia asintóticamente óptima pero con una política de tamaño de paso más sólida. ^{[15] Antes de esto, Nemirovski y Yudin}^[16] ya habían propuesto la idea de utilizar pasos más largos y promediar las iteraciones para los casos de resolución del problema de optimización estocástica con objetivos convexos continuos y para problemas de punto de silla convexo-cóncavo. Se observó que estos algoritmos alcanzaban la tasa no asintótica . ${\textstyle a_{n}=n^{-\alpha }}$ ${\textstyle 0<\alpha <1}$ ${\estilo de texto \alpha =1}$ ${\textstyle O(1/{\sqrt {n}})}$ ${\textstyle O(1/{\sqrt {n}})}$

^{En el Capítulo 11 de Kushner y Yin [17]} se da un resultado más general al definir el tiempo interpolado , el proceso interpolado y el proceso normalizado interpolado como ${\textstyle t_{n}=\sum _{i=0}^{n-1}a_{i}}$ ${\textstyle \theta ^{n}(\cdot )}$ ${\estilo de texto U^{n}(\cdot )}$

\theta ^{n}(t)=\theta _ {n+i},\quad U^{n}(t)=(\theta _ {n+i}-\theta ^{*}) /{\sqrt {a_{n+i}}}\quad {\mbox{for}}\quad t\in [t_{n+i}-t_{n},t_{n+i+1}-t_ {n}),i\geq 0

\Theta _{n}={\frac {a_{n}}{t}}\sum _{i=n}^{n+t/a_{n}-1}\theta _{i}

{\hat {U}}^{n}(t)={\frac {\sqrt {a_{n}}}{t}}\sum _{i=n}^{n+t/a_ {n}-1}(\theta _ {i}-\theta ^{*})

Con el supuesto A1) y el siguiente A2)

A2) Existe una matriz de Hurwitz y una matriz simétrica y definida positiva tal que converge débilmente a , donde está la estatisolución a ${\estilo de texto A}$ ${\estilo de texto \Sigma }$ ${\estilo de texto \{U^{n}(\cdot )\}}$ ${\estilo de texto U(\cdot )}$ ${\estilo de texto U(\cdot )}$

dU=AU\,dt+\Sigma ^{1/2}\,dw

{\textstyle w(\cdot )}

satisfecho y definir . Luego para cada uno , ${\textstyle {\bar {V}}=(A^{-1})'\Sigma (A')^{-1}}$ ${\textstyle t}$

{\hat {U}}^{n}(t){\stackrel {\mathcal {D}}{\longrightarrow }}{\mathcal {N}}(0,V_{t}),\quad {\text{where}}\quad V_{t}={\bar {V}}/t+O(1/t^{2}).

El éxito de la idea de promediar se debe a la separación de escalas de tiempo de la secuencia original y la secuencia promediada , siendo la escala de tiempo de la primera más rápida. ${\textstyle \{\theta _{n}\}}$ ${\textstyle \{\Theta _{n}\}}$

Aplicación en optimización estocástica.

Supongamos que queremos resolver el siguiente problema de optimización estocástica

g(\theta ^{*})=\min _{\theta \in \Theta }\operatorname {E} [Q(\theta ,X)],

{\textstyle g(\theta )=\operatorname {E} [Q(\theta ,X)]}

\theta ^{*}

\nabla g(\theta )=0

Q(\theta ,X)

\theta

X

\nabla g(\theta )

(\theta _{n})_{n\geq 0}

\theta ^{*}

(X_{n})_{n\geq 0}

X_{n}

\theta _{n}

\nabla g(\theta _{n})

X_{n}

\operatorname {E} [H(\theta ,X)|\theta =\theta _{n}]=\nabla g(\theta _{n}).

Aquí hay un estimador insesgado de . Si depende de , en general no existe una forma natural de generar un resultado aleatorio que sea un estimador insesgado del gradiente. En algunos casos especiales, cuando se aplican los métodos IPA o de razón de verosimilitud, se puede obtener un estimador de gradiente insesgado . Si se ve como un proceso aleatorio subyacente "fundamental" que se genera independientemente de y bajo algunas condiciones de regularización para operaciones de intercambio integral-derivada, de modo que , entonces da la estimación insesgada del gradiente fundamental. Sin embargo, para algunas aplicaciones tenemos que usar métodos de diferencias finitas en los que tiene una expectativa condicional cercana pero no exactamente igual. $H(\theta ,X)$ $\nabla g(\theta )$ $X$ $\theta$ $H(\theta ,X)$ $H(\theta ,X)$ $X$ $\theta$ $\operatorname {E} {\Big [}{\frac {\partial }{\partial \theta }}Q(\theta ,X){\Big ]}=\nabla g(\theta )$ $H(\theta ,X)={\frac {\partial }{\partial \theta }}Q(\theta ,X)$ $H(\theta ,X)$ $\nabla g(\theta )$

Luego definimos una recursividad de manera análoga al Método de Newton en el algoritmo determinista:

\theta _{n+1}=\theta _{n}-\varepsilon _{n}H(\theta _{n},X_{n+1}).

Convergencia del algoritmo

El siguiente resultado proporciona condiciones suficientes para que el algoritmo converja: ^[18] $\theta _{n}$

C1) $\varepsilon _{n}\geq 0,\forall \;n\geq 0.$

C2) $\sum _{n=0}^{\infty }\varepsilon _{n}=\infty$

C3) $\sum _{n=0}^{\infty }\varepsilon _{n}^{2}<\infty$

C4) $|X_{n}|\leq B,{\text{ for a fixed bound }}B.$

C5) $g(\theta ){\text{ is strictly convex, i.e.}}$

\inf _{\delta \leq |\theta -\theta ^{*}|\leq 1/\delta }\langle \theta -\theta ^{*},\nabla g(\theta )\rangle >0,{\text{ for every }}0<\delta <1.

Luego converge a casi con seguridad. $\theta _{n}$ $\theta ^{*}$

A continuación se ofrecen algunas explicaciones intuitivas sobre estas condiciones. Supongamos que se trata de variables aleatorias uniformemente acotadas. Si C2) no se cumple, es decir , entonces $H(\theta _{n},X_{n+1})$ $\sum _{n=0}^{\infty }\varepsilon _{n}<\infty$

\theta _{n}-\theta _{0}=-\sum _{i=0}^{n-1}\varepsilon _{i}H(\theta _{i},X_{i+1})

\theta ^{*}

\theta _{0}

\theta ^{*}

\theta _{n}

\theta ^{*}

\theta _{n+1}-\theta _{n}=-\varepsilon _{n}H(\theta _{n},X_{n+1})\rightarrow 0,{\text{ as }}n\rightarrow \infty .

\varepsilon _{n}\downarrow 0

\varepsilon _{n}=1/n

g(\theta )

Ejemplo (donde el método del gradiente estocástico es apropiado) ^[8]

Supongamos que , donde es diferenciable y es una variable aleatoria independiente de . Entonces depende de la media de y el método del gradiente estocástico sería apropiado en este problema. Podemos elegir $Q(\theta ,X)=f(\theta )+\theta ^{T}X$ $f$ $X\in \mathbb {R} ^{p}$ $\theta$ $g(\theta )=\operatorname {E} [Q(\theta ,X)]=f(\theta )+\theta ^{T}\operatorname {E} X$ $X$ $H(\theta ,X)={\frac {\partial }{\partial \theta }}Q(\theta ,X)={\frac {\partial }{\partial \theta }}f(\theta )+X.$

Algoritmo de Kiefer-Wolfowitz

El algoritmo de Kiefer-Wolfowitz fue introducido en 1952 por Jacob Wolfowitz y Jack Kiefer , ^[19] y fue motivado por la publicación del algoritmo de Robbins-Monro. Sin embargo, el algoritmo se presentó como un método que estimaría estocásticamente el máximo de una función.

Sea una función que tenga un máximo en el punto . Se supone que se desconoce; sin embargo, se pueden hacer ciertas observaciones en cualquier momento . La estructura del algoritmo sigue un método similar a un gradiente, y las iteraciones se generan como $M(x)$ $\theta$ $M(x)$ $N(x)$ $\operatorname {E} [N(x)]=M(x)$ $x$

x_{n+1}=x_{n}+a_{n}\cdot \left({\frac {N(x_{n}+c_{n})-N(x_{n}-c_{n})}{2c_{n}}}\right)

donde y son independientes. En cada paso, el gradiente de se aproxima de manera similar a un método de diferencia central con . Entonces, la secuencia especifica la secuencia de anchos de diferencias finitas utilizadas para la aproximación del gradiente, mientras que la secuencia especifica una secuencia de tamaños de pasos positivos tomados en esa dirección. $N(x_{n}+c_{n})$ $N(x_{n}-c_{n})$ $M(x)$ $h=2c_{n}$ $\{c_{n}\}$ $\{a_{n}\}$

Kiefer y Wolfowitz demostraron que, si se cumplen ciertas condiciones de regularidad, entonces convergerá con una probabilidad como , y posteriormente Blum ^[4] en 1954 demostró que converge con casi seguridad, siempre que: $M(x)$ $x_{n}$ $\theta$ $n\to \infty$ $x_{n}$ $\theta$

$\operatorname {Var} (N(x))\leq S<\infty$ para todos . $x$
La función tiene un único punto de máximo (mínimo) y es fuertemente cóncava (convexa) $M(x)$
- El algoritmo se presentó por primera vez con el requisito de que la función mantuviera una fuerte convexidad (concavidad) global en todo el espacio factible. Dado que esta condición es demasiado restrictiva para imponerla en todo el dominio, Kiefer y Wolfowitz propusieron que es suficiente imponer la condición en un conjunto compacto que se sabe que incluye la solución óptima. $M(\cdot )$ $C_{0}\subset \mathbb {R} ^{d}$
La función satisface las condiciones de regularidad de la siguiente manera: $M(x)$
- Existe y tal que $\beta >0$ $B>0$ $|x'-\theta |+|x''-\theta |<\beta \quad \Longrightarrow \quad |M(x')-M(x'')|<B|x'-x''|$
- Existe y tal que $\rho >0$ $R>0$ $|x'-x''|<\rho \quad \Longrightarrow \quad |M(x')-M(x'')|<R$
- Para cada uno , existe alguno tal que $\delta >0$ $\pi (\delta )>0$ $|z-\theta |>\delta \quad \Longrightarrow \quad \inf _{\delta /2>\varepsilon >0}{\frac {|M(z+\varepsilon )-M(z-\varepsilon )|}{\varepsilon }}>\pi (\delta )$
Las secuencias seleccionadas y deben ser secuencias infinitas de números positivos tales que $\{a_{n}\}$ $\{c_{n}\}$
- $\quad c_{n}\rightarrow 0\quad {\text{as}}\quad n\to \infty$
- $\sum _{n=0}^{\infty }a_{n}=\infty$
- $\sum _{n=0}^{\infty }a_{n}c_{n}<\infty$
- $\sum _{n=0}^{\infty }a_{n}^{2}c_{n}^{-2}<\infty$

Una elección adecuada de secuencias, recomendada por Kiefer y Wolfowitz, sería y . $a_{n}=1/n$ $c_{n}=n^{-1/3}$

Desarrollos posteriores y cuestiones importantes

El algoritmo de Kiefer Wolfowitz requiere que para cada cálculo de gradiente, se deben simular al menos valores de parámetros diferentes para cada iteración del algoritmo, donde es la dimensión del espacio de búsqueda. Esto significa que cuando es grande, el algoritmo de Kiefer-Wolfowitz requerirá un esfuerzo computacional sustancial por iteración, lo que conducirá a una convergencia lenta. $d+1$ $d$ $d$
1. Para abordar este problema, Spall propuso el uso de perturbaciones simultáneas para estimar el gradiente. Este método requeriría sólo dos simulaciones por iteración, independientemente de la dimensión . ^[20] $d$
En las condiciones requeridas para la convergencia, puede ser difícil encontrar la capacidad de especificar un conjunto compacto predeterminado que cumpla con una convexidad (o concavidad) fuerte y contenga la solución única. Con respecto a las aplicaciones del mundo real, si el dominio es bastante grande, estas suposiciones pueden ser bastante restrictivas y poco realistas.

Nuevos desarrollos

Ha surgido una extensa literatura teórica en torno a estos algoritmos, relativa a las condiciones de convergencia, tasas de convergencia, generalizaciones multivariadas y de otro tipo, elección adecuada del tamaño de paso, posibles modelos de ruido, etc. ^[21]^[22] Estos métodos también se aplican en la teoría del control , en cuyo caso la función desconocida que deseamos optimizar o encontrar el cero puede variar en el tiempo. En este caso, el tamaño del paso no debe converger a cero sino que debe elegirse de manera que siga la función. ^[21]^{, 2ª ed., capítulo 3} $a_{n}$

C. Johan Masreliez y R. Douglas Martin fueron los primeros en aplicar la aproximación estocástica a la estimación robusta . ^[23]

La principal herramienta para analizar algoritmos de aproximaciones estocásticas (incluidos los algoritmos de Robbins-Monro y Kiefer-Wolfowitz) es un teorema de Aryeh Dvoretzky publicado en 1956. ^[24]

Ver también

Referencias

^ Toulis, Panos; Airoldi, Edoardo (2015). "Estrategias de estimación escalables basadas en aproximaciones estocásticas: resultados clásicos y nuevos conocimientos". Estadística y Computación . 25 (4): 781–795. doi :10.1007/s11222-015-9560-y. PMC 4484776 . PMID 26139959.
^ Le Ny, Jerome. "Introducción a los algoritmos de aproximación estocástica" (PDF) . Politécnica de Montreal . Notas didácticas . Consultado el 16 de noviembre de 2016 .
^ ab Robbins, H .; Monro, S. (1951). "Un método de aproximación estocástica". Los anales de la estadística matemática . 22 (3): 400. doi : 10.1214/aoms/1177729586 .
^ ab Blum, Julius R. (1 de junio de 1954). "Métodos de aproximación que convergen con la probabilidad uno". Los anales de la estadística matemática . 25 (2): 382–386. doi : 10.1214/aoms/1177728794 . ISSN 0003-4851.
^ Sacos, J. (1958). "Distribución asintótica de procedimientos de aproximación estocástica". Los anales de la estadística matemática . 29 (2): 373–405. doi : 10.1214/aoms/1177706619 . JSTOR 2237335.
^ ab Nemirovski, A .; Juditsky, A.; Lan, G.; Shapiro, A. (2009). "Enfoque robusto de aproximación estocástica a la programación estocástica". Revista SIAM sobre Optimización . 19 (4): 1574. doi : 10.1137/070704277.
^ Complejidad del problema y eficiencia del método en la optimización, A. Nemirovski y D. Yudin, Wiley -Intersci. Ser. Matemáticas discretas 15 John Wiley Nueva York (1983).
^ ab Introducción a la búsqueda y optimización estocástica: estimación, simulación y control, JC Spall, John Wiley Hoboken, Nueva Jersey , (2003).
^ Chung, KL (1 de septiembre de 1954). "Sobre un método de aproximación estocástica". Los anales de la estadística matemática . 25 (3): 463–483. doi : 10.1214/aoms/1177728716 . ISSN 0003-4851.
^ Fabián, Václav (1 de agosto de 1968). "Sobre la normalidad asintótica en la aproximación estocástica". Los anales de la estadística matemática . 39 (4): 1327-1332. doi : 10.1214/aoms/1177698258 . ISSN 0003-4851.
^ Lai, TL; Robbins, Herbert (1 de noviembre de 1979). "Diseño adaptativo y aproximación estocástica". Los anales de la estadística . 7 (6): 1196-1221. doi : 10.1214/aos/1176344840 . ISSN 0090-5364.
^ Lai, Tze Leung; Robbins, Herbert (1 de septiembre de 1981). "Consistencia y eficiencia asintótica de estimaciones de pendientes en esquemas de aproximación estocástica". Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete . 56 (3): 329–360. doi : 10.1007/BF00536178 . ISSN 0044-3719. S2CID 122109044.
^ Polyak, BT (1991). "Nuevos procedimientos de tipo de aproximación estocástica. (En ruso)". Automatización y Control Remoto . 7 (7).
^ Ruppert, David (1988). Estimadores eficientes de un proceso de Robbins-Monro que converge lentamente (Informe técnico 781). Escuela de Investigación de Operaciones e Ingeniería Industrial de la Universidad de Cornell.
^ ab Polyak, BT; Juditsky, AB (1992). "Aceleración de la aproximación estocástica mediante promediación". Revista SIAM de Control y Optimización . 30 (4): 838. doi : 10.1137/0330046.
^ Sobre la convergencia de Cezari del método de descenso más pronunciado para aproximar puntos silla de funciones cóncavas-convexas, A. Nemirovski y D. Yudin, Dokl. Akád. Nauk SSR 2939 , (1978 (ruso)), Matemáticas soviéticas. Dokl. 19 (1978 (inglés)).
^ Kushner, Harold; George Yin, G. (17 de julio de 2003). Aproximación estocástica y algoritmos recursivos y | Harold Kushner | Saltador. www.springer.com. ISBN 9780387008943. Consultado el 16 de mayo de 2016 .
^ Bouleau, N.; Lepingle, D. (1994). Métodos Numéricos para Procesos Estocásticos. Nueva York: John Wiley. ISBN 9780471546412.
^ Kiefer, J.; Wolfowitz, J. (1952). "Estimación estocástica del máximo de una función de regresión". Los anales de la estadística matemática . 23 (3): 462. doi : 10.1214/aoms/1177729392 .
^ Spall, JC (2000). "Aproximación estocástica adaptativa por el método de perturbación simultánea". Transacciones IEEE sobre control automático . 45 (10): 1839–1853. doi :10.1109/TAC.2000.880982.
^ ab Kushner, HJ ; Yin, GG (1997). Algoritmos y aplicaciones de aproximación estocástica . doi :10.1007/978-1-4899-2696-8. ISBN 978-1-4899-2698-2.
^ Aproximación estocástica y estimación recursiva , Mikhail Borisovich Nevel'son y Rafail Zalmanovich Has'minskiĭ, traducido por el Programa de Traducciones Científicas de Israel y B. Silver, Providence, RI: American Mathematical Society, 1973, 1976. ISBN 0-8218-1597- 0 .
^ Martín, R.; Masreliez, C. (1975). "Estimación robusta mediante aproximación estocástica". Transacciones IEEE sobre teoría de la información . 21 (3): 263. doi :10.1109/TIT.1975.1055386.
^ Dvoretzky, Aryeh (1956). "Sobre aproximación estocástica". En Neyman, Jerzy (ed.). Actas del tercer simposio de Berkeley sobre estadística matemática y probabilidad, 1954-1955, vol. I . Prensa de la Universidad de California. págs. 39–55. SEÑOR 0084911.