Muestreo de transformación inversa

El muestreo por transformada inversa (también conocido como muestreo por inversión , transformación integral de probabilidad inversa , método de transformación inversa , transformada de Smirnov o regla de oro ^[1] ) es un método básico para el muestreo de números pseudoaleatorios , es decir, para generar números de muestra en aleatorio de cualquier distribución de probabilidad dada su función de distribución acumulativa .

El muestreo de transformación inversa toma muestras uniformes de un número entre 0 y 1, interpretadas como una probabilidad, y luego devuelve el número más pequeño para la función de distribución acumulativa de una variable aleatoria. Por ejemplo, imagine que es la distribución normal estándar con media cero y desviación estándar uno. La siguiente tabla muestra muestras tomadas de la distribución uniforme y su representación en la distribución normal estándar. $u$ $x\in \mathbb {R}$ $F(x)\geq u$ $F$ $F$

Elegimos aleatoriamente una proporción del área bajo la curva y devolvemos el número en el dominio de manera que exactamente esta proporción del área ocurra a la izquierda de ese número. Intuitivamente, es poco probable que elijamos un número en el otro extremo de las colas porque hay muy poca área en ellas que requeriría elegir un número muy cercano a cero o uno.

Computacionalmente, este método implica calcular la función cuantil de la distribución; en otras palabras, calcular la función de distribución acumulativa (CDF) de la distribución (que asigna un número en el dominio a una probabilidad entre 0 y 1) y luego invertir esa función. Ésta es la fuente del término "inversa" o "inversión" en la mayoría de los nombres de este método. Tenga en cuenta que para una distribución discreta , calcular la CDF en general no es demasiado difícil: simplemente sumamos las probabilidades individuales para los distintos puntos de la distribución. Sin embargo, para una distribución continua , necesitamos integrar la función de densidad de probabilidad (PDF) de la distribución, lo cual es imposible de hacer analíticamente para la mayoría de las distribuciones (incluida la distribución normal ). Como resultado, este método puede ser computacionalmente ineficiente para muchas distribuciones y se prefieren otros métodos; sin embargo, es un método útil para construir muestreadores de aplicación más general, como los basados en el muestreo de rechazo .

Para la distribución normal , la falta de una expresión analítica para la función cuantil correspondiente significa que se pueden preferir computacionalmente otros métodos (por ejemplo, la transformada de Box-Muller ). A menudo ocurre que, incluso para distribuciones simples, el método de muestreo por transformada inversa se puede mejorar: ^[2] consulte, por ejemplo, el algoritmo del zigurat y el muestreo de rechazo . Por otro lado, es posible aproximar la función cuantil de la distribución normal con extrema precisión utilizando polinomios de grado moderado y, de hecho, el método para hacerlo es lo suficientemente rápido como para que el muestreo por inversión sea ahora el método predeterminado para el muestreo de una distribución normal. en el paquete estadístico R . ^[3]

Declaración formal

Para cualquier variable aleatoria , la variable aleatoria tiene la misma distribución que , donde es la inversa generalizada de la función de distribución acumulativa de y es uniforme en . ^[4] $X\in \mathbb {R}$ $F_{X}^{-1}(U)$ $X$ $F_{X}^{-1}$ $F_{X}$ $X$ $U$ $[0,1]$

Para variables aleatorias continuas , la transformada integral de probabilidad inversa es de hecho la inversa de la transformada integral de probabilidad , que establece que para una variable aleatoria continua con función de distribución acumulativa , la variable aleatoria es uniforme . $X$ $F_{X}$ $U=F_{X}(X)$ $[0,1]$

Gráfica de la técnica de inversión de a . En la parte inferior derecha vemos la función regular y en la parte superior izquierda su inversión. $x$ $F(x)$

Intuición

Desde , queremos generar con CDF. Asumimos que es una función continua y estrictamente creciente, lo que proporciona una buena intuición. $U\sim \mathrm {Unif} [0,1]$ $X$ $F_{X}(x).$ $F_{X}(x)$

Queremos ver si podemos encontrar alguna transformación estrictamente monótona , tal que . Tendremos $T:[0,1]\mapsto \mathbb {R}$ $T(U){\overset {d}{=}}X$

$F_{X}(x)=\Pr(X\leq x)=\Pr(T(U)\leq x)=\Pr(U\leq T^{-1}(x))=T ^{-1}(x),{\text{ para }}x\in \mathbb {R} ,$

donde el último paso usó eso cuando es uniforme . $\Pr(U\leq y)=y$ $U$ $[0,1]$

Entonces tenemos que ser la función inversa de , o, equivalentemente $F_{X}$ $T$ $T(u)=F_{X}^{-1}(u),u\in [0,1].$

Por lo tanto, podemos generar a partir de $X$ $F_{X}^{-1}(U).$

El método

Una animación de cómo el muestreo por transformación inversa genera valores aleatorios distribuidos normalmente a partir de valores aleatorios distribuidos uniformemente

El problema que resuelve el método de muestreo por transformada inversa es el siguiente:

Sea una variable aleatoria cuya distribución puede describirse mediante la función de distribución acumulativa . $X$ $F_{X}$
Queremos generar valores de los cuales se distribuyen según esta distribución. $X$

El método de muestreo por transformación inversa funciona de la siguiente manera:

Genere un número aleatorio a partir de la distribución uniforme estándar en el intervalo , es decir, de $u$ $[0,1]$ $U\sim \mathrm {Unif} [0,1].$
Encuentre el inverso generalizado de la CDF deseada, es decir . $F_{X}^{-1}(u)$
Calcular . La variable aleatoria calculada tiene distribución y, por tanto, la misma ley que . $X'(u)=F_{X}^{-1}(u)$ $X'(U)$ $F_{X}$ $X$

Expresado de otra manera, dada una función de distribución acumulativa y una variable uniforme , la variable aleatoria tiene la distribución . ^[4] $F_{X}$ $U\en [0,1]$ $X=F_{X}^{-1}(U)$ $F_{X}$

En el caso continuo, se puede dar un tratamiento a dichas funciones inversas como objetos que satisfacen ecuaciones diferenciales. ^[5] Algunas de estas ecuaciones diferenciales admiten soluciones explícitas en series de potencias , a pesar de su no linealidad. ^[6]

Ejemplos

Como ejemplo, supongamos que tenemos una variable aleatoria y una función de distribución acumulativa. $U\sim \mathrm {Unif} (0,1)$

{\begin{aligned}F(x)=1-\exp(-{\sqrt {x}})\end{aligned}}

Para realizar una inversión queremos resolver

F(F^{-1}(u))=u

{\begin{aligned}F(F^{-1}(u))&=u\\1-\exp \left(-{\sqrt {F^{-1}(u)}}\ derecha)&=u\\F^{-1}(u)&=(-\log(1-u))^{2}\\&=(\log(1-u))^{2}\ fin {alineado}}

A partir de aquí realizaríamos los pasos uno, dos y tres.

Como otro ejemplo, usamos la distribución exponencial con para x ≥ 0 (y 0 en caso contrario). Resolviendo y=F(x) obtenemos la función inversa $F_{X}(x)=1-e^{-\lambda x}$

x=F^{-1}(y)=-{\frac {1}{\lambda }}\ln(1-y).

Significa que si extraemos algo de a y calculamos, esto tiene una distribución exponencial.

y_{0}

U\sim \mathrm {Unif} (0,1)

x_{0}=F_{X}^{-1}(y_{0})=-{\frac {1}{\lambda }}\ln(1-y_{0}),

x_{0}

La idea se ilustra en el siguiente gráfico:

Tenga en cuenta que la distribución no cambia si comenzamos con 1-y en lugar de y. Por lo tanto, para fines computacionales, es suficiente generar números aleatorios y en [0, 1] y luego simplemente calcular

x=F^{-1}(y)=-{\frac {1}{\lambda }}\ln(y).

Prueba de corrección

Sea una función de distribución acumulativa y sea su función inversa generalizada (usando el mínimo porque las CDF son débilmente monótonas y continuas por la derecha ): ^[7] $F$ $F^{-1}$

F^{-1}(u)=\inf \;\{x\mid F(x)\geq u\}\qquad (0<u<1).

Reclamación: Si es una variable aleatoria uniforme , entonces tiene como CDF. $U$ $[0,1]$ $F^{-1}(U)$ $F$

Prueba:

{\begin{alineado}&\Pr(F^{-1}(U)\leq x)\\&{}=\Pr(U\leq F(x))\quad &(F{\ text{ es continuo por la derecha, por lo que }}\{u:F^{-1}(u)\leq x\}=\{u:u\leq F(x)\})\\&{}=F (x)\quad &({\text{porque }}\Pr(U\leq u)=u,{\text{ cuando }}U{\text{ es uniforme en }}[0,1])\\ \end{alineado}}

Distribución truncada

El muestreo por transformación inversa se puede extender simplemente a casos de distribuciones truncadas en el intervalo sin el costo del muestreo de rechazo: se puede seguir el mismo algoritmo, pero en lugar de generar un número aleatorio uniformemente distribuido entre 0 y 1, generar uniformemente distribuido entre y , y luego toma de nuevo . $(a,b]$ $u$ $u$ $F(a)$ $F(b)$ $F^{-1}(u)$

Reducción del número de inversiones.

Para obtener una gran cantidad de muestras, es necesario realizar el mismo número de inversiones de la distribución. Una forma posible de reducir el número de inversiones y al mismo tiempo obtener una gran cantidad de muestras es la aplicación del llamado muestreador de Monte Carlo de colocación estocástica (muestreador SCMC) dentro de un marco de expansión de caos polinomial . Esto nos permite generar cualquier número de muestras de Monte Carlo con solo unas pocas inversiones de la distribución original con muestras independientes de una variable para la cual las inversiones están disponibles analíticamente, por ejemplo, la variable normal estándar. ^[8]

Implementaciones de software

Existen implementaciones de software disponibles para aplicar el método de muestreo inverso mediante el uso de aproximaciones numéricas del inverso en el caso de que no esté disponible en forma cerrada. Por ejemplo, se puede calcular una aproximación de la inversa si el usuario proporciona alguna información sobre las distribuciones, como el PDF ^[9] o el CDF.

Biblioteca C UNU.RAN ^[10]
Biblioteca R Runuran ^[11]
Muestreo de subpaquetes de Python en scipy.stats ^[12]^[13]

Ver también

Transformada integral de probabilidad
Cópula , definida mediante transformada integral de probabilidad.
Función cuantil , para la construcción explícita de CDF inversas.
Función de distribución inversa para una definición matemática precisa de distribuciones con componentes discretos.

Referencias

^ Universidad Aalto, N. Hyvönen, Métodos computacionales en problemas inversos. Duodécima conferencia https://noppa.tkk.fi/noppa/kurssi/mat-1.3626/luennot/Mat-1_3626_lecture12.pdf ^{[ enlace muerto permanente ]}
^ Luc Devroye (1986). Generación de variables aleatorias no uniformes (PDF) . Nueva York: Springer-Verlag. Archivado desde el original (PDF) el 18 de agosto de 2014 . Consultado el 12 de abril de 2012 .
^ "R: generación de números aleatorios".
^ ab McNeil, Alexander J.; Frey, Rüdiger; Embrechts, Paul (2005). Gestión cuantitativa de riesgos . Serie Princeton en Finanzas. Princeton University Press, Princeton, Nueva Jersey. pag. 186.ISBN 0-691-12255-5.
^ Steinbrecher, György; Shaw, William T. (19 de marzo de 2008). "Mecánica de cuantiles". Revista Europea de Matemáticas Aplicadas . 19 (2). doi :10.1017/S0956792508007341. S2CID 6899308.
^ Arridge, Simón; Maass, Peter; Öktem, Ozan; Schönlieb, Carola-Bibiane (2019). "Resolver problemas inversos utilizando modelos basados en datos". Acta Numérica . 28 : 1–174. doi : 10.1017/S0962492919000059 . ISSN 0962-4929. S2CID 197480023.
^ Luc Devroye (1986). "Sección 2.2. Inversión por solución numérica de F(X) = U" (PDF) . Generación de variables aleatorias no uniformes . Nueva York: Springer-Verlag.
^ LA Grzelak, JAS Witteveen, M. Suarez y CW Oosterlee. El muestreador de Monte Carlo de colocación estocástica: muestreo altamente eficiente a partir de distribuciones "caras". https://ssrn.com/abstract=2529691
^ Derflinger, Gerhard; Hörmann, Wolfgang; Leydold, Josef (2010). "Generación de variables aleatorias por inversión numérica cuando sólo se conoce la densidad". Transacciones ACM sobre modelado y simulación por computadora . 20 (4). doi : 10.1145/945511.945517.
^ https://statmath.wu.ac.at/unuran/index.html
^ https://cran.r-project.org/package=Runuran
^ https://docs.scipy.org/doc/scipy/reference/stats.sampling.html
^ Baumgarten, Christoph; Patel, Tirth (2022). "Generación automática de variables aleatorias en Python". Actas de la 21ª Conferencia Python in Science . doi :10.25080/majora-212e5952-007.