Muestreo por transformada inversa

El muestreo por transformada inversa (también conocido como muestreo de inversión , transformada integral de probabilidad inversa , método de transformación inversa o transformada de Smirnov ) es un método básico para el muestreo de números pseudoaleatorios , es decir, para generar números de muestra al azar a partir de cualquier distribución de probabilidad dada su función de distribución acumulativa .

El muestreo por transformación inversa toma muestras uniformes de un número entre 0 y 1, interpretado como probabilidad, y luego devuelve el número más pequeño que corresponde a la función de distribución acumulativa de una variable aleatoria. Por ejemplo, imagine que se trata de una distribución normal estándar con media cero y desviación estándar uno. La siguiente tabla muestra muestras tomadas de la distribución uniforme y su representación en la distribución normal estándar. ${\estilo de visualización u}$ $x\in \mathbb {R}$ $F(x)\geq u$ ${\estilo de visualización F}$ ${\estilo de visualización F}$

Elegimos aleatoriamente una proporción del área bajo la curva y devolvemos el número en el dominio de manera que exactamente esa proporción del área se encuentre a la izquierda de ese número. Intuitivamente, es poco probable que elijamos un número en el extremo más alejado de las colas porque hay muy poca área en ellas que requeriría elegir un número muy cercano a cero o uno.

Computacionalmente, este método implica calcular la función cuantil de la distribución; en otras palabras, calcular la función de distribución acumulativa (CDF) de la distribución (que asigna un número en el dominio a una probabilidad entre 0 y 1) y luego invertir esa función. Esta es la fuente del término "inversa" o "inversión" en la mayoría de los nombres de este método. Tenga en cuenta que para una distribución discreta , calcular la CDF no es en general demasiado difícil: simplemente sumamos las probabilidades individuales para los diversos puntos de la distribución. Sin embargo, para una distribución continua , necesitamos integrar la función de densidad de probabilidad (PDF) de la distribución, lo que es imposible de hacer analíticamente para la mayoría de las distribuciones (incluida la distribución normal ). Como resultado, este método puede ser computacionalmente ineficiente para muchas distribuciones y se prefieren otros métodos; sin embargo, es un método útil para construir muestreadores de aplicación más general, como los basados en el muestreo de rechazo .

Para la distribución normal , la falta de una expresión analítica para la función cuantil correspondiente significa que otros métodos (por ejemplo, la transformada de Box-Muller ) pueden ser preferidos computacionalmente. Suele suceder que, incluso para distribuciones simples, el método de muestreo de transformada inversa se puede mejorar en: ^[1] véase, por ejemplo, el algoritmo ziggurat y el muestreo de rechazo . Por otro lado, es posible aproximar la función cuantil de la distribución normal con extrema precisión utilizando polinomios de grado moderado y, de hecho, el método para hacerlo es lo suficientemente rápido como para que el muestreo de inversión sea ahora el método predeterminado para el muestreo de una distribución normal en el paquete estadístico R. ^[2 ]

Declaración formal

Para cualquier variable aleatoria , la variable aleatoria tiene la misma distribución que , donde es la inversa generalizada de la función de distribución acumulativa de y es uniforme en . ^[3] $X\in \mathbb {R}$ $Estilo de visualización F_{X}^{-1}(U)}$ ${\estilo de visualización X}$ $Estilo de visualización F_{X}^{-1}}$ $Estilo de visualización F_ {X}}$ ${\estilo de visualización X}$ ${\estilo de visualización U}$ ${\estilo de visualización [0,1]}$

Para las variables aleatorias continuas , la transformada integral de probabilidad inversa es de hecho la inversa de la transformada integral de probabilidad , que establece que para una variable aleatoria continua con función de distribución acumulativa , la variable aleatoria es uniforme en . ${\estilo de visualización X}$ $Estilo de visualización F_ {X}}$ $Estilo de visualización U=F_{X}(X)}$ ${\estilo de visualización [0,1]}$

Gráfica de la técnica de inversión de a . En la parte inferior derecha vemos la función regular y en la parte superior izquierda su inversión. ${\estilo de visualización x}$ ${\estilo de visualización F(x)}$

Intuición

A partir de , queremos generar con CDF Suponemos que es una función continua, estrictamente creciente, lo que proporciona una buena intuición. $U\sim \mathrm {Unif} [0,1]$ ${\estilo de visualización X}$ $estilo de visualización F_{X}(x).}$ $Estilo de visualización F_{X}(x)}$

Queremos ver si podemos encontrar alguna transformación estrictamente monótona , tal que . Tendremos $T:[0,1]\mapsto \mathbb {R}$ $T(U){\overset {d}{=}}X$

$F_{X}(x)=\Pr(X\leq x)=\Pr(T(U)\leq x)=\Pr(U\leq T^{-1}(x))=T^{-1}(x),{\text{ para }}x\in \mathbb {R} ,$

donde el último paso utilizado es que cuando es uniforme en . $\Pr(U\leq y)=y$ ${\estilo de visualización U}$ ${\estilo de visualización [0,1]}$

Así que llegamos a ser la función inversa de , o, equivalentemente $Estilo de visualización F_ {X}}$ ${\estilo de visualización T}$ $T(u)=F_{X}^{-1}(u),u\in [0,1].$

Por lo tanto, podemos generar a partir de ${\estilo de visualización X}$ $estilo_de_visualización F_{X}^{-1}(U).}$

El método

Una animación de cómo el muestreo por transformada inversa genera valores aleatorios distribuidos normalmente a partir de valores aleatorios distribuidos uniformemente

El problema que resuelve el método de muestreo por transformada inversa es el siguiente:

Sea una variable aleatoria cuya distribución puede describirse mediante la función de distribución acumulativa . ${\estilo de visualización X}$ $Estilo de visualización F_ {X}}$
Queremos generar valores que se distribuyan según esta distribución. ${\estilo de visualización X}$

El método de muestreo por transformada inversa funciona de la siguiente manera:

Generar un número aleatorio a partir de la distribución uniforme estándar en el intervalo , es decir, de ${\estilo de visualización u}$ ${\estilo de visualización [0,1]}$ $U\sim \mathrm {Unif} [0,1].$
Encuentre la inversa generalizada de la CDF deseada, es decir . $Estilo de visualización F_{X}^{-1}(u)}$
Calcular . La variable aleatoria calculada tiene distribución y, por lo tanto, la misma ley que . $X'(u)=F_{X}^{-1}(u)$ $X'(U)$ $Estilo de visualización F_ {X}}$ ${\estilo de visualización X}$

Expresado de otra manera, dada una función de distribución acumulativa y una variable uniforme , la variable aleatoria tiene la distribución . ^[3] $Estilo de visualización F_ {X}}$ $U\en [0,1]$ $X=F_{X}^{-1}(U)$ $Estilo de visualización F_ {X}}$

En el caso continuo, se puede dar un tratamiento de dichas funciones inversas como objetos que satisfacen ecuaciones diferenciales. ^[4] Algunas de estas ecuaciones diferenciales admiten soluciones explícitas en series de potencias , a pesar de su no linealidad. ^[5]

Ejemplos

Como ejemplo, supongamos que tenemos una variable aleatoria y una función de distribución acumulativa $U\sim \mathrm {Unif} (0,1)$

{\begin{aligned}F(x)=1-\exp(-{\sqrt {x}})\end{aligned}}

Para realizar una inversión queremos resolver

F(F^{-1}(u))=u

{\begin{aligned}F(F^{-1}(u))&=u\\1-\exp \left(-{\sqrt {F^{-1}(u)}}\right)&=u\\F^{-1}(u)&=(-\log(1-u))^{2}\\&=(\log(1-u))^{2}\end{aligned}}

Desde aquí realizaríamos los pasos uno, dos y tres.

Como otro ejemplo, utilizamos la distribución exponencial con para x ≥ 0 (y 0 en caso contrario). Al resolver y=F(x) obtenemos la función inversa $F_{X}(x)=1-e^{-\lambda x}$

x=F^{-1}(y)=-{\frac {1}{\lambda }}\ln(1-y).

Esto significa que si extraemos algo de a y calculamos Esto tiene distribución exponencial.

y_{0}

U\sim \mathrm {Unif} (0,1)

x_{0}=F_{X}^{-1}(y_{0})=-{\frac {1}{\lambda }}\ln(1-y_{0}),

x_{0}

La idea se ilustra en el siguiente gráfico:

Nótese que la distribución no cambia si empezamos con 1-y en lugar de y. Por lo tanto, para fines computacionales, es suficiente generar números aleatorios y en [0, 1] y luego simplemente calcular

x=F^{-1}(y)=-{\frac {1}{\lambda }}\ln(y).

Prueba de corrección

Sea una función de distribución acumulativa , y sea su función inversa generalizada (usando el ínfimo porque las CDF son débilmente monótonas y continuas por la derecha ): ^[6] $F$ $F^{-1}$

F^{-1}(u)=\inf \;\{x\mid F(x)\geq u\}\qquad (0<u<1).

Afirmación: Si es una variable aleatoria uniforme en entonces tiene como su CDF. $U$ $[0,1]$ $F^{-1}(U)$ $F$

Prueba:

{\begin{aligned}&\Pr(F^{-1}(U)\leq x)\\&{}=\Pr(U\leq F(x))\quad &(F{\text{ is right-continuous, so }}\{u:F^{-1}(u)\leq x\}=\{u:u\leq F(x)\})\\&{}=F(x)\quad &({\text{because }}\Pr(U\leq u)=u,{\text{ when }}U{\text{ is uniform on }}[0,1])\\\end{aligned}}

Distribución truncada

El muestreo por transformada inversa se puede extender simplemente a casos de distribuciones truncadas en el intervalo sin el costo del muestreo de rechazo: se puede seguir el mismo algoritmo, pero en lugar de generar un número aleatorio distribuido uniformemente entre 0 y 1, generar uniformemente distribuido entre y , y luego tomar nuevamente . $(a,b]$ $u$ $u$ $F(a)$ $F(b)$ $F^{-1}(u)$

Reducción del número de inversiones

Para obtener una gran cantidad de muestras, es necesario realizar la misma cantidad de inversiones de la distribución. Una forma posible de reducir la cantidad de inversiones mientras se obtiene una gran cantidad de muestras es la aplicación del llamado muestreador de Monte Carlo de colocación estocástica (muestreador SCMC) dentro de un marco de expansión de caos polinomial . Esto nos permite generar cualquier cantidad de muestras de Monte Carlo con solo unas pocas inversiones de la distribución original con muestras independientes de una variable para la cual las inversiones están analíticamente disponibles, por ejemplo, la variable normal estándar. ^[7]

Implementaciones de software

Existen implementaciones de software disponibles para aplicar el método de muestreo inverso mediante aproximaciones numéricas de la inversa en caso de que no esté disponible en forma cerrada. Por ejemplo, se puede calcular una aproximación de la inversa si el usuario proporciona alguna información sobre las distribuciones, como la PDF ^[8] o la CDF.

Biblioteca C UNU.RAN ^[9]
Biblioteca R Runuran ^[10]
Muestreo de subpaquetes de Python en scipy.stats ^[11]^[12]

Véase también

Transformada integral de probabilidad
Cópula , definida mediante la transformada integral de probabilidad.
Función cuantil , para la construcción explícita de CDF inversas.
Función de distribución inversa para una definición matemática precisa de distribuciones con componentes discretos.
El muestreo por rechazo es otra técnica común para generar variables aleatorias que no depende de la inversión de la CDF.

Referencias

^ Luc Devroye (1986). Generación de variables aleatorias no uniformes (PDF) . Nueva York: Springer-Verlag. Archivado desde el original (PDF) el 18 de agosto de 2014. Consultado el 12 de abril de 2012 .
^ "R: Generación de números aleatorios".
^ ab McNeil, Alexander J.; Frey, Rüdiger; Embrechts, Paul (2005). Gestión cuantitativa del riesgo . Princeton Series in Finance. Princeton University Press, Princeton, NJ. p. 186. ISBN 0-691-12255-5.
^ Steinbrecher, György; Shaw, William T. (19 de marzo de 2008). "Mecánica cuantil". Revista Europea de Matemáticas Aplicadas . 19 (2). doi :10.1017/S0956792508007341. S2CID 6899308.
^ Arridge, Simon; Maass, Peter; Öktem, Ozan; Schönlieb, Carola-Bibiane (2019). "Resolución de problemas inversos utilizando modelos basados en datos". Acta Numerica . 28 : 1–174. doi : 10.1017/S0962492919000059 . ISSN 0962-4929. S2CID 197480023.
^ Luc Devroye (1986). "Sección 2.2. Inversión por solución numérica de F(X) = U" (PDF) . Generación de variables aleatorias no uniformes . Nueva York: Springer-Verlag.
^ LA Grzelak, JAS Witteveen, M. Suarez y CW Oosterlee. El muestreador de Monte Carlo de colocación estocástica: muestreo altamente eficiente a partir de distribuciones “costosas”. https://ssrn.com/abstract=2529691
^ Derflinger, Gerhard; Hörmann, Wolfgang; Leydold, Josef (2010). "Generación de variables aleatorias mediante inversión numérica cuando solo se conoce la densidad" (PDF) . ACM Transactions on Modeling and Computer Simulation . 20 (4). doi :10.1145/945511.945517.
^ "UNU.RAN - Generadores de números aleatorios universales no uniformes".
^ "Runuran: Interfaz R para los generadores de variables aleatorias 'UNU.RAN'". 17 de enero de 2023.
^ "Generadores de números aleatorios (Scipy.stats.sampling) — Manual de SciPy v1.12.0".
^ Baumgarten, Christoph; Patel, Tirth (2022). "Generación automática de variables aleatorias en Python". Actas de la 21.ª Conferencia sobre Python en la Ciencia . págs. 46–51. doi :10.25080/majora-212e5952-007.