El muestreo de importancia es un método de Monte Carlo para evaluar las propiedades de una distribución particular , mientras que solo se tienen muestras generadas a partir de una distribución diferente a la distribución de interés. Su introducción en estadística generalmente se atribuye a un artículo de Teun Kloek y Herman K. van Dijk en 1978, [1] pero sus precursores se pueden encontrar en física estadística ya en 1949. [2] [3] El muestreo de importancia también está relacionado con el muestreo paraguas en física computacional . Dependiendo de la aplicación, el término puede referirse al proceso de muestreo de esta distribución alternativa, el proceso de inferencia o ambos.
Sea una variable aleatoria en algún espacio de probabilidad . Deseamos estimar el valor esperado de X bajo P , denotado E [ X; P ]. Si tenemos muestras aleatorias estadísticamente independientes , generadas de acuerdo con P , entonces una estimación empírica de E [ X; P ] es
y la precisión de esta estimación depende de la varianza de X :
La idea básica del muestreo por importancia es tomar muestras de los estados de una distribución diferente para reducir la varianza de la estimación de E [ X ; P ], o cuando el muestreo de P es difícil. Esto se logra eligiendo primero una variable aleatoria tal que E [ L ; P ] = 1 y que P - casi en todas partes . Con la variable L definimos una probabilidad que satisface
De esta manera, la variable X / L se muestreará bajo P ( L ) para estimar E [ X;P ] como se indicó anteriormente y esta estimación se mejora cuando .
Cuando X es de signo constante sobre Ω, la mejor variable L sería claramente , de modo que X / L * es la constante buscada E [ X; P ] y una sola muestra bajo P ( L *) es suficiente para dar su valor. Desafortunadamente no podemos tomar esa opción, porque E [ X; P ] es precisamente el valor que estamos buscando. Sin embargo, este mejor caso teórico L* nos da una idea de lo que hace el muestreo de importancia:
a la derecha, se encuentra uno de los elementos infinitesimales que suman E [ X ; P ]:
Por lo tanto, un buen cambio de probabilidad P ( L ) en el muestreo de importancia redistribuirá la ley de X de modo que las frecuencias de sus muestras se ordenen directamente de acuerdo con sus pesos en E [ X ; P ]. De ahí el nombre "muestreo de importancia".
El muestreo de importancia se utiliza a menudo como un integrador de Monte Carlo . Cuando es la distribución uniforme y , E [ X; P ] corresponde a la integral de la función real .
Estos métodos se utilizan con frecuencia para estimar densidades o expectativas posteriores en problemas de estimación de estados y/o parámetros en modelos probabilísticos que son demasiado difíciles de tratar analíticamente. Algunos ejemplos son las redes bayesianas y los autocodificadores variacionales ponderados por importancia . [4]
El muestreo por importancia es una técnica de reducción de varianza que se puede utilizar en el método de Monte Carlo . La idea detrás del muestreo por importancia es que ciertos valores de las variables aleatorias de entrada en una simulación tienen más impacto en el parámetro que se está estimando que otros. Si estos valores " importantes " se enfatizan mediante un muestreo más frecuente, entonces se puede reducir la varianza del estimador . Por lo tanto, la metodología básica en el muestreo por importancia es elegir una distribución que "fomente" los valores importantes. Este uso de distribuciones "sesgadas" dará como resultado un estimador sesgado si se aplica directamente en la simulación. Sin embargo, los resultados de la simulación se ponderan para corregir el uso de la distribución sesgada, y esto garantiza que el nuevo estimador de muestreo por importancia sea imparcial. El peso está dado por la razón de verosimilitud , es decir, la derivada de Radon-Nikodym de la distribución subyacente real con respecto a la distribución de simulación sesgada.
La cuestión fundamental a la hora de implementar una simulación de muestreo por importancia es la elección de la distribución sesgada que favorezca las regiones importantes de las variables de entrada. Elegir o diseñar una buena distribución sesgada es el "arte" del muestreo por importancia. Las recompensas por una buena distribución pueden ser enormes ahorros de tiempo de ejecución; la penalización por una mala distribución puede ser tiempos de ejecución más largos que los de una simulación general de Monte Carlo sin muestreo por importancia.
Consideremos que es la muestra y que es la razón de verosimilitud, donde es la función de densidad de probabilidad (masa) de la distribución deseada y es la función de densidad de probabilidad (masa) de la distribución sesgada/propuesta/muestral. Entonces, el problema se puede caracterizar eligiendo la distribución de muestra que minimice la varianza de la muestra escalada:
Se puede demostrar que la siguiente distribución minimiza la varianza anterior: [5]
Tenga en cuenta que cuando , esta varianza se convierte en 0.
Consideremos la estimación por simulación de la probabilidad de un evento , donde es una variable aleatoria con función de distribución acumulativa y función de densidad de probabilidad , donde prima denota derivada . Se genera una secuencia independiente e idénticamente distribuida (iid) de longitud a partir de la distribución , y se cuenta el número de variables aleatorias que se encuentran por encima del umbral . La variable aleatoria se caracteriza por la distribución binomial
Se puede demostrar que , y , por lo que en el límite podemos obtener . Nótese que la varianza es baja si . El muestreo de importancia se ocupa de la determinación y el uso de una función de densidad alternativa (para ), generalmente denominada densidad de sesgo, para el experimento de simulación. Esta densidad permite que el evento ocurra con mayor frecuencia, por lo que las longitudes de secuencia se hacen más pequeñas para una varianza del estimador dada . Alternativamente, para un dado , el uso de la densidad de sesgo da como resultado una varianza menor que la de la estimación convencional de Monte Carlo. A partir de la definición de , podemos introducir lo siguiente.
dónde
es una razón de verosimilitud y se denomina función de ponderación. La última igualdad en la ecuación anterior motiva el estimador
Este es el estimador de muestreo de importancia de y es imparcial. Es decir, el procedimiento de estimación consiste en generar muestras iid de y para cada muestra que exceda , la estimación se incrementa con el peso evaluado en el valor de la muestra. Los resultados se promedian a lo largo de los ensayos. Se demuestra fácilmente que la varianza del estimador de muestreo de importancia es
Ahora bien, el problema del muestreo por importancia se centra en encontrar una densidad de sesgo tal que la varianza del estimador de muestreo por importancia sea menor que la varianza de la estimación general de Monte Carlo. En el caso de una función de densidad de sesgo que minimice la varianza y, en determinadas condiciones, la reduzca a cero, se denomina función de densidad de sesgo óptima.
Si bien existen muchos tipos de métodos de sesgo, los dos métodos siguientes son los más utilizados en las aplicaciones de muestreo de importancia.
El cambio de la masa de probabilidad a la región de eventos mediante un escalamiento positivo de la variable aleatoria con un número mayor que la unidad tiene el efecto de aumentar la varianza (también la media) de la función de densidad. Esto da como resultado una cola más pesada de la densidad, lo que lleva a un aumento en la probabilidad del evento. El escalamiento es probablemente uno de los primeros métodos de sesgo conocidos y se ha utilizado ampliamente en la práctica. Es fácil de implementar y generalmente proporciona ganancias de simulación conservadoras en comparación con otros métodos.
En el muestreo de importancia por escalamiento, la densidad de simulación se elige como la función de densidad de la variable aleatoria escalada , donde generalmente se utiliza para la estimación de probabilidad de cola. Por transformación,
y la función de ponderación es
Mientras que el escalamiento desplaza la masa de probabilidad hacia la región de evento deseada, también empuja la masa hacia la región complementaria, lo cual es indeseable. Si es una suma de variables aleatorias, la dispersión de la masa tiene lugar en un espacio dimensional. La consecuencia de esto es una ganancia de muestreo de importancia decreciente para aumentar , y se llama efecto de dimensionalidad. Una versión moderna del muestreo de importancia por escalamiento es, por ejemplo, el llamado muestreo escalado sigma (SSS), que ejecuta múltiples análisis de Monte Carlo (MC) con diferentes factores de escala. A diferencia de muchos otros métodos de estimación de alto rendimiento (como las distancias del peor caso WCD), SSS no sufre mucho del problema de dimensionalidad. Además, abordar múltiples salidas MC no causa degradación en la eficiencia. Por otro lado, como WCD, SSS solo está diseñado para variables estadísticas gaussianas y, a diferencia de WCD, el método SSS no está diseñado para proporcionar esquinas estadísticas precisas. Otra desventaja de SSS es que el MC se ejecuta con factores de escala grandes puede volverse difícil, por ejemplo, debido a problemas de convergencia del modelo y el simulador. Además, en el SSS nos enfrentamos a un fuerte equilibrio entre sesgo y varianza: utilizando factores de escala grandes, obtenemos resultados de rendimiento bastante estables, pero cuanto mayores sean los factores de escala, mayor será el error de sesgo. Si las ventajas del SSS no importan mucho en la aplicación de interés, entonces a menudo otros métodos son más eficientes.
Otra técnica de polarización simple y efectiva emplea la traslación de la función de densidad (y, por lo tanto, de la variable aleatoria) para colocar gran parte de su masa de probabilidad en la región de eventos raros. La traslación no sufre un efecto de dimensionalidad y se ha utilizado con éxito en varias aplicaciones relacionadas con la simulación de sistemas de comunicación digital . A menudo proporciona mejores ganancias de simulación que el escalamiento. En la polarización por traslación, la densidad de simulación se da por
donde es la cantidad de cambio y debe elegirse para minimizar la varianza del estimador de muestreo de importancia.
El problema fundamental del muestreo por importancia es que diseñar buenas distribuciones sesgadas se vuelve más complicado a medida que aumenta la complejidad del sistema. Los sistemas complejos son los sistemas con una memoria extensa, ya que el procesamiento complejo de unas pocas entradas es mucho más fácil de manejar. Esta dimensionalidad o memoria puede causar problemas de tres maneras:
En principio, las ideas de muestreo por importancia siguen siendo las mismas en estas situaciones, pero el diseño se vuelve mucho más difícil. Un enfoque exitoso para combatir este problema es esencialmente dividir una simulación en varios subproblemas más pequeños y definidos con mayor precisión. Luego se utilizan estrategias de muestreo por importancia para abordar cada uno de los subproblemas más simples. Algunos ejemplos de técnicas para dividir la simulación son el condicionamiento y la simulación de eventos de error (EES) y la simulación regenerativa.
Para identificar técnicas de muestreo por importancia exitosas, es útil poder cuantificar el ahorro de tiempo de ejecución debido al uso del enfoque de muestreo por importancia. La medida de desempeño que se usa comúnmente es , y esto puede interpretarse como el factor de aceleración por el cual el estimador de muestreo por importancia logra la misma precisión que el estimador de MC. Esto debe calcularse empíricamente ya que es poco probable que las varianzas del estimador sean analíticamente posibles cuando su media es intratable. Otros conceptos útiles para cuantificar un estimador de muestreo por importancia son los límites de varianza y la noción de eficiencia asintótica. Una medida relacionada es el llamado tamaño de muestra efectivo (ESS) . [6]
La varianza no es la única función de costo posible para una simulación, y otras funciones de costo, como la desviación absoluta media, se utilizan en diversas aplicaciones estadísticas. Sin embargo, la varianza es la función de costo principal abordada en la literatura, probablemente debido al uso de varianzas en intervalos de confianza y en la medida del desempeño .
Un problema asociado es el hecho de que la relación sobreestima el ahorro de tiempo de ejecución debido al muestreo de importancia, ya que no incluye el tiempo de cálculo adicional necesario para calcular la función de ponderación. Por lo tanto, algunas personas evalúan la mejora neta del tiempo de ejecución por diversos medios. Tal vez un gasto adicional más serio del muestreo de importancia sea el tiempo que se necesita para idear y programar la técnica y derivar analíticamente la función de ponderación deseada.
Cuando se utilizan conjuntamente diferentes distribuciones de propuestas, , para extraer las muestras , se pueden emplear diferentes funciones de ponderación adecuadas (p. ej., véase [7] [8] [9] [10] ). En un entorno adaptativo, las distribuciones de propuestas, , y se actualizan en cada iteración del algoritmo de muestreo de importancia adaptativo. Por lo tanto, dado que se utiliza una población de densidades de propuestas, se pueden emplear varias combinaciones adecuadas de esquemas de muestreo y ponderación. [11] [12] [13] [14] [15] [16] [17]