El muestreo de importancia es un método de Monte Carlo para evaluar las propiedades de una distribución particular , mientras que solo se generan muestras a partir de una distribución diferente a la distribución de interés. Su introducción en la estadística se atribuye generalmente a un artículo de Teun Kloek y Herman K. van Dijk en 1978, [1] pero sus precursores se pueden encontrar en la física estadística ya en 1949. [2] [3] El muestreo de importancia también está relacionado "Al muestreo general en física computacional ". Dependiendo de la aplicación, el término puede referirse al proceso de muestreo de esta distribución alternativa, al proceso de inferencia o a ambos.
Sea una variable aleatoria en algún espacio de probabilidad . Deseamos estimar el valor esperado de X bajo P , denotado E [ X;P ]. Si tenemos muestras aleatorias estadísticamente independientes , generadas según P , entonces una estimación empírica de E [ X;P ] es
y la precisión de esta estimación depende de la varianza de X :
La idea básica del muestreo de importancia es muestrear los estados de una distribución diferente para reducir la varianza de la estimación de E [ X;P ], o cuando el muestreo de P es difícil. Esto se logra eligiendo primero una variable aleatoria tal que E [ L ; P ] = 1 y que P - casi en todas partes . Con la variable L definimos una probabilidad que satisface
La variable X / L será así muestreada bajo P ( L ) para estimar E [ X;P ] como arriba y esta estimación se mejora cuando .
Cuando X es de signo constante sobre Ω, la mejor variable L sería claramente , de modo que X / L * es la constante buscada E [ X;P ] y una sola muestra bajo P ( L *) es suficiente para dar su valor. Desafortunadamente no podemos tomar esa decisión, porque E [ X;P ] es precisamente el valor que estamos buscando. Sin embargo, este mejor caso teórico L* nos da una idea de la importancia que tiene el muestreo:
a la derecha, está uno de los elementos infinitesimales que suman E [ X ; PAG ]:
por lo tanto, un buen cambio de probabilidad P ( L ) en el muestreo de importancia redistribuirá la ley de X de modo que las frecuencias de sus muestras se ordenen directamente según sus pesos en E [ X ; PAG ]. De ahí el nombre de "muestreo de importancia".
El muestreo de importancia se utiliza a menudo como integrador de Monte Carlo . Cuando es la distribución uniforme y , E [ X;P ] corresponde a la integral de la función real .
Estos métodos se utilizan con frecuencia para estimar densidades posteriores o expectativas en problemas de estimación de estado y/o parámetros en modelos probabilísticos que son demasiado difíciles de tratar analíticamente. Los ejemplos incluyen redes bayesianas y codificadores automáticos variacionales ponderados por importancia . [4]
El muestreo de importancia es una técnica de reducción de la varianza que se puede utilizar en el método de Monte Carlo . La idea detrás del muestreo de importancia es que ciertos valores de las variables aleatorias de entrada en una simulación tienen más impacto que otros en el parámetro que se estima. Si estos valores " importantes " se enfatizan mediante un muestreo más frecuente, entonces se puede reducir la varianza del estimador . Por tanto, la metodología básica en el muestreo de importancia es elegir una distribución que "fomente" los valores importantes. Este uso de distribuciones "sesgadas" dará como resultado un estimador sesgado si se aplica directamente en la simulación. Sin embargo, los resultados de la simulación se ponderan para corregir el uso de la distribución sesgada, y esto garantiza que el nuevo estimador de muestreo de importancia sea insesgado. El peso viene dado por el índice de verosimilitud , es decir, la derivada de Radon-Nikodym de la distribución subyacente verdadera con respecto a la distribución de simulación sesgada.
La cuestión fundamental al implementar la simulación de muestreo de importancia es la elección de la distribución sesgada que fomenta las regiones importantes de las variables de entrada. Elegir o diseñar una buena distribución sesgada es el "arte" del muestreo de importancia. La recompensa por una buena distribución puede ser un enorme ahorro de tiempo de ejecución; la penalización por una mala distribución puede ser tiempos de ejecución más largos que para una simulación general de Monte Carlo sin muestreo importante.
Considere ser la muestra y la razón de verosimilitud, donde es la función de densidad de probabilidad (masa) de la distribución deseada y es la función de densidad de probabilidad (masa) de la distribución sesgada/propuesta/muestra. Entonces el problema se puede caracterizar eligiendo la distribución muestral que minimice la varianza de la muestra escalada:
Se puede demostrar que la siguiente distribución minimiza la varianza anterior: [5]
Observe que cuando , esta varianza se vuelve 0.
Considere estimar mediante simulación la probabilidad de un evento , donde es una variable aleatoria con función de distribución acumulativa y función de densidad de probabilidad , donde prima denota derivada . A partir de la distribución se genera una secuencia independiente de longitud e idénticamente distribuida (iid) y se cuenta el número de variables aleatorias que se encuentran por encima del umbral . La variable aleatoria se caracteriza por la distribución binomial.
Se puede demostrar eso , y , así, en el límite que podemos obtener . Tenga en cuenta que la varianza es baja si . El muestreo de importancia se ocupa de la determinación y el uso de una función de densidad alternativa (para ), generalmente denominada densidad de sesgo, para el experimento de simulación. Esta densidad permite que el evento ocurra con más frecuencia, por lo que la longitud de la secuencia se reduce para una varianza del estimador determinada. Alternativamente, para un determinado , el uso de la densidad de sesgo da como resultado una varianza menor que la de la estimación convencional de Monte Carlo. A partir de la definición de , podemos introducir lo siguiente.
dónde
es una razón de verosimilitud y se conoce como función de ponderación. La última igualdad en la ecuación anterior motiva al estimador.
Este es el estimador de muestreo de importancia y es insesgado. Es decir, el procedimiento de estimación consiste en generar muestras iid a partir de y para cada muestra que exceda , la estimación se incrementa en el peso evaluado en el valor de la muestra. Los resultados se promedian a lo largo de las pruebas. Se muestra fácilmente que la varianza del estimador de muestreo de importancia es
Ahora, el problema del muestreo de importancia se centra en encontrar una densidad de sesgo tal que la varianza del estimador del muestreo de importancia sea menor que la varianza de la estimación general de Monte Carlo. Para alguna función de densidad de polarización, que minimiza la varianza y, bajo ciertas condiciones, la reduce a cero, se denomina función de densidad de polarización óptima.
Aunque existen muchos tipos de métodos de sesgo, los dos métodos siguientes son los más utilizados en las aplicaciones de muestreo de importancia.
Desplazar la masa de probabilidad a la región del evento mediante una escala positiva de la variable aleatoria con un número mayor que la unidad tiene el efecto de aumentar la varianza (también la media) de la función de densidad. Esto da como resultado una cola más pesada de la densidad, lo que lleva a un aumento en la probabilidad del evento. El escalado es probablemente uno de los primeros métodos de sesgo conocidos y se ha utilizado ampliamente en la práctica. Es sencillo de implementar y normalmente proporciona ganancias de simulación conservadoras en comparación con otros métodos.
En el muestreo de importancia por escala, la densidad de simulación se elige como la función de densidad de la variable aleatoria escalada , donde generalmente se utiliza para la estimación de probabilidad de cola. Por transformación,
y la función de ponderación es
Si bien el escalado desplaza la masa de probabilidad hacia la región del evento deseada, también empuja la masa hacia la región complementaria que no es deseable. Si es una suma de variables aleatorias, la dispersión de la masa tiene lugar en un espacio dimensional. La consecuencia de esto es una ganancia de muestreo de importancia decreciente para el aumento , y se denomina efecto de dimensionalidad. Una versión moderna del muestreo de importancia mediante escalamiento es, por ejemplo, el llamado muestreo a escala sigma (SSS), que ejecuta múltiples análisis Monte Carlo (MC) con diferentes factores de escala. A diferencia de muchos otros métodos de estimación de alto rendimiento (como las distancias en el peor de los casos, WCD), SSS no sufre mucho el problema de dimensionalidad. Además, abordar múltiples salidas de MC no causa degradación en la eficiencia. Por otro lado, al igual que WCD, SSS solo está diseñado para variables estadísticas gaussianas y, a diferencia de WCD, el método SSS no está diseñado para proporcionar rincones estadísticos precisos. Otra desventaja del SSS es que las ejecuciones de MC con factores de gran escala pueden resultar difíciles, por ejemplo, debido a problemas de convergencia del modelo y del simulador. Además, en SSS nos enfrentamos a un fuerte equilibrio entre sesgo y varianza: al utilizar factores de gran escala, obtenemos resultados de rendimiento bastante estables, pero cuanto mayores son los factores de escala, mayor es el error de sesgo. Si las ventajas de SSS no importan mucho en la aplicación de interés, a menudo otros métodos son más eficientes.
Otra técnica de sesgo simple y eficaz emplea la traducción de la función de densidad (y, por tanto, de la variable aleatoria) para colocar gran parte de su masa de probabilidad en la región de eventos raros. La traducción no sufre un efecto de dimensionalidad y se ha utilizado con éxito en varias aplicaciones relacionadas con la simulación de sistemas de comunicación digitales . A menudo proporciona mejores ganancias de simulación que el escalado. En el sesgo por traducción, la densidad de simulación viene dada por
donde es la cantidad de desplazamiento y se debe elegir para minimizar la varianza del estimador de muestreo de importancia.
El problema fundamental con el muestreo de importancia es que diseñar buenas distribuciones sesgadas se vuelve más complicado a medida que aumenta la complejidad del sistema. Los sistemas complejos son sistemas con mucha memoria, ya que el procesamiento complejo de unas pocas entradas es mucho más fácil de manejar. Esta dimensionalidad o memoria puede causar problemas de tres maneras:
En principio, la importancia de las ideas de muestreo sigue siendo la misma en estas situaciones, pero el diseño se vuelve mucho más difícil. Un enfoque exitoso para combatir este problema es esencialmente dividir una simulación en varios subproblemas más pequeños y mejor definidos. Luego se utilizan estrategias de muestreo de importancia para abordar cada uno de los subproblemas más simples. Ejemplos de técnicas para descomponer la simulación son el condicionamiento y la simulación de eventos de error (EES) y la simulación regenerativa.
Para identificar técnicas exitosas de muestreo de importancia, es útil poder cuantificar el ahorro de tiempo de ejecución debido al uso del enfoque de muestreo de importancia. La medida de desempeño comúnmente utilizada es , y esto puede interpretarse como el factor de aceleración por el cual el estimador de muestreo de importancia logra la misma precisión que el estimador MC. Esto debe calcularse empíricamente ya que es poco probable que las varianzas del estimador sean analíticamente posibles cuando su media es intratable. Otros conceptos útiles para cuantificar un estimador de muestreo de importancia son los límites de la varianza y la noción de eficiencia asintótica. Una medida relacionada es el llamado tamaño de muestra efectivo (ESS) . [6]
La varianza no es la única función de costos posible para una simulación, y otras funciones de costos, como la desviación absoluta media, se utilizan en diversas aplicaciones estadísticas. Sin embargo, la varianza es la función de costos principal abordada en la literatura, probablemente debido al uso de varianzas en los intervalos de confianza y en la medida del desempeño .
Un problema asociado es el hecho de que la relación sobreestima el ahorro de tiempo de ejecución debido al muestreo importante, ya que no incluye el tiempo de cálculo adicional necesario para calcular la función de peso. Por lo tanto, algunas personas evalúan la mejora neta del tiempo de ejecución por varios medios. Quizás una sobrecarga más grave para el muestreo importante sea el tiempo necesario para idear y programar la técnica y derivar analíticamente la función de peso deseada.
Cuando se utilizan conjuntamente diferentes distribuciones de propuestas, para extraer las muestras, se pueden emplear diferentes funciones de ponderación adecuadas (por ejemplo, consulte [7] [8] [9] [10] ). En un entorno adaptativo, las distribuciones de propuestas, y se actualizan en cada iteración del algoritmo de muestreo de importancia adaptativo. Por lo tanto, dado que se utiliza una población de densidades de propuestas, se pueden emplear varias combinaciones adecuadas de esquemas de muestreo y ponderación. [11] [12] [13] [14] [15] [16] [17]