stringtranslate.com

Muestreo de importancia

El muestreo de importancia es un método de Monte Carlo para evaluar las propiedades de una distribución particular , mientras que solo se generan muestras a partir de una distribución diferente a la distribución de interés. Su introducción en la estadística se atribuye generalmente a un artículo de Teun Kloek y Herman K. van Dijk en 1978, [1] pero sus precursores se pueden encontrar en la física estadística ya en 1949. [2] [3] El muestreo de importancia también está relacionado "Al muestreo general en física computacional ". Dependiendo de la aplicación, el término puede referirse al proceso de muestreo de esta distribución alternativa, al proceso de inferencia o a ambos.

Teoría básica

Sea una variable aleatoria en algún espacio de probabilidad . Deseamos estimar el valor esperado de X bajo P , denotado E [ X;P ]. Si tenemos muestras aleatorias estadísticamente independientes , generadas según P , entonces una estimación empírica de E [ X;P ] es

y la precisión de esta estimación depende de la varianza de X :

La idea básica del muestreo de importancia es muestrear los estados de una distribución diferente para reducir la varianza de la estimación de E [ X;P ], o cuando el muestreo de P es difícil. Esto se logra eligiendo primero una variable aleatoria tal que E [ L ; P ] = 1 y que P - casi en todas partes . Con la variable L definimos una probabilidad que satisface

La variable X / L será así muestreada bajo P ( L ) para estimar E [ X;P ] como arriba y esta estimación se mejora cuando .

Cuando X es de signo constante sobre Ω, la mejor variable L sería claramente , de modo que X / L * es la constante buscada E [ X;P ] y una sola muestra bajo P ( L *) es suficiente para dar su valor. Desafortunadamente no podemos tomar esa decisión, porque E [ X;P ] es precisamente el valor que estamos buscando. Sin embargo, este mejor caso teórico L* nos da una idea de la importancia que tiene el muestreo:

a la derecha, está uno de los elementos infinitesimales que suman E [ X ; PAG ]:

por lo tanto, un buen cambio de probabilidad P ( L ) en el muestreo de importancia redistribuirá la ley de X de modo que las frecuencias de sus muestras se ordenen directamente según sus pesos en E [ X ; PAG ]. De ahí el nombre de "muestreo de importancia".

El muestreo de importancia se utiliza a menudo como integrador de Monte Carlo . Cuando es la distribución uniforme y , E [ X;P ] corresponde a la integral de la función real .

Aplicación a la inferencia probabilística

Estos métodos se utilizan con frecuencia para estimar densidades posteriores o expectativas en problemas de estimación de estado y/o parámetros en modelos probabilísticos que son demasiado difíciles de tratar analíticamente. Los ejemplos incluyen redes bayesianas y codificadores automáticos variacionales ponderados por importancia . [4]

Aplicación a la simulación

El muestreo de importancia es una técnica de reducción de la varianza que se puede utilizar en el método de Monte Carlo . La idea detrás del muestreo de importancia es que ciertos valores de las variables aleatorias de entrada en una simulación tienen más impacto que otros en el parámetro que se estima. Si estos valores " importantes " se enfatizan mediante un muestreo más frecuente, entonces se puede reducir la varianza del estimador . Por tanto, la metodología básica en el muestreo de importancia es elegir una distribución que "fomente" los valores importantes. Este uso de distribuciones "sesgadas" dará como resultado un estimador sesgado si se aplica directamente en la simulación. Sin embargo, los resultados de la simulación se ponderan para corregir el uso de la distribución sesgada, y esto garantiza que el nuevo estimador de muestreo de importancia sea insesgado. El peso viene dado por el índice de verosimilitud , es decir, la derivada de Radon-Nikodym de la distribución subyacente verdadera con respecto a la distribución de simulación sesgada.

La cuestión fundamental al implementar la simulación de muestreo de importancia es la elección de la distribución sesgada que fomenta las regiones importantes de las variables de entrada. Elegir o diseñar una buena distribución sesgada es el "arte" del muestreo de importancia. La recompensa por una buena distribución puede ser un enorme ahorro de tiempo de ejecución; la penalización por una mala distribución puede ser tiempos de ejecución más largos que para una simulación general de Monte Carlo sin muestreo importante.

Considere ser la muestra y la razón de verosimilitud, donde es la función de densidad de probabilidad (masa) de la distribución deseada y es la función de densidad de probabilidad (masa) de la distribución sesgada/propuesta/muestra. Entonces el problema se puede caracterizar eligiendo la distribución muestral que minimice la varianza de la muestra escalada:

Se puede demostrar que la siguiente distribución minimiza la varianza anterior: [5]

Observe que cuando , esta varianza se vuelve 0.

Enfoque matemático

Considere estimar mediante simulación la probabilidad de un evento , donde es una variable aleatoria con función de distribución acumulativa y función de densidad de probabilidad , donde prima denota derivada . A partir de la distribución se genera una secuencia independiente de longitud e idénticamente distribuida (iid) y se cuenta el número de variables aleatorias que se encuentran por encima del umbral . La variable aleatoria se caracteriza por la distribución binomial.

Se puede demostrar eso , y , así, en el límite que podemos obtener . Tenga en cuenta que la varianza es baja si . El muestreo de importancia se ocupa de la determinación y el uso de una función de densidad alternativa (para ), generalmente denominada densidad de sesgo, para el experimento de simulación. Esta densidad permite que el evento ocurra con más frecuencia, por lo que la longitud de la secuencia se reduce para una varianza del estimador determinada. Alternativamente, para un determinado , el uso de la densidad de sesgo da como resultado una varianza menor que la de la estimación convencional de Monte Carlo. A partir de la definición de , podemos introducir lo siguiente.

dónde

es una razón de verosimilitud y se conoce como función de ponderación. La última igualdad en la ecuación anterior motiva al estimador.

Este es el estimador de muestreo de importancia y es insesgado. Es decir, el procedimiento de estimación consiste en generar muestras iid a partir de y para cada muestra que exceda , la estimación se incrementa en el peso evaluado en el valor de la muestra. Los resultados se promedian a lo largo de las pruebas. Se muestra fácilmente que la varianza del estimador de muestreo de importancia es

Ahora, el problema del muestreo de importancia se centra en encontrar una densidad de sesgo tal que la varianza del estimador del muestreo de importancia sea menor que la varianza de la estimación general de Monte Carlo. Para alguna función de densidad de polarización, que minimiza la varianza y, bajo ciertas condiciones, la reduce a cero, se denomina función de densidad de polarización óptima.

Métodos de sesgo convencionales

Aunque existen muchos tipos de métodos de sesgo, los dos métodos siguientes son los más utilizados en las aplicaciones de muestreo de importancia.

Escalada

Desplazar la masa de probabilidad a la región del evento mediante una escala positiva de la variable aleatoria con un número mayor que la unidad tiene el efecto de aumentar la varianza (también la media) de la función de densidad. Esto da como resultado una cola más pesada de la densidad, lo que lleva a un aumento en la probabilidad del evento. El escalado es probablemente uno de los primeros métodos de sesgo conocidos y se ha utilizado ampliamente en la práctica. Es sencillo de implementar y normalmente proporciona ganancias de simulación conservadoras en comparación con otros métodos.

En el muestreo de importancia por escala, la densidad de simulación se elige como la función de densidad de la variable aleatoria escalada , donde generalmente se utiliza para la estimación de probabilidad de cola. Por transformación,

y la función de ponderación es

Si bien el escalado desplaza la masa de probabilidad hacia la región del evento deseada, también empuja la masa hacia la región complementaria que no es deseable. Si es una suma de variables aleatorias, la dispersión de la masa tiene lugar en un espacio dimensional. La consecuencia de esto es una ganancia de muestreo de importancia decreciente para el aumento , y se denomina efecto de dimensionalidad. Una versión moderna del muestreo de importancia mediante escalamiento es, por ejemplo, el llamado muestreo a escala sigma (SSS), que ejecuta múltiples análisis Monte Carlo (MC) con diferentes factores de escala. A diferencia de muchos otros métodos de estimación de alto rendimiento (como las distancias en el peor de los casos, WCD), SSS no sufre mucho el problema de dimensionalidad. Además, abordar múltiples salidas de MC no causa degradación en la eficiencia. Por otro lado, al igual que WCD, SSS solo está diseñado para variables estadísticas gaussianas y, a diferencia de WCD, el método SSS no está diseñado para proporcionar rincones estadísticos precisos. Otra desventaja del SSS es que las ejecuciones de MC con factores de gran escala pueden resultar difíciles, por ejemplo, debido a problemas de convergencia del modelo y del simulador. Además, en SSS nos enfrentamos a un fuerte equilibrio entre sesgo y varianza: al utilizar factores de gran escala, obtenemos resultados de rendimiento bastante estables, pero cuanto mayores son los factores de escala, mayor es el error de sesgo. Si las ventajas de SSS no importan mucho en la aplicación de interés, a menudo otros métodos son más eficientes.

Traducción

Otra técnica de sesgo simple y eficaz emplea la traducción de la función de densidad (y, por tanto, de la variable aleatoria) para colocar gran parte de su masa de probabilidad en la región de eventos raros. La traducción no sufre un efecto de dimensionalidad y se ha utilizado con éxito en varias aplicaciones relacionadas con la simulación de sistemas de comunicación digitales . A menudo proporciona mejores ganancias de simulación que el escalado. En el sesgo por traducción, la densidad de simulación viene dada por

donde es la cantidad de desplazamiento y se debe elegir para minimizar la varianza del estimador de muestreo de importancia.

Efectos de la complejidad del sistema.

El problema fundamental con el muestreo de importancia es que diseñar buenas distribuciones sesgadas se vuelve más complicado a medida que aumenta la complejidad del sistema. Los sistemas complejos son sistemas con mucha memoria, ya que el procesamiento complejo de unas pocas entradas es mucho más fácil de manejar. Esta dimensionalidad o memoria puede causar problemas de tres maneras:

En principio, la importancia de las ideas de muestreo sigue siendo la misma en estas situaciones, pero el diseño se vuelve mucho más difícil. Un enfoque exitoso para combatir este problema es esencialmente dividir una simulación en varios subproblemas más pequeños y mejor definidos. Luego se utilizan estrategias de muestreo de importancia para abordar cada uno de los subproblemas más simples. Ejemplos de técnicas para descomponer la simulación son el condicionamiento y la simulación de eventos de error (EES) y la simulación regenerativa.

Evaluación del muestreo de importancia.

Para identificar técnicas exitosas de muestreo de importancia, es útil poder cuantificar el ahorro de tiempo de ejecución debido al uso del enfoque de muestreo de importancia. La medida de desempeño comúnmente utilizada es , y esto puede interpretarse como el factor de aceleración por el cual el estimador de muestreo de importancia logra la misma precisión que el estimador MC. Esto debe calcularse empíricamente ya que es poco probable que las varianzas del estimador sean analíticamente posibles cuando su media es intratable. Otros conceptos útiles para cuantificar un estimador de muestreo de importancia son los límites de la varianza y la noción de eficiencia asintótica. Una medida relacionada es el llamado tamaño de muestra efectivo (ESS) . [6]

Función de costo de variación

La varianza no es la única función de costos posible para una simulación, y otras funciones de costos, como la desviación absoluta media, se utilizan en diversas aplicaciones estadísticas. Sin embargo, la varianza es la función de costos principal abordada en la literatura, probablemente debido al uso de varianzas en los intervalos de confianza y en la medida del desempeño .

Un problema asociado es el hecho de que la relación sobreestima el ahorro de tiempo de ejecución debido al muestreo importante, ya que no incluye el tiempo de cálculo adicional necesario para calcular la función de peso. Por lo tanto, algunas personas evalúan la mejora neta del tiempo de ejecución por varios medios. Quizás una sobrecarga más grave para el muestreo importante sea el tiempo necesario para idear y programar la técnica y derivar analíticamente la función de peso deseada.

Muestreo de importancia múltiple y adaptativo.

Cuando se utilizan conjuntamente diferentes distribuciones de propuestas, para extraer las muestras, se pueden emplear diferentes funciones de ponderación adecuadas (por ejemplo, consulte [7] [8] [9] [10] ). En un entorno adaptativo, las distribuciones de propuestas, y se actualizan en cada iteración del algoritmo de muestreo de importancia adaptativo. Por lo tanto, dado que se utiliza una población de densidades de propuestas, se pueden emplear varias combinaciones adecuadas de esquemas de muestreo y ponderación. [11] [12] [13] [14] [15] [16] [17]

Ver también

Notas

  1. ^ Kloek, T.; van Dijk, HK (1978). "Estimaciones bayesianas de los parámetros del sistema de ecuaciones: una aplicación de integración de Monte Carlo" (PDF) . Econométrica . 46 (1): 1–19. doi :10.2307/1913641. JSTOR  1913641.
  2. ^ Goertzle, G. (1949). "Muestreo de cuotas y funciones de importancia en la solución estocástica de problemas de partículas". Informe técnico ORNL-434, Laboratorio Nacional de Oak Ridge . Aecd;2793. hdl :2027/mdp.39015086443671.
  3. ^ Kahn, H .; Harris, TE (1949). "Estimación de la transmisión de partículas mediante muestreo aleatorio". Método Montecarlo . Serie de Matemáticas Aplicadas. Oficina Nacional de Normas. 12 : 27–30.
  4. ^ Burda, Yuri; Grosse, Roger; Salakhutdinov, Ruslan (2016). "Codificadores automáticos ponderados por importancia". Actas de la Cuarta Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) .
  5. ^ Rubinstein, RY y Kroese, DP (2011). Simulación y método de Montecarlo (Vol. 707). John Wiley e hijos.
  6. ^ Martín, Luca; Elvira, Víctor; Louzada, Francisco (2017). "Tamaño de muestra efectivo para muestreo de importancia basado en medidas de discrepancia". Procesamiento de la señal . 131 : 386–401. arXiv : 1602.03572 . doi :10.1016/j.sigpro.2016.08.025. S2CID  26317735.
  7. ^ Veach, Eric; Guibas, Leónidas J. (1 de enero de 1995). "Combinando de forma óptima técnicas de muestreo para el renderizado Monte Carlo". Actas de la 22ª conferencia anual sobre gráficos por computadora y técnicas interactivas: SIGGRAPH '95 . SIGRÁFICO '95. Nueva York, NY, Estados Unidos: ACM. págs. 419–428. CiteSeerX 10.1.1.127.8105 . doi :10.1145/218380.218498. ISBN  978-0-89791-701-8. S2CID  207194026.
  8. ^ Owen, arte; Asociado, Yi Zhou (1 de marzo de 2000). "Muestreo de importancia seguro y eficaz". Revista de la Asociación Estadounidense de Estadística . 95 (449): 135-143. CiteSeerX 10.1.1.36.4536 . doi :10.1080/01621459.2000.10473909. ISSN  0162-1459. S2CID  119761472. 
  9. ^ Elvira, V.; Martín, L.; Luengo, D.; Bugallo, MF (1 de octubre de 2015). "Estimadores eficientes de muestreo de importancia múltiple". Cartas de procesamiento de señales IEEE . 22 (10): 1757-1761. arXiv : 1505.05391 . Código Bib : 2015ISPL...22.1757E. doi :10.1109/LSP.2015.2432078. ISSN  1070-9908. S2CID  14504598.
  10. ^ Elvira, Víctor; Martín, Luca; Luengo, David; Bugallo, Mónica F. (2017). "Mejora de la población de Montecarlo: esquemas alternativos de ponderación y remuestreo". Procesamiento de la señal . 131 : 77–91. arXiv : 1607.02758 . doi :10.1016/j.sigpro.2016.07.012. S2CID  205171823.
  11. ^ Cappé, O.; Guillín, A.; Marín, JM; Robert, CP (1 de diciembre de 2004). "Población Montecarlo". Revista de Estadística Computacional y Gráfica . 13 (4): 907–929. doi :10.1198/106186004X12803. ISSN  1061-8600. S2CID  119690181.
  12. ^ Martino, L.; Elvira, V.; Luengo, D.; Corander, J. (1 de mayo de 2017). "Muestreo de importancia adaptativa en capas". Estadística y Computación . 27 (3): 599–623. arXiv : 1505.04732 . doi :10.1007/s11222-016-9642-5. ISSN  0960-3174. S2CID  2508031.
  13. ^ Cappé, Olivier; Douc, Randal; Guillin, Arnaud; Marín, Jean-Michel; Robert, Christian P. (25 de abril de 2008). "Muestreo de importancia adaptativa en clases de mezclas generales". Estadística y Computación . 18 (4): 447–459. arXiv : 0710.4242 . doi :10.1007/s11222-008-9059-x. ISSN  0960-3174. S2CID  483916.
  14. ^ Cornuet, Jean-Marie; Marín, Jean-Michel; Mira, Antonieta ; Robert, Christian P. (1 de diciembre de 2012). "Muestreo adaptativo de importancia múltiple". Revista escandinava de estadística . 39 (4): 798–812. arXiv : 0907.1254 . doi :10.1111/j.1467-9469.2011.00756.x. ISSN  1467-9469. S2CID  17191248.
  15. ^ Martino, L.; Elvira, V.; Luengo, D.; Corander, J. (1 de agosto de 2015). "Una muestra de importancia adaptativa de la población: aprender de la incertidumbre". Transacciones IEEE sobre procesamiento de señales . 63 (16): 4422–4437. Código Bib : 2015ITSP...63.4422M. CiteSeerX 10.1.1.464.9395 . doi :10.1109/TSP.2015.2440215. ISSN  1053-587X. S2CID  17017431. 
  16. ^ Bugallo, Mónica F.; Martín, Luca; Corander, Jukka (1 de diciembre de 2015). "Muestreo de importancia adaptativa en el procesamiento de señales". Procesamiento de señales digitales . Número especial en honor a William J. (Bill) Fitzgerald. 47 : 36–49. doi : 10.1016/j.dsp.2015.05.014 .
  17. ^ Bugallo, MF; Elvira, V.; Martín, L.; Luengo, D.; Míguez, J.; Djuric, PM (julio de 2017). "Muestreo de importancia adaptativa: el pasado, el presente y el futuro". Revista de procesamiento de señales IEEE . 34 (4): 60–79. Código Bib : 2017 ISPM...34...60B. doi :10.1109/msp.2017.2699226. ISSN  1053-5888. S2CID  5619054.

Referencias

enlaces externos