En matemáticas , más concretamente en la teoría de los métodos de Montecarlo , la reducción de la varianza es un procedimiento utilizado para aumentar la precisión de las estimaciones obtenidas para una determinada simulación o esfuerzo computacional. [1] Cada variable aleatoria de salida de la simulación está asociada con una varianza que limita la precisión de los resultados de la simulación. Para hacer una simulación estadísticamente eficiente, es decir, para obtener una mayor precisión e intervalos de confianza más pequeños para la variable aleatoria de salida de interés, se pueden utilizar técnicas de reducción de la varianza. Los principales métodos de reducción de la varianza son
Para la simulación con modelos de caja negra, también se puede utilizar la simulación de subconjuntos y el muestreo de líneas . Bajo estos títulos hay una variedad de técnicas especializadas; por ejemplo, las simulaciones de transporte de partículas hacen un uso extensivo de las técnicas de "ventanas de peso" y "ruleta rusa", que son una forma de muestreo de importancia.
Supongamos que uno quiere calcular con la variable aleatoria definida en el espacio de probabilidad . Monte Carlo hace esto muestreando iid . copias de y luego estimar mediante el estimador de media muestral
En condiciones más suaves, como por ejemplo , se aplicará un teorema de límite central tal que, para valores grandes , la distribución de converge a una distribución normal con media y error estándar . Debido a que la desviación estándar solo converge hacia la tasa , lo que implica que es necesario aumentar el número de simulaciones ( ) en un factor de para reducir a la mitad la desviación estándar de , los métodos de reducción de la varianza suelen ser útiles para obtener estimaciones más precisas sin necesidad de números muy grandes. de simulaciones.
La técnica común de reducción de la varianza de números aleatorios es una técnica de reducción de la varianza popular y útil que se aplica cuando comparamos dos o más configuraciones alternativas (de un sistema) en lugar de investigar una sola configuración. CRN también ha sido llamado muestreo correlacionado , flujos emparejados o pares emparejados .
CRN requiere sincronización de los flujos de números aleatorios, lo que garantiza que, además de utilizar los mismos números aleatorios para simular todas las configuraciones, un número aleatorio específico utilizado para un propósito específico en una configuración se use exactamente para el mismo propósito en todas las demás configuraciones. Por ejemplo, en la teoría de colas, si comparamos dos configuraciones diferentes de cajeros en un banco, querríamos que la hora (aleatoria) de llegada del enésimo cliente se generara utilizando el mismo sorteo de un flujo de números aleatorios para ambos. configuraciones.
Supongamos que y son las observaciones de la primera y segunda configuraciones en la j- ésima replicación independiente.
queremos estimar
Si realizamos n replicaciones de cada configuración y dejamos
entonces y es un estimador insesgado de .
Y dado que las 's son variables aleatorias independientes distribuidas idénticamente,
En el caso de muestreo independiente, es decir, no se utilizan números aleatorios comunes, entonces Cov( X 1 j , X 2 j ) = 0. Pero si logramos inducir un elemento de correlación positiva entre X 1 y X 2 tal que Cov( X 1 j , X 2 j ) > 0, se puede ver en la ecuación anterior que la varianza se reduce.
También se puede observar que si el CRN induce una correlación negativa, es decir, Cov( X 1 j , X 2 j ) < 0, esta técnica puede resultar contraproducente, donde la varianza aumenta y no disminuye (como se esperaba). [2]