En matemáticas , más específicamente en la teoría de métodos de Monte Carlo , la reducción de la varianza es un procedimiento utilizado para aumentar la precisión de las estimaciones obtenidas para una simulación o esfuerzo computacional dado. [1] Cada variable aleatoria de salida de la simulación está asociada con una varianza que limita la precisión de los resultados de la simulación. Para hacer una simulación estadísticamente eficiente, es decir, para obtener una mayor precisión e intervalos de confianza más pequeños para la variable aleatoria de salida de interés, se pueden utilizar técnicas de reducción de la varianza. Los principales métodos de reducción de la varianza son
Para la simulación con modelos de caja negra también se puede utilizar la simulación de subconjuntos y el muestreo de líneas . Bajo estos títulos se encuentran diversas técnicas especializadas; por ejemplo, las simulaciones de transporte de partículas hacen un uso extensivo de las técnicas de "ventanas de peso" y "ruleta rusa/división", que son una forma de muestreo de importancia.
Supongamos que se desea calcular con la variable aleatoria definida en el espacio de probabilidad . El método Monte Carlo hace esto mediante el muestreo de iid . copias de y luego realiza una estimación mediante el estimador de media de muestra
En otras condiciones más suaves, como , se aplicará un teorema de límite central de modo que para , la distribución de converge a una distribución normal con media y error estándar . Debido a que la desviación estándar solo converge hacia a la tasa , lo que implica que es necesario aumentar el número de simulaciones ( ) por un factor de para reducir a la mitad la desviación estándar de , los métodos de reducción de la varianza suelen ser útiles para obtener estimaciones más precisas para sin necesidad de un gran número de simulaciones.
La técnica de reducción de varianza de números aleatorios comunes es una técnica de reducción de varianza popular y útil que se aplica cuando comparamos dos o más configuraciones alternativas (de un sistema) en lugar de investigar una única configuración. El CRN también se ha denominado muestreo correlacionado , flujos emparejados o pares emparejados .
CRN requiere la sincronización de los flujos de números aleatorios, lo que garantiza que, además de utilizar los mismos números aleatorios para simular todas las configuraciones, un número aleatorio específico utilizado para un propósito específico en una configuración se utilice exactamente para el mismo propósito en todas las demás configuraciones. Por ejemplo, en la teoría de colas, si estamos comparando dos configuraciones diferentes de cajeros en un banco, querríamos que el tiempo (aleatorio) de llegada del cliente N -ésimo se genere utilizando el mismo sorteo de un flujo de números aleatorios para ambas configuraciones.
Supongamos que y son las observaciones de la primera y segunda configuraciones en la j -ésima réplica independiente.
Queremos estimar
Si realizamos n réplicas de cada configuración y dejamos
entonces y es un estimador insesgado de .
Y dado que las son variables aleatorias independientes distribuidas de forma idéntica,
En el caso de un muestreo independiente, es decir, no se utilizan números aleatorios comunes, entonces Cov( X 1 j , X 2 j ) = 0. Pero si logramos inducir un elemento de correlación positiva entre X 1 y X 2 tal que Cov( X 1 j , X 2 j ) > 0, se puede ver en la ecuación anterior que la varianza se reduce.
También se puede observar que si el CRN induce una correlación negativa, es decir, Cov( X 1 j , X 2 j ) < 0, esta técnica puede resultar contraproducente, ya que la varianza aumenta y no disminuye (como se pretendía). [2]