La desigualdad de varianza de la suma binomial establece que la varianza de la suma de variables aleatorias distribuidas binomialmente siempre será menor o igual que la varianza de una variable binomial con los mismos parámetros n y p . En teoría de probabilidad y estadística , la suma de variables aleatorias binomiales independientes es en sí misma una variable aleatoria binomial si todas las variables componentes comparten la misma probabilidad de éxito. Si las probabilidades de éxito difieren, la distribución de probabilidad de la suma no es binomial. [1] La falta de uniformidad en las probabilidades de éxito entre ensayos independientes conduce a una varianza menor. [2] [3] [4] [5] [6] y es un caso especial de un teorema más general que involucra el valor esperado de funciones convexas. [7] En algunas aplicaciones estadísticas, el estimador de varianza binomial estándar se puede utilizar incluso si las probabilidades de los componentes difieren, aunque con una estimación de varianza que tiene un sesgo ascendente .
Declaración de desigualdad
Consideremos la suma, Z , de dos variables aleatorias binomiales independientes, X ~ B( m 0 , p 0 ) e Y ~ B( m 1 , p 1 ), donde Z = X + Y . Entonces, la varianza de Z es menor o igual a su varianza bajo el supuesto de que p 0 = p 1 = , es decir, si Z tuviera una distribución binomial con la probabilidad de éxito igual al promedio de las probabilidades de X e Y . [8] Simbólicamente, .
Prueba
Queremos demostrar que
Probaremos esta desigualdad encontrando una expresión para Var( Z ) y sustituyéndola en el lado izquierdo, mostrando luego que la desigualdad siempre se cumple.
Si Z tiene una distribución binomial con parámetros n y p , entonces el valor esperado de Z está dado por E[ Z ] = np y la varianza de Z está dada por Var[ Z ] = np (1 – p ). Si n = m 0 + m 1 y sustituyemos E[ Z ] por np obtenemos
Las variables aleatorias X e Y son independientes, por lo que la varianza de la suma es igual a la suma de las varianzas , es decir
Para demostrar el teorema, es suficiente demostrar que
Sustituyendo E[ X ] + E[ Y ] por E[ Z ] se obtiene
Al multiplicar los corchetes y restar E[X] + E[Y] de ambos lados se obtiene
Al multiplicar los paréntesis obtenemos
Restando E[X] y E[Y] de ambos lados e invirtiendo la desigualdad se obtiene
Al expandir el lado derecho se obtiene
Multiplicando por rendimientos
Restando el lado derecho se obtiene la relación
o equivalentemente
El cuadrado de un número real es siempre mayor o igual a cero, por lo que esto es cierto para todas las distribuciones binomiales independientes que X e Y podrían tomar. Esto es suficiente para demostrar el teorema.
Aunque esta prueba se desarrolló para la suma de dos variables, es fácil generalizarla a valores mayores que dos. Además, si se conocen las probabilidades de éxito individuales, se sabe que la varianza toma la forma [6]
donde es la probabilidad media y . Esta expresión también implica que la varianza es siempre menor que la de la distribución binomial con , porque la expresión estándar para la varianza se reduce en ns 2 , un número positivo.
Aplicaciones
La desigualdad puede ser útil en el contexto de pruebas múltiples , donde se realizan muchas pruebas de hipótesis estadísticas dentro de un estudio en particular. Cada prueba puede tratarse como una variable de Bernoulli con una probabilidad de éxito p . Considere el número total de pruebas positivas como una variable aleatoria denotada por S. Esta cantidad es importante en la estimación de las tasas de descubrimiento falso (FDR) , que cuantifican la incertidumbre en los resultados de la prueba. Si la hipótesis nula es verdadera para algunas pruebas y la hipótesis alternativa es verdadera para otras pruebas, entonces es probable que las probabilidades de éxito difieran entre estos dos grupos. Sin embargo, el teorema de desigualdad de varianza establece que si las pruebas son independientes, la varianza de S no será mayor de lo que sería bajo una distribución binomial.
Referencias
- ^ Butler, Ken; Stephens, Michael (1993). "La distribución de una suma de variables aleatorias binomiales" (PDF) . Informe técnico n.º 467. Departamento de Estadística, Universidad de Stanford. Archivado (PDF) del original el 11 de abril de 2021.
- ^ Nedelman, J y Wallenius, T., 1986. Ensayos de Bernoulli, ensayos de Poisson, varianzas sorprendentes y desigualdad de Jensen. The American Statistician, 40(4):286–289.
- ^ Feller, W. 1968. Introducción a la teoría de la probabilidad y sus aplicaciones (Vol. 1, 3.ª ed.). Nueva York: John Wiley.
- ^ Johnson, NL y Kotz, S. 1969. Distribuciones discretas. Nueva York: John Wiley
- ^ Kendall, M. y Stuart, A. 1977. La teoría avanzada de la estadística. Nueva York: Macmillan.
- ^ ab Drezner, Zvi; Farnum, Nicholas (1993). "Una distribución binomial generalizada". Comunicaciones en Estadística - Teoría y Métodos . 22 (11): 3051–3063. doi :10.1080/03610929308831202. ISSN 0361-0926.
- ^ Hoeffding, W. 1956. Sobre la distribución del número de éxitos en ensayos independientes. Annals of Mathematical Statistics (27):713–721.
- ^ Millstein, J.; Volfson, D. (2013). "Estimación computacionalmente eficiente del intervalo de confianza basado en permutaciones para el área de la cola FDR". Frontiers in Genetics . 4 (179): 1–11. doi : 10.3389/fgene.2013.00179 . PMC 3775454 . PMID 24062767.