Distribución de Behrens-Fisher

En estadística , la distribución de Behrens-Fisher , llamada así en honor a Ronald Fisher y Walter Behrens , es una familia parametrizada de distribuciones de probabilidad que surgen de la solución del problema de Behrens-Fisher propuesto primero por Behrens y varios años después por Fisher. El problema de Behrens-Fisher es el de la inferencia estadística relativa a la diferencia entre las medias de dos poblaciones distribuidas normalmente cuando no se conoce la razón de sus varianzas (y en particular, no se sabe que sus varianzas sean iguales). ^[1]

Definición

La distribución de Behrens-Fisher es la distribución de una variable aleatoria de la forma

T_{2}\cos \theta -T_{1}\sin \theta \,

donde T ₁ y T ₂ son variables aleatorias independientes , cada una con una distribución t de Student , con respectivos grados de libertad ν ₁ = n ₁ − 1 y ν ₂ = n ₂ − 1, y θ es una constante. Por lo tanto, la familia de distribuciones de Behrens-Fisher está parametrizada por ν ₁ , ν ₂ y θ .

Derivación

Supongamos que se sabe que las varianzas de ambas poblaciones son iguales y se toman muestras de tamaños n ₁ y n _{2 de las dos poblaciones:}

{\begin{aligned}X_{1,1},\ldots ,X_{1,n_{1}}&\sim \operatorname {iid} N(\mu _{1},\sigma ^{2}),\\[6pt]X_{2,1},\ldots ,X_{2,n_{2}}&\sim \operatorname {iid} N(\mu _{2},\sigma ^{2}).\end{aligned}}

donde "iid" son variables aleatorias independientes e idénticamente distribuidas y N denota la distribución normal . Las dos medias de muestra son

{\begin{aligned}{\bar {X}}_{1}&=(X_{1,1}+\cdots +X_{1,n_{1}})/n_{1}\\[6pt]{\bar {X}}_{2}&=(X_{2,1}+\cdots +X_{2,n_{2}})/n_{2}\end{aligned}}

La estimación imparcial " agrupada " habitual de la varianza común σ ² es entonces

S_{\mathrm {agrupado} }^{2}={\frac {\sum _{k=1}^{n_{1}}(X_{1,k}-{\bar {X}}_{1})^{2}+\sum _{k=1}^{n_{2}}(X_{2,k}-{\bar {X}}_{2})^{2}}{n_{1}+n_{2}-2}}={\frac {(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}}

donde S ₁² y S ₂² son las estimaciones insesgadas habituales ( corregidas por Bessel ) de las dos varianzas poblacionales.

Bajo estos supuestos, la cantidad fundamental

{\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{\mathrm {pooled} }^{2}}{n_{1}}}+{\frac {S_{\mathrm {pooled} }^{2}}{n_{2}}}}}}}

tiene una distribución t con n ₁ + n ₂ − 2 grados de libertad . En consecuencia, se puede encontrar un intervalo de confianza para μ ₂ − μ ₁ cuyos puntos finales son

{\bar {X}}_{2}-{\bar {X_{1}}}\pm A\cdot S_{\mathrm {pooled} }{\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}},

donde A es un cuantil apropiado de la distribución t.

Sin embargo, en el problema de Behrens-Fisher, no se sabe que las dos varianzas de población sean iguales, ni se conoce su relación. Fisher consideró ^{[ cita requerida ]} la cantidad fundamental

{\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}.

Esto se puede escribir como

T_{2}\cos \theta -T_{1}\sin \theta ,\,

dónde

T_{i}={\frac {\mu _{i}-{\bar {X}}_{i}}{S_{i}/{\sqrt {n_{i}}}}}{\text{ for }}i=1,2\,

son las estadísticas t de una muestra habituales y

\tan \theta ={\frac {S_{1}/{\sqrt {n_{1}}}}{S_{2}/{\sqrt {n_{2}}}}}

y se considera que θ está en el primer cuadrante. Los detalles algebraicos son los siguientes:

{\begin{aligned}{\frac {(\mu _{2}-\mu _{1})-({\bar {X}}_{2}-{\bar {X}}_{1})}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}&={\frac {\mu _{2}-{\bar {X}}_{2}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}-{\frac {\mu _{1}-{\bar {X}}_{1}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\\[10pt]&=\underbrace {\frac {\mu _{2}-{\bar {X}}_{2}}{S_{2}/{\sqrt {n_{2}}}}} _{{\text{This is }}T_{2}}\cdot \underbrace {\left({\frac {S_{2}/{\sqrt {n_{2}}}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\right)} _{{\text{This is }}\cos \theta }-\underbrace {\frac {\mu _{1}-{\bar {X}}_{1}}{S_{1}/{\sqrt {n_{1}}}}} _{{\text{This is }}T_{1}}\cdot \underbrace {\left({\frac {S_{1}/{\sqrt {n_{1}}}}{\displaystyle {\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}}}\right)} _{{\text{This is }}\sin \theta }.\qquad \qquad \qquad (1)\end{aligned}}

El hecho de que la suma de los cuadrados de las expresiones entre paréntesis anteriores sea 1 implica que son el coseno al cuadrado y el seno al cuadrado de algún ángulo.

La distribución de Behren-Fisher es en realidad la distribución condicional de la cantidad (1) anterior, dados los valores de las cantidades denominadas cos θ y sen θ . En efecto, las condiciones de Fisher se basan en información auxiliar .

Fisher encontró entonces el " intervalo fiducial " cuyos puntos finales son

{\bar {X}}_{2}-{\bar {X}}_{1}\pm A{\sqrt {{\frac {S_{1}^{2}}{n_{1}}}+{\frac {S_{2}^{2}}{n_{2}}}}}

donde A es el punto porcentual apropiado de la distribución de Behrens-Fisher. Fisher afirmó ^{[ cita requerida ]} que la probabilidad de que μ ₂ − μ ₁ esté en este intervalo, dados los datos (en última instancia, las X ) es la probabilidad de que una variable aleatoria distribuida por Behrens-Fisher esté entre − A y A .

Intervalos fiduciales versus intervalos de confianza

Bartlett ^{[ cita requerida ]} demostró que este "intervalo fiducial" no es un intervalo de confianza porque no tiene una tasa de cobertura constante. Fisher no consideró que esto fuera una objeción convincente al uso del intervalo fiducial. ^{[ cita requerida ]}

Lectura adicional

Kendall, Maurice G., Stuart, Alan (1973) La teoría avanzada de la estadística, volumen 2: inferencia y relación, 3.ª edición , Griffin. ISBN 0-85264-215-6 (capítulo 21)

Referencias

^ Kim, Seock-Ho; Cohen, Allan S. (diciembre de 1998). "Sobre el problema de Behrens-Fisher: una revisión". Revista de estadística educativa y conductual . 23 (4): 356–377. doi :10.3102/10769986023004356. ISSN 1076-9986. S2CID 85462934.