Distribución T cuadrada de Hotelling

En estadística , particularmente en pruebas de hipótesis , la distribución T cuadrada de Hotelling ( T ² ), propuesta por Harold Hotelling , ^[1] es una distribución de probabilidad multivariada que está estrechamente relacionada con la distribución F y es más notable por surgir como la distribución de un conjunto de estadísticas muestrales que son generalizaciones naturales de las estadísticas subyacentes a la distribución t de Student . El estadístico t cuadrado de Hotelling ( t ² ) es una generalización del estadístico t de Student que se utiliza en las pruebas de hipótesis multivariadas . ^[2]

Motivación

La distribución surge en la estadística multivariada al realizar pruebas de las diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados harían uso de una prueba t . La distribución lleva el nombre de Harold Hotelling , quien la desarrolló como una generalización de la distribución t de Student . ^[1]

Definición

Si el vector tiene distribución multivariada gaussiana con media cero y matriz de covarianza unitaria y es una matriz con matriz de escala unitaria y m grados de libertad con una distribución Wishart , entonces la forma cuadrática tiene una distribución de Hotelling (con parámetros y ): ^[3] $d$ $N(\mathbf {0} _{p},\mathbf {I} _{p,p})$ $M$ $p\times p$ $W(\mathbf {I} _ {p,p},m)$ $X$ $p$ $m$

X=md^{T}M^{-1}d\sim T^{2}(p,m).

Además, si una variable aleatoria X tiene la distribución T cuadrada de Hotelling , entonces: ^[1] $X\sim T_{p,m}^{2}$

{\frac {m-p+1}{pm}}X\sim F_{p,m-p+1}

donde está la distribución F con parámetros p y m − p + 1. $F_{p,m-p+1}$

Estadística t -cuadrada de Hotelling

Sea la covarianza muestral : ${\sombrero {\mathbf {\Sigma } }}$

{\hat {\mathbf {\Sigma } }}={\frac {1}{n-1}}\sum _ {i=1}^{n}(\mathbf {x} _{i} -{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'

donde denotamos transposición con un apóstrofe . Se puede demostrar que es una matriz positiva (semi) definida y sigue una distribución de Wishart p -variada con n − 1 grados de libertad. ^[4] La matriz de covarianza de muestra de la media dice . ${\sombrero {\mathbf {\Sigma } }}$ $(n-1){\hat {\mathbf {\Sigma } }}$ ${\hat {\mathbf {\Sigma } }}_{\overline {\mathbf {x} }}={\hat {\mathbf {\Sigma } }}/n$

El estadístico t cuadrado de Hotelling se define entonces como: ^[5]

t^{2}=n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\hat {\mathbf {\Sigma } }}_{\overline { \mathbf {x} }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }}),

que es proporcional a la distancia entre la media muestral y . Debido a esto, se debe esperar que la estadística asuma valores bajos si y valores altos si son diferentes. ${\boldsymbol {\mu }}$ ${\overline {\mathbf {x} }}\approx {\boldsymbol {\mu }}$

De la distribución,

t^{2}\sim T_{p,n-1}^{2}={\frac {p(n-1)}{np}}F_{p,np},

donde está la distribución F con parámetros p y n − p . $F_{p,np}$

Para calcular un valor p (aquí no relacionado con la variable p ), tenga en cuenta que la distribución de equivalente implica que $t^{2}$

{\frac {np}{p(n-1)}}t^{2}\sim F_{p,np}.

Luego, use la cantidad del lado izquierdo para evaluar el valor p correspondiente a la muestra, que proviene de la distribución F. También se puede determinar una región de confianza utilizando una lógica similar.

Motivación

Denotemos una distribución normal p -variada con ubicación y covarianza conocida . Dejar ${\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ ${\boldsymbol {\mu }}$ ${\mathbf {\Sigma } }$

{\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu } },{\mathbf {\Sigma } })

Ser n variables aleatorias independientes distribuidas idénticamente (iid) , que pueden representarse como vectores columna de números reales. Definir $p\veces 1$

{\overline {\mathbf {x} }}={\frac {\mathbf {x} _{1}+\cdots +\mathbf {x} _{n}}{n}}

ser la media muestral con covarianza . Se puede demostrar que ${\mathbf {\Sigma } }_{\overline {\mathbf {x} }}={\mathbf {\Sigma } }/n$

({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }_{\overline {\mathbf {x} }}^{-1 }({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})\sim \chi _{p}^{2},

donde está la distribución chi-cuadrado con p grados de libertad. ^[6] $\chi_{p}^{2}$

Estadística de dos muestras

Si y , con las muestras extraídas independientemente de dos distribuciones normales multivariadas independientes con la misma media y covarianza, y definimos ${\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n_{x}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ ${\mathbf {y} }_{1},\dots ,{\mathbf {y} }_{n_{y}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$

{\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}

como las medias muestrales, y

{\hat {\mathbf {\Sigma } }}_{\mathbf {x} }={\frac {1}{n_{x}-1}}\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'

{\hat {\mathbf {\Sigma } }}_{\mathbf {y} }={\frac {1}{n_{y}-1}}\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})'

como las respectivas matrices de covarianza muestral. Entonces

{\hat {\mathbf {\Sigma } }}={\frac {(n_{x}-1){\hat {\mathbf {\Sigma } }}_{\mathbf {x} }+(n_{y}-1){\hat {\mathbf {\Sigma } }}_{\mathbf {y} }}{n_{x}+n_{y}-2}}

es la estimación de la matriz de covarianza agrupada insesgada (una extensión de la varianza agrupada ).

Finalmente, el estadístico t cuadrado de dos muestras de Hotelling es

t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})'{\hat {\mathbf {\Sigma } }}^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)

Conceptos relacionados

Se puede relacionar con la distribución F mediante ^[4]

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p).

La distribución no nula de esta estadística es la distribución F no central (la relación entre una variable aleatoria de Chi-cuadrado no central y una variable aleatoria de Chi-cuadrado central independiente)

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p;\delta ),

con

\delta ={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}{\boldsymbol {d}}'\mathbf {\Sigma } ^{-1}{\boldsymbol {d}},

¿Dónde está el vector de diferencia entre las medias poblacionales? ${\boldsymbol {d}}=\mathbf {{\overline {x}}-{\overline {y}}}$

En el caso de dos variables, la fórmula se simplifica bastante permitiendo apreciar cómo afecta la correlación, entre las variables . si definimos $\rho$ $t^{2}$

d_{1}={\overline {x}}_{1}-{\overline {y}}_{1},\qquad d_{2}={\overline {x}}_{2}-{\overline {y}}_{2}

s_{1}={\sqrt {\Sigma _{11}}}\qquad s_{2}={\sqrt {\Sigma _{22}}}\qquad \rho =\Sigma _{12}/(s_{1}s_{2})=\Sigma _{21}/(s_{1}s_{2})

entonces

t^{2}={\frac {n_{x}n_{y}}{(n_{x}+n_{y})(1-r^{2})}}\left[\left({\frac {d_{1}}{s_{1}}}\right)^{2}+\left({\frac {d_{2}}{s_{2}}}\right)^{2}-2\rho \left({\frac {d_{1}}{s_{1}}}\right)\left({\frac {d_{2}}{s_{2}}}\right)\right]

Así, si las diferencias en las dos filas del vector son del mismo signo, en general, se hace menor a medida que se vuelve más positivo. Si las diferencias son de signo opuesto se hace mayor a medida que se vuelve más positiva. $\mathbf {d} ={\overline {\mathbf {x} }}-{\overline {\mathbf {y} }}$ $t^{2}$ $\rho$ $t^{2}$ $\rho$

Se puede encontrar un caso especial univariante en la prueba t de Welch .

En la literatura se han propuesto pruebas más sólidas y potentes que la prueba de dos muestras de Hotelling; véanse, por ejemplo, las pruebas basadas en la distancia entre puntos que se pueden aplicar también cuando el número de variables es comparable o incluso mayor que el número de sujetos. ^[8]^[9]

Ver también

Prueba t de Student en estadística univariada
Distribución t de Student en teoría de probabilidad univariada
Distribución multivariada de estudiantes
Distribución F (comúnmente tabulada o disponible en bibliotecas de software y, por lo tanto, utilizada para probar la estadística T cuadrada utilizando la relación dada anteriormente)
Distribución lambda de Wilks (en estadística multivariada , Λ de Wilks es a la T ² de Hotelling como la F de Snedecor es a la t de Student en estadística univariada)

Referencias

^ abc Hotelling, H. (1931). "La generalización del ratio de Student". Anales de estadística matemática . 2 (3): 360–378. doi : 10.1214/aoms/1177732979 .
^ Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . vol. 5. Salón Prentice.
^ Eric W. Weisstein, MundoMatemático
^ ab Mardia, KV; Kent, JT; Bibby, JM (1979). Analisis multivariable . Prensa académica. ISBN 978-0-12-471250-8.
^ "6.5.4.3. T al cuadrado de Hotelling".
^ Fin del capítulo 4.2 de Johnson, RA & Wichern, DW (2002)
^ Billingsley, P. (1995). "26. Funciones características". Probabilidad y medida (3ª ed.). Wiley. ISBN 978-0-471-00710-4.
^ Marozzi, M. (2016). "Pruebas multivariadas basadas en distancias interpuntos con aplicación a la resonancia magnética". Métodos estadísticos en la investigación médica . 25 (6): 2593–2610. doi :10.1177/0962280214529104. PMID 24740998.
^ Marozzi, M. (2015). "Pruebas multivariadas y multidistancia para estudios de casos y controles de alta dimensión y tamaño de muestra bajo". Estadística en Medicina . 34 (9): 1511-1526. doi :10.1002/sim.6418. PMID 25630579.

enlaces externos

Prokhorov, AV (2001) [1994], Distribución T2 "Distribución T2 de Hotelling", Enciclopedia de Matemáticas , EMS Press