Distribución T-cuadrada de Hotelling

En estadística , particularmente en pruebas de hipótesis , la distribución T -cuadrada de Hotelling ( T ² ), propuesta por Harold Hotelling , ^[1] es una distribución de probabilidad multivariada que está estrechamente relacionada con la distribución F y es más notable por surgir como la distribución de un conjunto de estadísticas de muestra que son generalizaciones naturales de las estadísticas subyacentes a la distribución t de Student . La estadística t -cuadrada de Hotelling ( t ² ) es una generalización de la estadística t de Student que se utiliza en pruebas de hipótesis multivariadas . ^[2]

Motivación

La distribución surge en las estadísticas multivariadas al realizar pruebas de las diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados harían uso de una prueba t . La distribución recibe su nombre de Harold Hotelling , quien la desarrolló como una generalización de la distribución t de Student . ^[1]

Definición

Si el vector tiene una distribución multivariada gaussiana con media cero y matriz de covarianza unitaria y es una matriz aleatoria con una distribución Wishart con matriz de escala unitaria y m grados de libertad , y d y M son independientes entre sí, entonces la forma cuadrática tiene una distribución de Hotelling (con parámetros y ): ^[3] ${\estilo de visualización d}$ $N(\mathbf {0} _{p},\mathbf {I} _{p,p})$ ${\estilo de visualización M}$ $p\veces p$ $W(\mathbf {I}_{p,p},m)$ ${\estilo de visualización X}$ ${\estilo de visualización p}$ ${\estilo de visualización m}$

X=md^{T}M^{-1}d\sim T^{2}(p,m).

Se puede demostrar que si una variable aleatoria X tiene distribución T -cuadrada de Hotelling , entonces: ^[1] $Estilo de visualización X\sim T_{p,m}^{2}}$

{\frac {m-p+1}{pm}}X\sim F_{p,m-p+1}

donde es la distribución F con parámetros p y m − p + 1. $F_{p,m-p+1}$

Hoteleríaaestadística al cuadrado

Sea la covarianza de la muestra : ${\hat {\mathbf {\Sigma } }}$

{\hat {\mathbf {\Sigma } }}={\frac {1}{n-1}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'

donde denotamos la transposición con un apóstrofe . Se puede demostrar que es una matriz (semi) definida positiva y sigue una distribución Wishart de p -variante con n − 1 grados de libertad. ^[4] La matriz de covarianza de muestra de la media se lee . ^[5] ${\hat {\mathbf {\Sigma } }}$ $(n-1){\hat {\mathbf {\Sigma } }}$ ${\hat {\mathbf {\Sigma } }}_{\overline {\mathbf {x} }}={\hat {\mathbf {\Sigma } }}/n$

La estadística t -cuadrada de Hotelling se define entonces como: ^[6]

t^{2}=({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\hat {\mathbf {\Sigma } }}_{\overline {\mathbf {x} }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})=n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\hat {\mathbf {\Sigma } }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }}),

que es proporcional a la distancia de Mahalanobis entre la media de la muestra y . Debido a esto, se debería esperar que la estadística asuma valores bajos si , y valores altos si son diferentes. ${\boldsymbol {\mu }}$ ${\overline {\mathbf {x} }}\approx {\boldsymbol {\mu }}$

De la distribución,

t^{2}\sim T_{p,n-1}^{2}={\frac {p(n-1)}{np}}F_{p,np},

donde es la distribución F con parámetros p y n − p . $Estilo de visualización F_{p,np}$

Para calcular un valor p (aquí no relacionado con la variable p ), tenga en cuenta que la distribución de equivalentemente implica que ${\estilo de visualización t^{2}}$

{\frac {np}{p(n-1)}}t^{2}\sim F_{p,np}.

Luego, utilice la cantidad del lado izquierdo para evaluar el valor p correspondiente a la muestra, que proviene de la distribución F. También se puede determinar una región de confianza utilizando una lógica similar.

Motivación

Sea una distribución normal de p -variable con ubicación y covarianza conocida . ${\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ ${\boldsymbol {\mu }}$ ${\mathbf {\Sigma}}$

{\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu } },{\mathbf {\Sigma } })

ser n variables aleatorias independientes distribuidas de forma idéntica (iid) , que pueden representarse como vectores columna de números reales. Definir $p\times 1$

{\overline {\mathbf {x} }}={\frac {\mathbf {x} _{1}+\cdots +\mathbf {x} _{n}}{n}}

ser la media de la muestra con covarianza . Se puede demostrar que ${\mathbf {\Sigma } }_{\overline {\mathbf {x} }}={\mathbf {\Sigma } }/n$

({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }_{\overline {\mathbf {x} }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})\sim \chi _{p}^{2},

donde es la distribución chi-cuadrado con p grados de libertad. ^[7] $\chi _{p}^{2}$

Estadística de dos muestras

Si y , con las muestras extraídas independientemente de dos distribuciones normales multivariadas independientes con la misma media y covarianza, y definimos ${\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n_{x}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ ${\mathbf {y} }_{1},\dots ,{\mathbf {y} }_{n_{y}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$

{\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}

como la media de la muestra, y

{\hat {\mathbf {\Sigma } }}_{\mathbf {x} }={\frac {1}{n_{x}-1}}\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'

{\hat {\mathbf {\Sigma } }}_{\mathbf {y} }={\frac {1}{n_{y}-1}}\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})'

como las respectivas matrices de covarianza de muestra. Entonces

{\hat {\mathbf {\Sigma } }}={\frac {(n_{x}-1){\hat {\mathbf {\Sigma } }}_{\mathbf {x} }+(n_{y}-1){\hat {\mathbf {\Sigma } }}_{\mathbf {y} }}{n_{x}+n_{y}-2}}

es la estimación imparcial de la matriz de covarianza agrupada (una extensión de la varianza agrupada ).

Finalmente, la estadística t- cuadrada de dos muestras de Hotelling es

t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})'{\hat {\mathbf {\Sigma } }}^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)

Conceptos relacionados

Se puede relacionar con la distribución F por ^[4]

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p).

La distribución no nula de esta estadística es la distribución F no central (la relación entre una variable aleatoria Chi-cuadrado no central y una variable aleatoria Chi-cuadrado central independiente )

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p;\delta ),

con

\delta ={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}{\boldsymbol {d}}'\mathbf {\Sigma } ^{-1}{\boldsymbol {d}},

donde es el vector de diferencia entre las medias poblacionales. ${\boldsymbol {d}}=\mathbf {{\overline {x}}-{\overline {y}}}$

En el caso de dos variables, la fórmula se simplifica bastante y permite apreciar cómo la correlación, , entre las variables afecta a . Si definimos $\rho$ $t^{2}$

d_{1}={\overline {x}}_{1}-{\overline {y}}_{1},\qquad d_{2}={\overline {x}}_{2}-{\overline {y}}_{2}

s_{1}={\sqrt {\Sigma _{11}}}\qquad s_{2}={\sqrt {\Sigma _{22}}}\qquad \rho =\Sigma _{12}/(s_{1}s_{2})=\Sigma _{21}/(s_{1}s_{2})

entonces

t^{2}={\frac {n_{x}n_{y}}{(n_{x}+n_{y})(1-\rho ^{2})}}\left[\left({\frac {d_{1}}{s_{1}}}\right)^{2}+\left({\frac {d_{2}}{s_{2}}}\right)^{2}-2\rho \left({\frac {d_{1}}{s_{1}}}\right)\left({\frac {d_{2}}{s_{2}}}\right)\right]

Así, si las diferencias en las dos filas del vector son del mismo signo, en general, se hace menor cuanto más positivo se hace. Si las diferencias son de signo opuesto se hace mayor cuanto más positivo se hace. $\mathbf {d} ={\overline {\mathbf {x} }}-{\overline {\mathbf {y} }}$ $t^{2}$ $\rho$ $t^{2}$ $\rho$

Un caso especial univariado se puede encontrar en la prueba t de Welch .

En la literatura se han propuesto pruebas más robustas y potentes que la prueba de dos muestras de Hotelling; véanse, por ejemplo, las pruebas basadas en la distancia entre puntos, que se pueden aplicar también cuando el número de variables es comparable o incluso mayor que el número de sujetos. ^[9]^[10]

Véase también

Prueba t de Student en estadística univariante
Distribución t de Student en la teoría de probabilidad univariante
Distribución de Student multivariada
Distribución F (comúnmente tabulada o disponible en bibliotecas de software, y por lo tanto utilizada para probar la estadística T -cuadrado utilizando la relación dada anteriormente)
Distribución lambda de Wilks (en estadística multivariada , Λ de Wilks es a T ² de Hotelling como F de Snedecor es a t de Student en estadística univariada)

Referencias

^ abc Hotelling, H. (1931). "La generalización del ratio de Student". Anales de estadística matemática . 2 (3): 360–378. doi : 10.1214/aoms/1177732979 .
^ Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . Vol. 5. Prentice Hall.
^ Eric W. Weisstein, MathWorld
^ ab Mardia, KV; Kent, JT; Bibby, JM (1979). Análisis multivariado . Academic Press. ISBN 978-0-12-471250-8.
^ Fogelmark, Karl; Lomholt, Michael; Irbäck, Anders; Ambjörnsson, Tobias (3 de mayo de 2018). "Fitting a function to time-dependent ensemble promediated data" (Ajuste de una función a datos promediados de conjunto dependientes del tiempo). Scientific Reports . 8 (1): 6984. doi :10.1038/s41598-018-24983-y. PMC 5934400 . Consultado el 19 de agosto de 2024 .
^ "6.5.4.3. T cuadrada de Hotelling".
^ Fin del capítulo 4.2 de Johnson, RA y Wichern, DW (2002)
^ Billingsley, P. (1995). "26. Funciones características". Probabilidad y medida (3.ª ed.). Wiley. ISBN 978-0-471-00710-4.
^ Marozzi, M. (2016). "Pruebas multivariadas basadas en distancias interpuntuales con aplicación a la resonancia magnética". Métodos estadísticos en investigación médica . 25 (6): 2593–2610. doi :10.1177/0962280214529104. PMID 24740998.
^ Marozzi, M. (2015). "Pruebas multivariadas de múltiples distancias para estudios de casos y controles de tamaño de muestra reducido y de alta dimensión". Estadística en Medicina . 34 (9): 1511–1526. doi :10.1002/sim.6418. PMID 25630579.

Enlaces externos

Prokhorov, AV (2001) [1994], Distribución T2 "Distribución T2 de Hotelling", Enciclopedia de Matemáticas , EMS Press