Tipo de distribución de probabilidad
En estadística , particularmente en pruebas de hipótesis , la distribución T cuadrada de Hotelling ( T 2 ), propuesta por Harold Hotelling , [1] es una distribución de probabilidad multivariada que está estrechamente relacionada con la distribución F y es más notable por surgir como la distribución de un conjunto de estadísticas muestrales que son generalizaciones naturales de las estadísticas subyacentes a la distribución t de Student . El estadístico t cuadrado de Hotelling ( t 2 ) es una generalización del estadístico t de Student que se utiliza en las pruebas de hipótesis multivariadas . [2]
Motivación
La distribución surge en la estadística multivariada al realizar pruebas de las diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados harían uso de una prueba t . La distribución lleva el nombre de Harold Hotelling , quien la desarrolló como una generalización de la distribución t de Student . [1]
Definición
Si el vector tiene distribución multivariada gaussiana con media cero y matriz de covarianza unitaria y es una matriz con matriz de escala unitaria y m grados de libertad con una distribución Wishart , entonces la forma cuadrática tiene una distribución de Hotelling (con parámetros y ): [3]
Además, si una variable aleatoria X tiene la distribución T cuadrada de Hotelling , entonces: [1]
donde está la distribución F con parámetros p y m − p + 1.
Estadística t -cuadrada de Hotelling
Sea la covarianza muestral :
donde denotamos transposición con un apóstrofe . Se puede demostrar que es una matriz positiva (semi) definida y sigue una distribución de Wishart p -variada con n − 1 grados de libertad. [4]
La matriz de covarianza de muestra de la media dice .
El estadístico t cuadrado de Hotelling se define entonces como: [5]
que es proporcional a la distancia entre la media muestral y . Debido a esto, se debe esperar que la estadística asuma valores bajos si y valores altos si son diferentes.
De la distribución,
donde está la distribución F con parámetros p y n − p .
Para calcular un valor p (aquí no relacionado con la variable p ), tenga en cuenta que la distribución de equivalente implica que
Luego, use la cantidad del lado izquierdo para evaluar el valor p correspondiente a la muestra, que proviene de la distribución F. También se puede determinar una región de confianza utilizando una lógica similar.
Motivación
Denotemos una distribución normal p -variada con ubicación y covarianza conocida . Dejar
Ser n variables aleatorias independientes distribuidas idénticamente (iid) , que pueden representarse como vectores columna de números reales. Definir
ser la media muestral con covarianza . Se puede demostrar que
donde está la distribución chi-cuadrado con p grados de libertad. [6]
Estadística de dos muestras
Si y , con las muestras extraídas independientemente de dos distribuciones normales multivariadas independientes con la misma media y covarianza, y definimos
como las medias muestrales, y
como las respectivas matrices de covarianza muestral. Entonces
es la estimación de la matriz de covarianza agrupada insesgada (una extensión de la varianza agrupada ).
Finalmente, el estadístico t cuadrado de dos muestras de Hotelling es
Conceptos relacionados
Se puede relacionar con la distribución F mediante [4]
La distribución no nula de esta estadística es la distribución F no central (la relación entre una variable aleatoria de Chi-cuadrado no central y una variable aleatoria de Chi-cuadrado central independiente)
con
¿Dónde está el vector de diferencia entre las medias poblacionales?
En el caso de dos variables, la fórmula se simplifica bastante permitiendo apreciar cómo afecta la correlación, entre las variables . si definimos
y
entonces
Así, si las diferencias en las dos filas del vector son del mismo signo, en general, se hace menor a medida que se vuelve más positivo. Si las diferencias son de signo opuesto se hace mayor a medida que se vuelve más positiva.
Se puede encontrar un caso especial univariante en la prueba t de Welch .
En la literatura se han propuesto pruebas más sólidas y potentes que la prueba de dos muestras de Hotelling; véanse, por ejemplo, las pruebas basadas en la distancia entre puntos que se pueden aplicar también cuando el número de variables es comparable o incluso mayor que el número de sujetos. [8] [9]
Ver también
Referencias
- ^ abc Hotelling, H. (1931). "La generalización del ratio de Student". Anales de estadística matemática . 2 (3): 360–378. doi : 10.1214/aoms/1177732979 .
- ^ Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . vol. 5. Salón Prentice.
- ^ Eric W. Weisstein, MundoMatemático
- ^ ab Mardia, KV; Kent, JT; Bibby, JM (1979). Analisis multivariable . Prensa académica. ISBN 978-0-12-471250-8.
- ^ "6.5.4.3. T al cuadrado de Hotelling".
- ^ Fin del capítulo 4.2 de Johnson, RA & Wichern, DW (2002)
- ^ Billingsley, P. (1995). "26. Funciones características". Probabilidad y medida (3ª ed.). Wiley. ISBN 978-0-471-00710-4.
- ^ Marozzi, M. (2016). "Pruebas multivariadas basadas en distancias interpuntos con aplicación a la resonancia magnética". Métodos estadísticos en la investigación médica . 25 (6): 2593–2610. doi :10.1177/0962280214529104. PMID 24740998.
- ^ Marozzi, M. (2015). "Pruebas multivariadas y multidistancia para estudios de casos y controles de alta dimensión y tamaño de muestra bajo". Estadística en Medicina . 34 (9): 1511-1526. doi :10.1002/sim.6418. PMID 25630579.
enlaces externos