stringtranslate.com

Distribución T-cuadrada de Hotelling

En estadística , particularmente en pruebas de hipótesis , la distribución T -cuadrada de Hotelling ( T 2 ), propuesta por Harold Hotelling , [1] es una distribución de probabilidad multivariada que está estrechamente relacionada con la distribución F y es más notable por surgir como la distribución de un conjunto de estadísticas de muestra que son generalizaciones naturales de las estadísticas subyacentes a la distribución t de Student . La estadística t -cuadrada de Hotelling ( t 2 ) es una generalización de la estadística t de Student que se utiliza en pruebas de hipótesis multivariadas . [2]

Motivación

La distribución surge en las estadísticas multivariadas al realizar pruebas de las diferencias entre las medias (multivariadas) de diferentes poblaciones, donde las pruebas para problemas univariados harían uso de una prueba t . La distribución recibe su nombre de Harold Hotelling , quien la desarrolló como una generalización de la distribución t de Student . [1]

Definición

Si el vector tiene una distribución multivariada gaussiana con media cero y matriz de covarianza unitaria y es una matriz aleatoria con una distribución Wishart con matriz de escala unitaria y m grados de libertad , y d y M son independientes entre sí, entonces la forma cuadrática tiene una distribución de Hotelling (con parámetros y ): [3]

Se puede demostrar que si una variable aleatoria X tiene distribución T -cuadrada de Hotelling , entonces: [1]

donde es la distribución F con parámetros p y m  −  p  + 1.

Hoteleríaaestadística al cuadrado

Sea la covarianza de la muestra :

donde denotamos la transposición con un apóstrofe . Se puede demostrar que es una matriz (semi) definida positiva y sigue una distribución Wishart de p -variante con n  − 1 grados de libertad. [4] La matriz de covarianza de muestra de la media se lee . [5]

La estadística t -cuadrada de Hotelling se define entonces como: [6]

que es proporcional a la distancia de Mahalanobis entre la media de la muestra y . Debido a esto, se debería esperar que la estadística asuma valores bajos si , y valores altos si son diferentes.

De la distribución,

donde es la distribución F con parámetros p y n  −  p .

Para calcular un valor p (aquí no relacionado con la variable p ), tenga en cuenta que la distribución de equivalentemente implica que

Luego, utilice la cantidad del lado izquierdo para evaluar el valor p correspondiente a la muestra, que proviene de la distribución F. También se puede determinar una región de confianza utilizando una lógica similar.

Motivación

Sea una distribución normal de p -variable con ubicación y covarianza conocida .

ser n variables aleatorias independientes distribuidas de forma idéntica (iid) , que pueden representarse como vectores columna de números reales. Definir

ser la media de la muestra con covarianza . Se puede demostrar que

donde es la distribución chi-cuadrado con p grados de libertad. [7]

Estadística de dos muestras

Si y , con las muestras extraídas independientemente de dos distribuciones normales multivariadas independientes con la misma media y covarianza, y definimos

como la media de la muestra, y

como las respectivas matrices de covarianza de muestra. Entonces

es la estimación imparcial de la matriz de covarianza agrupada (una extensión de la varianza agrupada ).

Finalmente, la estadística t- cuadrada de dos muestras de Hotelling es

Conceptos relacionados

Se puede relacionar con la distribución F por [4]

La distribución no nula de esta estadística es la distribución F no central (la relación entre una variable aleatoria Chi-cuadrado no central y una variable aleatoria Chi-cuadrado central independiente )

con

donde es el vector de diferencia entre las medias poblacionales.

En el caso de dos variables, la fórmula se simplifica bastante y permite apreciar cómo la correlación, , entre las variables afecta a . Si definimos

y

entonces

Así, si las diferencias en las dos filas del vector son del mismo signo, en general, se hace menor cuanto más positivo se hace. Si las diferencias son de signo opuesto se hace mayor cuanto más positivo se hace.

Un caso especial univariante se puede encontrar en la prueba t de Welch .

En la literatura se han propuesto pruebas más robustas y potentes que la prueba de dos muestras de Hotelling; véanse, por ejemplo, las pruebas basadas en la distancia entre puntos, que se pueden aplicar también cuando el número de variables es comparable o incluso mayor que el número de sujetos. [9] [10]

Véase también

Referencias

  1. ^ abc Hotelling, H. (1931). "La generalización del ratio de Student". Anales de estadística matemática . 2 (3): 360–378. doi : 10.1214/aoms/1177732979 .
  2. ^ Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . Vol. 5. Prentice Hall.
  3. ^ Eric W. Weisstein, MathWorld
  4. ^ ab Mardia, KV; Kent, JT; Bibby, JM (1979). Análisis multivariado . Academic Press. ISBN 978-0-12-471250-8.
  5. ^ Fogelmark, Karl; Lomholt, Michael; Irbäck, Anders; Ambjörnsson, Tobias (3 de mayo de 2018). "Fitting a function to time-dependent ensemble promediated data" (Ajuste de una función a datos promediados de conjunto dependientes del tiempo). Scientific Reports . 8 (1): 6984. doi :10.1038/s41598-018-24983-y. PMC 5934400 . Consultado el 19 de agosto de 2024 . 
  6. ^ "6.5.4.3. T cuadrada de Hotelling".
  7. ^ Fin del capítulo 4.2 de Johnson, RA y Wichern, DW (2002)
  8. ^ Billingsley, P. (1995). "26. Funciones características". Probabilidad y medida (3.ª ed.). Wiley. ISBN 978-0-471-00710-4.
  9. ^ Marozzi, M. (2016). "Pruebas multivariadas basadas en distancias interpuntuales con aplicación a la resonancia magnética". Métodos estadísticos en investigación médica . 25 (6): 2593–2610. doi :10.1177/0962280214529104. PMID  24740998.
  10. ^ Marozzi, M. (2015). "Pruebas multivariadas de múltiples distancias para estudios de casos y controles de tamaño de muestra reducido y de alta dimensión". Estadística en Medicina . 34 (9): 1511–1526. doi :10.1002/sim.6418. PMID  25630579.

Enlaces externos