En estadística , la estadística t es la relación entre la diferencia entre el valor estimado de un número y su valor supuesto y su error estándar . Se utiliza en pruebas de hipótesis mediante la prueba t de Student . La estadística t se utiliza en una prueba t para determinar si se apoya o rechaza la hipótesis nula. Es muy similar a la puntuación z , pero con la diferencia de que la estadística t se utiliza cuando el tamaño de la muestra es pequeño o se desconoce la desviación estándar de la población. Por ejemplo, la estadística t se utiliza para estimar la media de la población a partir de una distribución de muestreo de medias de muestra si se desconoce la desviación estándar de la población . También se utiliza junto con el valor p cuando se realizan pruebas de hipótesis donde el valor p nos dice cuáles son las probabilidades de que se hayan producido los resultados.
Sea un estimador del parámetro β en algún modelo estadístico . Entonces, un estadístico t para este parámetro es cualquier cantidad de la forma
donde β 0 es una constante conocida y no aleatoria, que puede coincidir o no con el valor real del parámetro desconocido β , y es el error estándar del estimador para β .
De manera predeterminada, los paquetes estadísticos informan la estadística t con β 0 = 0 (estas estadísticas t se utilizan para probar la significancia del regresor correspondiente). Sin embargo, cuando se necesita la estadística t para probar la hipótesis de la forma H 0 : β = β 0 , entonces se puede utilizar un β 0 distinto de cero .
Si es un estimador de mínimos cuadrados ordinario en el modelo de regresión lineal clásico (es decir, con términos de error distribuidos normalmente y homocedásticos ), y si el valor verdadero del parámetro β es igual a β 0 , entonces la distribución de muestreo del estadístico t es la distribución t de Student con ( n − k ) grados de libertad, donde n es el número de observaciones y k es el número de regresores (incluyendo la intersección) [ cita requerida ] .
En la mayoría de los modelos, el estimador es consistente para β y se distribuye de forma asintóticamente normal . Si el valor verdadero del parámetro β es igual a β 0 y la cantidad estima correctamente la varianza asintótica de este estimador, entonces el estadístico t tendrá de forma asintótica la distribución normal estándar .
En algunos modelos, la distribución del estadístico t es diferente de la distribución normal, incluso de manera asintótica. Por ejemplo, cuando se realiza una regresión de una serie temporal con una raíz unitaria en la prueba Dickey-Fuller aumentada , el estadístico t de la prueba tendrá de manera asintótica una de las distribuciones Dickey-Fuller (según la configuración de la prueba).
Con mayor frecuencia, las estadísticas t se utilizan en las pruebas t de Student , una forma de prueba de hipótesis estadística , y en el cálculo de ciertos intervalos de confianza .
La propiedad clave de la estadística t es que es una cantidad fundamental : si bien se define en términos de la media de la muestra, su distribución de muestreo no depende de los parámetros de la población y, por lo tanto, puede utilizarse independientemente de cuáles sean.
También se puede dividir un residuo por la desviación estándar de la muestra :
para calcular una estimación del número de desviaciones estándar que tiene una muestra dada con respecto a la media, como una versión de muestra de una puntuación z , donde la puntuación z requiere los parámetros de la población.
Dada una distribución normal con media y varianza desconocidas, la estadística t de una observación futura después de haber realizado n observaciones es una estadística auxiliar , una cantidad fundamental (que no depende de los valores de μ y σ 2 ) que es una estadística (calculada a partir de observaciones). Esto permite calcular un intervalo de predicción frecuentista (un intervalo de confianza predictivo ), a través de la siguiente distribución t:
Resolviendo se obtiene la distribución de predicción
a partir de los cuales se pueden calcular intervalos de confianza predictivos: dada una probabilidad p , se pueden calcular intervalos tales que el 100 p % del tiempo, la siguiente observación caerá en ese intervalo.
El término " estadística t " es la abreviatura de "estadística de prueba de hipótesis". [1] [ cita requerida ] En estadística, la distribución t fue derivada por primera vez como una distribución posterior en 1876 por Helmert [2] [3] [4] y Lüroth . [5] [6] [7] La distribución t también apareció en una forma más general como distribución de Pearson Tipo IV en el artículo de Karl Pearson de 1895. [8] Sin embargo, la distribución T, también conocida como distribución T de Student , recibe su nombre de William Sealy Gosset, quien fue el primero en publicar el resultado en inglés en su artículo de 1908 titulado "El error probable de una media" (en Biometrika ) usando su seudónimo "Estudiante" [9] [10] porque su empleador prefería que su personal usara seudónimos al publicar artículos científicos en lugar de su nombre real, por lo que usó el nombre "Estudiante" para ocultar su identidad. [11] Gosset trabajaba en la cervecería Guinness en Dublín , Irlanda , y estaba interesado en los problemas de las muestras pequeñas; por ejemplo, las propiedades químicas de la cebada, donde los tamaños de muestra pueden ser tan pequeños como 3. Por lo tanto, una segunda versión de la etimología del término Student es que Guinness no quería que sus competidores supieran que estaban usando la prueba t para determinar la calidad de la materia prima. Aunque fue William Gosset en cuyo honor se acuñó el término "Student", en realidad fue a través del trabajo de Ronald Fisher que la distribución se hizo conocida como "distribución de Student" [12] [13] y " prueba t de Student ".