estadística t

En estadística , la estadística t es la relación entre la diferencia entre el valor estimado de un número y su valor supuesto y su error estándar . Se utiliza en pruebas de hipótesis mediante la prueba t de Student . La estadística t se utiliza en una prueba t para determinar si se apoya o rechaza la hipótesis nula. Es muy similar a la puntuación z , pero con la diferencia de que la estadística t se utiliza cuando el tamaño de la muestra es pequeño o se desconoce la desviación estándar de la población. Por ejemplo, la estadística t se utiliza para estimar la media de la población a partir de una distribución de muestreo de medias de muestra si se desconoce la desviación estándar de la población . También se utiliza junto con el valor p cuando se realizan pruebas de hipótesis donde el valor p nos dice cuáles son las probabilidades de que se hayan producido los resultados.

Definición y características

Sea un estimador del parámetro β en algún modelo estadístico . Entonces, un estadístico t para este parámetro es cualquier cantidad de la forma ${\sombrero {\beta }}$

t_{\hat {\beta }}={\frac {{\hat {\beta }}-\beta _{0}}{\operatorname {se} ({\hat {\beta }})} },

donde β ₀ es una constante conocida y no aleatoria, que puede coincidir o no con el valor real del parámetro desconocido β , y es el error estándar del estimador para β . $\operatorname {se} ({\hat {\beta }})$ ${\sombrero {\beta }}$

De manera predeterminada, los paquetes estadísticos informan la estadística t con β ₀ = 0 (estas estadísticas t se utilizan para probar la significancia del regresor correspondiente). Sin embargo, cuando se necesita la estadística t para probar la hipótesis de la forma H ₀ : β = β ₀ , entonces se puede utilizar un β ₀ distinto de cero .

Si es un estimador de mínimos cuadrados ordinario en el modelo de regresión lineal clásico (es decir, con términos de error distribuidos normalmente y homocedásticos ), y si el valor verdadero del parámetro β es igual a β ₀ , entonces la distribución de muestreo del estadístico t es la distribución t de Student con ( n − k ) grados de libertad, donde n es el número de observaciones y k es el número de regresores (incluyendo la intersección) ^[^{cita requerida}^] . ${\sombrero {\beta }}$

En la mayoría de los modelos, el estimador es consistente para β y se distribuye de forma asintóticamente normal . Si el valor verdadero del parámetro β es igual a β ₀ y la cantidad estima correctamente la varianza asintótica de este estimador, entonces el estadístico t tendrá de forma asintótica la distribución normal estándar . ${\sombrero {\beta }}$ $\operatorname {se} ({\hat {\beta }})$

En algunos modelos, la distribución del estadístico t es diferente de la distribución normal, incluso de manera asintótica. Por ejemplo, cuando se realiza una regresión de una serie temporal con una raíz unitaria en la prueba Dickey-Fuller aumentada , el estadístico t de la prueba tendrá de manera asintótica una de las distribuciones Dickey-Fuller (según la configuración de la prueba).

Usar

Con mayor frecuencia, las estadísticas t se utilizan en las pruebas t de Student , una forma de prueba de hipótesis estadística , y en el cálculo de ciertos intervalos de confianza .

La propiedad clave de la estadística t es que es una cantidad fundamental : si bien se define en términos de la media de la muestra, su distribución de muestreo no depende de los parámetros de la población y, por lo tanto, puede utilizarse independientemente de cuáles sean.

También se puede dividir un residuo por la desviación estándar de la muestra :

g(x,X)={\frac {x-{\overline {X}}}{s}}

para calcular una estimación del número de desviaciones estándar que tiene una muestra dada con respecto a la media, como una versión de muestra de una puntuación z , donde la puntuación z requiere los parámetros de la población.

Predicción

Dada una distribución normal con media y varianza desconocidas, la estadística t de una observación futura después de haber realizado n observaciones es una estadística auxiliar , una cantidad fundamental (que no depende de los valores de μ y σ ² ) que es una estadística (calculada a partir de observaciones). Esto permite calcular un intervalo de predicción frecuentista (un intervalo de confianza predictivo ), a través de la siguiente distribución t: $N(\mu ,\sigma ^{2})$ $X_{n+1},$

{\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{\sqrt {1+n^{-1}}}}}\sim T^{n-1}.

Resolviendo se obtiene la distribución de predicción $Estilo de visualización X_{n+1}}$

{\overline {X}}_{n}+s_{n}{\sqrt {1+n^{-1}}}\cdot T^{n-1},

a partir de los cuales se pueden calcular intervalos de confianza predictivos: dada una probabilidad p , se pueden calcular intervalos tales que el 100 p % del tiempo, la siguiente observación caerá en ese intervalo. $Estilo de visualización X_{n+1}}$

Historia

El término " estadística t " es la abreviatura de "estadística de prueba de hipótesis". ^[1]^{[ cita requerida ]} En estadística, la distribución t fue derivada por primera vez como una distribución posterior en 1876 por Helmert ^[2]^[3]^[4] y Lüroth . ^[5]^[6]^[7] La distribución t también apareció en una forma más general como distribución de Pearson Tipo IV en el artículo de Karl Pearson de 1895. ^[8] Sin embargo, la distribución T, también conocida como distribución T de Student , recibe su nombre de William Sealy Gosset, quien fue el primero en publicar el resultado en inglés en su artículo de 1908 titulado "El error probable de una media" (en Biometrika ) usando su seudónimo "Estudiante" ^[9]^[10] porque su empleador prefería que su personal usara seudónimos al publicar artículos científicos en lugar de su nombre real, por lo que usó el nombre "Estudiante" para ocultar su identidad. ^[11] Gosset trabajaba en la cervecería Guinness en Dublín , Irlanda , y estaba interesado en los problemas de las muestras pequeñas; por ejemplo, las propiedades químicas de la cebada, donde los tamaños de muestra pueden ser tan pequeños como 3. Por lo tanto, una segunda versión de la etimología del término Student es que Guinness no quería que sus competidores supieran que estaban usando la prueba t para determinar la calidad de la materia prima. Aunque fue William Gosset en cuyo honor se acuñó el término "Student", en realidad fue a través del trabajo de Ronald Fisher que la distribución se hizo conocida como "distribución de Student" ^[12]^[13] y " prueba t de Student ".

Conceptos relacionados

Puntuación z (estandarización) : si se conocen los parámetros de la población, en lugar de calcular la estadística t, se puede calcular la puntuación z; de manera análoga, en lugar de utilizar una prueba t , se utiliza una prueba z . Esto es poco frecuente fuera de las pruebas estandarizadas .
Residuo estudentizado : en el análisis de regresión , los errores estándar de los estimadores en diferentes puntos de datos varían (compare los puntos medios y finales de una regresión lineal simple ) y, por lo tanto, uno debe dividir los diferentes residuos por diferentes estimaciones del error, lo que produce lo que se denomina residuos estudentizados .

Véase también

Referencias

^ El microbioma en la salud y la enfermedad. Academic Press. 29 de mayo de 2020. p. 397. ISBN 978-0-12-820001-8.
^ Szabó, István (2003), "Systeme aus einer endlichen Anzahl starrer Körper", Einführung in die Technische Mechanik , Springer Berlin Heidelberg, págs. 196-199, doi :10.1007/978-3-642-61925-0_16, ISBN 978-3-540-13293-6
^ Schlyvitch, B. (octubre de 1937). "Untersuchungen über den anastomotischen Kanal zwischen der Arteria coeliaca und mesenterica superior und damit in Zusammenhang stehende Fragen". Zeitschrift für Anatomie und Entwicklungsgeschichte . 107 (6): 709–737. doi :10.1007/bf02118337. ISSN 0340-2061. S2CID 27311567.
^ Helmert (1876). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers director Beobachtungen gleicher Genauigkeit". Astronomische Nachrichten (en alemán). 88 (8–9): 113–131. Código bibliográfico : 1876AN.....88..113H. doi :10.1002/asna.18760880802.
^ Lüroth, J. (1876). "Vergleichung von zwei Werthen des wahrscheinlichen Fehlers". Astronomische Nachrichten (en alemán). 87 (14): 209–220. Código bibliográfico : 1876AN.....87..209L. doi :10.1002/asna.18760871402.
^ Pfanzagl, J. (1996). "Estudios en la historia de la probabilidad y la estadística XLIV. Un precursor de la distribución t". Biometrika . 83 (4): 891–898. doi :10.1093/biomet/83.4.891. MR 1766040.
^ Sheynin, Oscar (1995). "El trabajo de Helmert en la teoría de los errores". Archivo de Historia de las Ciencias Exactas . 49 (1): 73–104. doi :10.1007/BF00374700. ISSN 0003-9519. S2CID 121241599.
^ Pearson, Karl (1895). "X. Contribuciones a la teoría matemática de la evolución.—II. Variación sesgada en material homogéneo". Philosophical Transactions of the Royal Society of London A . 186 : 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . ISSN 1364-503X.
^ "Estudiante" ( William Sealy Gosset ) (1908). "El error probable de una media". Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR 2331554.
^ "Tabla T | Historia de la tabla T, etimología, tabla T de una cola, tabla T de dos colas y estadística T".
^ Wendl, MC (2016). "Fama seudónima". Science . 351 (6280): 1406. doi :10.1126/science.351.6280.1406. PMID 27013722.
^ Tuttle, Md; Anazonwu, Bs, Walter; Rubin, Md, Lee (2014). "Análisis de subgrupos del ácido tranexámico tópico en la artroplastia total de rodilla". Reconstructive Review . 4 (2): 37–41. doi : 10.15438/rr.v4i2.72 .
^ Walpole, Ronald E. (2006). Probabilidad y estadística para ingenieros y científicos . Myers, H. Raymond. (7.ª ed.). Nueva Delhi: Pearson. ISBN 81-7758-404-9.OCLC 818811849 .