Distribución t de Student

En probabilidad y estadística , la distribución $t$ de Student (o simplemente distribución $t$ ) es una distribución de probabilidad continua que generaliza la distribución normal estándar . Al igual que esta última, es simétrica alrededor del cero y tiene forma de campana. $\ t_{\nu }\$

Sin embargo, tiene colas más pesadas y la cantidad de masa de probabilidad en las colas está controlada por el parámetro Para la distribución $t de Student se convierte en la$ distribución de Cauchy estándar , que tiene colas muy "gordas" ; mientras que para se convierte en la distribución normal estándar , que tiene colas muy "delgadas". $\ t_{\nu }\$ $\ \nu ~~.$ $\ \nu =1\$ $t_{\nu }$ $\ \nu \rightarrow \infty \$ $\ {\mathcal {N}}(0,1)\,$

$La distribución t$ de Student desempeña un papel en una serie de análisis estadísticos ampliamente utilizados, incluida la prueba t de Student para evaluar la significación estadística de la diferencia entre dos medias de muestra, la construcción de intervalos de confianza para la diferencia entre dos medias de población y en el análisis de regresión lineal .

En la forma de distribución $t$ de escala de ubicación, generaliza la distribución normal y también surge en el análisis bayesiano de datos de una familia normal como una distribución compuesta al marginalizar sobre el parámetro de varianza. $lst(\mu ,\tau ^{2},\nu )$

Historia y etimología

En estadística, la distribución $t$ fue derivada por primera vez como una distribución posterior en 1876 por Helmert ^[3]^[4]^[5] y Lüroth ^[6]^[7]^[8] Como tal, la distribución t de Student es un ejemplo de la Ley de epónima de Stigler . La distribución $t$ también apareció en una forma más general como distribución tipo IV de Pearson en el artículo de Karl Pearson de 1895. ^[9]

En la literatura en lengua inglesa, la distribución toma su nombre del artículo de 1908 de William Sealy Gosset en Biometrika bajo el seudónimo de "Student". ^[10] Una versión del origen del seudónimo es que el empleador de Gosset prefería que el personal usara seudónimos al publicar artículos científicos en lugar de su nombre real, por lo que utilizó el nombre "Student" para ocultar su identidad. Otra versión es que Guinness no quería que sus competidores supieran que estaban utilizando la prueba $t$ para determinar la calidad de la materia prima. ^[11]^[12]

Gosset trabajó en la fábrica de cerveza Guinness en Dublín, Irlanda , y estaba interesado en los problemas de las muestras pequeñas; por ejemplo, las propiedades químicas de la cebada, donde los tamaños de muestra pueden ser tan pequeños como 3. El artículo de Gosset se refiere a la distribución como la "distribución de frecuencia de las desviaciones estándar de muestras extraídas de una población normal". Se hizo muy conocida a través del trabajo de Ronald Fisher , quien llamó a la distribución "distribución de Student" y representó el valor de prueba con la letra $t$ . ^[13]^[14]

Definición

Función de densidad de probabilidad

La distribución $t$ de Student tiene la función de densidad de probabilidad (PDF) dada por

f(t)\ =\ {\frac {\ \Gamma \!\left({\frac {\ \nu +1\ }{2}}\right)\ }{\ {\sqrt {\pi \ \nu \ }}\;\Gamma \!\left({\frac {\nu }{2}}\right)}}\;\left(\ 1+{\frac {~t^{2}\ }{\nu }}\ \right)^{-(\nu +1)/2}\ ,

donde es el número de grados de libertad y es la función gamma . Esto también se puede escribir como $\ \nu \$ $\ \Gamma \$

f(t)\ =\ {\frac {1}{\ {\sqrt {\nu \ }}\ {\mathrm {B} }\!\left({\frac {\ 1\ }{2}},\ {\frac {\ \nu \ }{2}}\right)\ }}\;\left(\ 1+{\frac {\ t^{2}\ }{\nu }}\ \right)^{-(\nu +1)/2}\ ,

donde es la función Beta . En particular, para grados de libertad de valores enteros tenemos: $\ {\mathrm {B} }\$ $\ \nu \$

Porque y aun, $\ \nu >1\$

\ {\frac {\ \Gamma \!\left({\frac {\ \nu +1\ }{2}}\right)\ }{\ {\sqrt {\pi \ \nu \ }}\;\Gamma \!\left({\frac {\ \nu \ }{2}}\right)\ }}\ =\ {\frac {1}{\ 2{\sqrt {\nu \ }}\ }}\ \cdot \ {\frac {\ (\nu -1)\cdot (\nu -3)\cdots 5\cdot 3\ }{\ (\nu -2)\cdot (\nu -4)\cdots 4\cdot 2\ }}~.

Por y para impar, $\ \nu >1\$

\ {\frac {\ \Gamma \!\left({\frac {\ \nu +1\ }{2}}\right)\ }{\ {\sqrt {\pi \ \nu \ }}\ \Gamma \!\left({\frac {\ \nu \ }{2}}\right)}}\ =\ {\frac {1}{\ \pi {\sqrt {\nu \ }}\ }}\ \cdot \ {\frac {(\nu -1)\cdot (\nu -3)\cdots 4\cdot 2\ }{\ (\nu -2)\cdot (\nu -4)\cdots 5\cdot 3\ }}~.

La función de densidad de probabilidad es simétrica y su forma general se asemeja a la forma de campana de una variable distribuida normalmente con media 0 y varianza 1, excepto que es un poco más baja y más ancha. A medida que aumenta el número de grados de libertad, la distribución $t$ se aproxima a la distribución normal con media 0 y varianza 1. Por esta razón, también se la conoce como parámetro de normalidad. ^[15] ${\ \nu \ }$

Las siguientes imágenes muestran la densidad de la distribución $t$ para valores crecientes de La distribución normal se muestra como una línea azul para comparación. Observe que la distribución $t$ (línea roja) se acerca más a la distribución normal a medida que aumenta. $\ \nu ~.$ $\ \nu \$

Densidad de la distribución

t

(roja) para 1, 2, 3, 5, 10 y 30 grados de libertad en comparación con la distribución normal estándar (azul).
Los gráficos anteriores se muestran en verde.

Función de distribución acumulativa

La función de distribución acumulativa (CDF) se puede escribir en términos de $I$ , la función beta incompleta regularizada . Para $t$ $> 0$ ,

F(t)=\int _{-\infty }^{t}\ f(u)\ \operatorname {d} u~=~1-{\frac {1}{2}}I_{x(t)}\!\left({\frac {\ \nu \ }{2}},\ {\frac {\ 1\ }{2}}\right)\ ,

dónde

x(t)={\frac {\nu }{\ t^{2}+\nu \ }}~.

Otros valores se obtendrían por simetría. Una fórmula alternativa, válida para es $\ t^{2}<\nu \ ,$

\int _{-\infty }^{t}f(u)\ \operatorname {d} u~=~{\frac {1}{2}}+t\ {\frac {\ \Gamma \!\left({\frac {\ \nu +1\ }{2}}\right)\ }{\ {\sqrt {\pi \ \nu \ }}\ \Gamma \!\left({\frac {\nu }{\ 2\ }}\right)\ }}\ {}_{2}F_{1}\!\left(\ {\frac {1}{2}},{\frac {\ \nu +1\ }{2}}\ ;{\frac {3}{\ 2\ }}\ ;\ -{\frac {~t^{2}\ }{\nu }}\ \right)\ ,

donde es una instancia particular de la función hipergeométrica . $\ {}_{2}F_{1}(\ ,\ ;\ ;\ )\$

Para obtener información sobre su función de distribución acumulativa inversa, consulte función cuantil § Distribución t de Student .

Casos especiales

Ciertos valores de dan una forma simple para la distribución t de Student. $\ \nu \$

Momentos

Para los momentos brutos de la distribución $t$ son $\nu >1\ ,$

\operatorname {\mathbb {E} } \left\{\ T^{k}\ \right\}={\begin{cases}\quad 0&k{\text{ odd }},\quad 0<k<\nu \ ,\\{}\\{\frac {1}{\ {\sqrt {\pi \ }}\ \Gamma \left({\frac {\ \nu \ }{2}}\right)}}\ \left[\ \Gamma \!\left({\frac {\ k+1\ }{2}}\right)\ \Gamma \!\left({\frac {\ \nu -k\ }{2}}\right)\ \nu ^{\frac {\ k\ }{2}}\ \right]&k{\text{ even }},\quad 0<k<\nu ~.\\\end{cases}}

No existen momentos de orden o superiores. ^[16] $\ \nu \$

El término para $k$ par, se puede simplificar utilizando las propiedades de la función gamma para $\ 0<k<\nu \ ,$

\operatorname {\mathbb {E} } \left\{\ T^{k}\ \right\}=\nu ^{\frac {\ k\ }{2}}\ \prod _{j=1}^{k/2}\ {\frac {~2j-1~}{\nu -2j}}\qquad k{\text{ even}},\quad 0<k<\nu ~.

Para una distribución $t$ con grados de libertad, el valor esperado es si y su varianza es si La asimetría es 0 si y el exceso de curtosis es si $\ \nu \$ $\ 0\$ $\ \nu >1\ ,$ $\ {\frac {\nu }{\ \nu -2\ }}\$ $\ \nu >2~.$ $\ \nu >3\$ $\ {\frac {6}{\ \nu -4\ }}\$ $\ \nu >4~.$

Escala de ubicacióna distribución

Transformación a escala de ubicación

$La distribución t$ de Student se generaliza a la distribución $t$ de ubicación-escala de tres parámetros introduciendo un parámetro de ubicación y un parámetro de escala . $\ {\mathcal {lst}}(\mu ,\ \tau ^{2},\ \nu )\$ $\ \mu \$ $\ \tau ~.$

\ T\sim t_{\nu }\

y transformación familiar a escala de ubicación

\ X=\mu +\tau \ T\

Nosotros conseguimos

\ X\sim {\mathcal {lst}}(\mu ,\ \tau ^{2},\ \nu )~.

La distribución resultante también se denomina distribución $t$ de Student no estandarizada .

Densidad y primeros dos momentos

La distribución $t$ de escala de ubicación tiene una densidad definida por: ^[17]

p(x\mid \nu ,\mu ,\tau )={\frac {\ \Gamma \left({\frac {\ \nu +1\ }{2}}\right)\ }{\ \Gamma \left({\frac {\ \nu \ }{2}}\right)\ {\sqrt {\pi \ \nu \ }}\ \tau \ }}\ \left(1+{\frac {\ 1\ }{\nu }}\ \left(\ {\frac {\ x-\mu \ }{\tau }}\ \right)^{2}\ \right)^{-(\nu +1)/2}\

De manera equivalente, la densidad se puede escribir en términos de : $\tau ^{2}$

\ p(x\ \mid \ \nu ,\ \mu ,\ \tau ^{2})={\frac {\ \Gamma ({\frac {\nu +1}{2}})\ }{\ \Gamma \left({\frac {\ \nu \ }{2}}\right)\ {\sqrt {\pi \ \nu \ \tau ^{2}}}\ }}\ \left(\ 1+{\frac {\ 1\ }{\nu }}\ {\frac {\ (x-\mu )^{2}\ }{\ \tau ^{2}\ }}\ \right)^{-(\nu +1)/2}\

Otras propiedades de esta versión de la distribución son: ^[17]

{\begin{aligned}\operatorname {\mathbb {E} } \{\ X\ \}&=\mu &{\text{ for }}\nu >1\ ,\\\operatorname {var} \{\ X\ \}&=\tau ^{2}{\frac {\nu }{\nu -2}}&{\text{ for }}\nu >2\ ,\\\operatorname {mode} \{\ X\ \}&=\mu ~.\end{aligned}}

Casos especiales

Si sigue una distribución $t$ a escala de ubicación , entonces se distribuye normalmente con media y varianza. $\ X\$ $\ X\sim {\mathcal {lst}}\left(\mu ,\ \tau ^{2},\ \nu \right)\$ $\ \nu \rightarrow \infty \$ $\ X\$ $X\sim \mathrm {N} \left(\mu ,\tau ^{2}\right)$ $\mu$ $\ \tau ^{2}~.$
La distribución $t$ de escala de ubicación con grados de libertad es equivalente a la distribución de Cauchy $\ {\mathcal {lst}}\left(\mu ,\ \tau ^{2},\ \nu =1\right)\$ $\nu =1$ $\mathrm {Cau} \left(\mu ,\tau \right)~.$
La distribución $t$ a escala de ubicación con y se reduce a la distribución $t$ de Student $\ {\mathcal {lst}}\left(\mu =0,\ \tau ^{2}=1,\ \nu \right)\$ $\mu =0$ $\ \tau ^{2}=1\$ $\ t_{\nu }~.$

Cómo ela surge la distribución (caracterización)

Como distribución de una estadística de prueba

La distribución t de Student con grados de libertad se puede definir como la distribución de la variable aleatoria T con ^[18]^[19] $\nu$

T={\frac {Z}{\sqrt {V/\nu }}}=Z{\sqrt {\frac {\nu }{V}}},

dónde

Z es una normal estándar con valor esperado 0 y varianza 1;
V tiene una distribución chi-cuadrado ( distribución χ² ) con grados de libertad ; $\nu$
Z y V son independientes ;

Una distribución diferente se define como la de la variable aleatoria definida, para una constante dada μ , por

(Z+\mu ){\sqrt {\frac {\nu }{V}}}.

Esta variable aleatoria tiene una distribución t no central con un parámetro de no centralidad μ . Esta distribución es importante en los estudios sobre la potencia de la prueba t de Student .

Derivación

Supóngase que X ₁ , ..., X _n son realizaciones independientes de la variable aleatoria X con distribución normal , que tiene un valor esperado μ y una varianza σ ² . Sea

{\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})

sea la media de la muestra, y

S_{n}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline {X}}_{n}\right)^{2}

ser una estimación imparcial de la varianza de la muestra. Se puede demostrar que la variable aleatoria

V=(n-1){\frac {S_{n}^{2}}{\sigma ^{2}}}

tiene una distribución de chi-cuadrado con grados de libertad (por el teorema de Cochran ). ^[20] Se demuestra fácilmente que la cantidad $\nu =n-1$

Z=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt {n}}{\sigma }}

se distribuye normalmente con media 0 y varianza 1, ya que la media de la muestra se distribuye normalmente con media μ y varianza σ ² / n . Además, es posible demostrar que estas dos variables aleatorias (la que se distribuye normalmente Z y la que se distribuye con chi-cuadrado V ) son independientes. En consecuencia ^[^{aclaración necesaria}^] la cantidad fundamental ${\overline {X}}_{n}$

{\textstyle T\equiv {\frac {Z}{\sqrt {V/\nu }}}=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt {n}}{S_{n}}},}

que difiere de Z en que la desviación estándar exacta σ se reemplaza por la variable aleatoria S _n , tiene una distribución t de Student como se definió anteriormente. Nótese que la varianza poblacional desconocida σ ² no aparece en T , ya que estaba tanto en el numerador como en el denominador, por lo que se canceló. Gosset obtuvo intuitivamente la función de densidad de probabilidad establecida anteriormente, con igual a n − 1, y Fisher la demostró en 1925. ^[13] $\nu$

La distribución de la estadística de prueba T depende de , pero no de μ o σ ; la falta de dependencia de μ y σ es lo que hace que la distribución t sea importante tanto en la teoría como en la práctica. $\nu$

Distribución de muestreo de la estadística t

La distribución $t$ surge como la distribución de muestreo de la estadística $t . A continuación se analiza la estadística$ $t$ de una muestra ; para la estadística $t$ de dos muestras correspondiente, consulte la prueba t de Student .

Estimación de varianza imparcial

Sean muestras independientes e idénticamente distribuidas de una distribución normal con media y varianza. La media de la muestra y la varianza de la muestra no sesgada vienen dadas por: $\ x_{1},\ldots ,x_{n}\sim {\mathcal {N}}(\mu ,\sigma ^{2})\$ $\mu$ $\ \sigma ^{2}~.$

{\begin{aligned}{\bar {x}}&={\frac {\ x_{1}+\cdots +x_{n}\ }{n}}\ ,\\[5pt]s^{2}&={\frac {1}{\ n-1\ }}\ \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}~.\end{aligned}}

$La estadística t$ resultante (una muestra) viene dada por

t={\frac {{\bar {x}}-\mu }{\ {\sqrt {s^{2}/n\ }}\ }}\sim t_{n-1}~.

y se distribuye según una distribución $t$ de Student con grados de libertad. $\ n-1\$

Por lo tanto, para fines de inferencia, la estadística $t es una "$ cantidad fundamental " útil en el caso en que la media y la varianza son parámetros poblacionales desconocidos, en el sentido de que la estadística $t$ tiene entonces una distribución de probabilidad que no depende ni de $(\mu ,\sigma ^{2})$ $\mu$ $\ \sigma ^{2}~.$

Estimación de la varianza de ML

En lugar de la estimación imparcial también podemos utilizar la estimación de máxima verosimilitud. $\ s^{2}\$

\ s_{\mathsf {ML}}^{2}={\frac {\ 1\ }{n}}\ \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\

dando como resultado la estadística

\ t_{\mathsf {ML}}={\frac {{\bar {x}}-\mu }{\sqrt {s_{\mathsf {ML}}^{2}/n\ }}}={\sqrt {{\frac {n}{n-1}}\ }}\ t~.

Esto se distribuye de acuerdo con la distribución $t$ de escala de ubicación :

t_{\mathsf {ML}}\sim {\mathcal {lst}}(0,\ \tau ^{2}=n/(n-1),\ n-1)~.

Distribución compuesta de normal con distribución gamma inversa

$La distribución t$ a escala de ubicación resulta de la composición de una distribución gaussiana (distribución normal) con media y varianza desconocida , con una distribución gamma inversa colocada sobre la varianza con parámetros y En otras palabras, se supone que la variable aleatoria X tiene una distribución gaussiana con una varianza desconocida distribuida como gamma inversa, y luego la varianza se margina (se integra). $\ \mu \$ $\ a={\frac {\ \nu \ }{2}}\$ $b={\frac {\ \nu \ \tau ^{2}\ }{2}}~.$

De manera equivalente, esta distribución resulta de combinar una distribución gaussiana con una distribución chi-cuadrado inversa escalada con parámetros y La distribución chi-cuadrado inversa escalada es exactamente la misma distribución que la distribución gamma inversa, pero con una parametrización diferente, es decir $\nu$ $\ \tau ^{2}~.$ $\ \nu =2\ a,\;{\tau }^{2}={\frac {\ b\ }{a}}~.$

La razón de la utilidad de esta caracterización es que en la estadística bayesiana la distribución gamma inversa es la distribución previa conjugada de la varianza de una distribución gaussiana. Como resultado, la distribución $t$ de escala de ubicación surge naturalmente en muchos problemas de inferencia bayesiana. ^[21]

Distribución de máxima entropía

$La distribución t$ de Student es la distribución de probabilidad de máxima entropía para una variable aleatoria X para la cual es fija. ^[22]^[^{aclaración necesaria}^]^[^{mejor fuente necesaria}^] $\ \operatorname {\mathbb {E} } \left\{\ \ln(\nu +X^{2})\ \right\}\$

Otras propiedades

Muestreo de Monte Carlo

Existen varios enfoques para construir muestras aleatorias a partir de la distribución $t$ de Student . La cuestión depende de si las muestras se requieren de forma independiente o se deben construir mediante la aplicación de una función cuantil a muestras uniformes ; por ejemplo, en la base de aplicaciones multidimensionales de dependencia de cópula . ^{[ cita requerida ]} En el caso del muestreo independiente, se puede implementar fácilmente una extensión del método de Box-Muller y su forma polar . ^[23] Tiene el mérito de que se aplica igualmente bien a todos los grados de libertad positivos reales , $ν$ , mientras que muchos otros métodos candidatos fallan si $ν$ es cercano a cero. ^[23]

Integral de la función de densidad de probabilidad de Student ypag-valor

La función $A (t | ν)$ es la integral de la función de densidad de probabilidad de Student, $f (t)$ entre $-t$ y $t$ , para $t$ $\geq 0$ . Por lo tanto, da la probabilidad de que un valor de t menor que el calculado a partir de datos observados ocurra por casualidad. Por lo tanto, la función $A$ $($ $t$ $|$ $ν$ $)$ se puede utilizar para probar si la diferencia entre las medias de dos conjuntos de datos es estadísticamente significativa, calculando el valor correspondiente de $t$ y la probabilidad de su ocurrencia si los dos conjuntos de datos se extrajeron de la misma población. Esto se utiliza en una variedad de situaciones, particularmente en pruebas t . Para el estadístico $t$ , con $ν$ grados de libertad, $A$ $($ $t$ $|$ $ν$ $)$ es la probabilidad de que $t$ sea menor que el valor observado si las dos medias fueran iguales (siempre que la media más pequeña se reste de la más grande, de modo que $t$ $\geq 0$ ). Se puede calcular fácilmente a partir de la función de distribución acumulativa $F$ $ν$ $($ $t$ $)$ de la distribución $t :$

A(t\mid \nu )=F_{\nu }(t)-F_{\nu }(-t)=1-I_{\frac {\nu }{\nu +t^{2}}}\!\left({\frac {\nu }{2}},{\frac {1}{2}}\right),

donde $I$ $x$ $($ $a$ $,$ $b$ $)$ es la función beta incompleta regularizada .

Para probar la hipótesis estadística, esta función se utiliza para construir el valor p .

Distribuciones relacionadas

La distribución t no central generaliza la distribución $t$ para incluir un parámetro de no centralidad. A diferencia de las distribuciones $t$ no estandarizadas , las distribuciones no centrales no son simétricas (la mediana no es lo mismo que la moda).
La distribución $t$ de Student discreta se define por su función de masa de probabilidad en r, que es proporcional a: ^[24] Aquí a , b y k son parámetros. Esta distribución surge de la construcción de un sistema de distribuciones discretas similar al de las distribuciones de Pearson para distribuciones continuas. ^[25] $\prod _{j=1}^{k}{\frac {1}{(r+j+a)^{2}+b^{2}}}\quad \quad r=\ldots ,-1,0,1,\ldots ~.$
Se pueden generar muestras de Student $A$ $($ $t$ $|$ $ν$ $)$ tomando la proporción de variables de la distribución normal y la raíz cuadrada de la distribución $χ$ $²$ . Si utilizamos en lugar de la distribución normal, por ejemplo, la distribución de Irwin-Hall , obtenemos en general una distribución simétrica de 4 parámetros, que incluye la distribución normal, la uniforme , la triangular , la $t$ de Student y la distribución de Cauchy . Esto también es más flexible que algunas otras generalizaciones simétricas de la distribución normal.
$La distribución t$ es un ejemplo de distribuciones de razón .

Usos

En la inferencia estadística frecuentista

$La distribución t$ de Student surge en una variedad de problemas de estimación estadística donde el objetivo es estimar un parámetro desconocido, como un valor medio, en un contexto donde los datos se observan con errores aditivos . Si (como en casi todo trabajo estadístico práctico) la desviación estándar de la población de estos errores es desconocida y debe estimarse a partir de los datos, la distribución $t$ se utiliza a menudo para dar cuenta de la incertidumbre adicional que resulta de esta estimación. En la mayoría de estos problemas, si se conociera la desviación estándar de los errores, se utilizaría una distribución normal en lugar de la distribución $t$ .

Los intervalos de confianza y las pruebas de hipótesis son dos procedimientos estadísticos en los que se requieren los cuantiles de la distribución de muestreo de una estadística particular (por ejemplo, la puntuación estándar ). En cualquier situación en la que esta estadística sea una función lineal de los datos , dividida por la estimación habitual de la desviación estándar, la cantidad resultante se puede reescalar y centrar para seguir la distribución $t$ de Student . Los análisis estadísticos que involucran medias, medias ponderadas y coeficientes de regresión conducen a estadísticas que tienen esta forma.

Muy a menudo, los problemas de los libros de texto tratan la desviación estándar de la población como si fuera conocida y, por lo tanto, evitan la necesidad de utilizar la distribución $t$ de Student . Estos problemas son generalmente de dos tipos: (1) aquellos en los que el tamaño de la muestra es tan grande que se puede tratar una estimación basada en datos de la varianza como si fuera cierta, y (2) aquellos que ilustran el razonamiento matemático, en los que el problema de estimar la desviación estándar se ignora temporalmente porque ese no es el punto que el autor o el instructor están explicando.

Prueba de hipótesis

Se puede demostrar que una serie de estadísticas tienen distribuciones $t$ para muestras de tamaño moderado bajo hipótesis nulas que son de interés, de modo que la distribución $t constituye la base para las pruebas de significación. Por ejemplo, la distribución del$ coeficiente de correlación de rangos de Spearman $ρ$ , en el caso nulo (correlación cero) se aproxima bien mediante la distribución $t$ para tamaños de muestra superiores a aproximadamente 20. ^{[ cita requerida ]}

Intervalos de confianza

Supongamos que el número A se elige de tal manera que

\ \operatorname {\mathbb {P} } \left\{\ -A<T<A\ \right\}=0.9\ ,

cuando $T$ tiene una distribución $t$ con $n - 1$ grados de libertad. Por simetría, esto es lo mismo que decir que $A$ satisface

\ \operatorname {\mathbb {P} } \left\{\ T<A\ \right\}=0.95\ ,

Entonces A es el "percentil 95" de esta distribución de probabilidad, o Entonces $\ A=t_{(0.05,n-1)}~.$

\ \operatorname {\mathbb {P} } \left\{\ -A<{\frac {\ {\overline {X}}_{n}-\mu \ }{S_{n}/{\sqrt {n\ }}}}<A\ \right\}=0.9\ ,

y esto es equivalente a

\ \operatorname {\mathbb {P} } \left\{\ {\overline {X}}_{n}-A{\frac {S_{n}}{\ {\sqrt {n\ }}\ }}<\mu <{\overline {X}}_{n}+A\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}\ \right\}=0.9.

Por lo tanto, el intervalo cuyos puntos finales son

\ {\overline {X}}_{n}\ \pm A\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}\

es un intervalo de confianza del 90 % para μ. Por lo tanto, si encontramos la media de un conjunto de observaciones que podemos esperar razonablemente que tengan una distribución normal, podemos usar la distribución $t$ para examinar si los límites de confianza de esa media incluyen algún valor predicho teóricamente, como el valor predicho en una hipótesis nula .

Este es el resultado que se utiliza en las pruebas t de Student : dado que la diferencia entre las medias de muestras de dos distribuciones normales se distribuye normalmente, la distribución $t$ se puede utilizar para examinar si se puede suponer razonablemente que esa diferencia es cero.

Si los datos se distribuyen normalmente, el límite de confianza superior (LCS $)$ unilateral $(1 - α$ ) de la media se puede calcular utilizando la siguiente ecuación:

{\mathsf {UCL}}_{1-\alpha }={\overline {X}}_{n}+t_{\alpha ,n-1}\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}~.

El UCL resultante será el mayor valor promedio que se dará para un intervalo de confianza y tamaño de población dados. En otras palabras, al ser la media del conjunto de observaciones, la probabilidad de que la media de la distribución sea inferior al UCL _{$1 -$}_$α$ es igual al nivel de confianza $1 -$ $α$ . ${\overline {X}}_{n}$

Intervalos de predicción

La distribución $t$ se puede utilizar para construir un intervalo de predicción para una muestra no observada de una distribución normal con media y varianza desconocidas.

En estadística bayesiana

$La distribución t$ de Student , especialmente en su versión de tres parámetros (ubicación-escala), surge con frecuencia en las estadísticas bayesianas como resultado de su conexión con la distribución normal. Siempre que se desconoce la varianza de una variable aleatoria distribuida normalmente y se coloca sobre ella una distribución conjugada previa que sigue una distribución gamma inversa , la distribución marginal resultante de la variable seguirá una distribución $t$ de Student . Las construcciones equivalentes con los mismos resultados involucran una distribución conjugada escalada-inversa-chi-cuadrado sobre la varianza, o una distribución gamma conjugada sobre la precisión . Si una distribución previa impropia proporcional a ⁠1/  $σ²$  ⁠ se coloca sobre la varianza, también surge la distribución $t$ . Esto es así independientemente de si la media de la variable distribuida normalmente es conocida, se desconoce si se distribuye de acuerdo con una distribución previa normalmente conjugada o se desconoce si se distribuye de acuerdo con una distribución previa constante impropia.

Situaciones relacionadas que también producen una distribución $t$ son:

Distribución posterior marginal de la media desconocida de una variable distribuida normalmente, con media previa y varianza desconocidas, siguiendo el modelo anterior .
Distribución predictiva previa y distribución predictiva posterior de un nuevo punto de datos distribuido normalmente cuando se han observado una serie de puntos de datos distribuidos normalmente de forma idéntica e independientes , con media y varianza previas como en el modelo anterior.

Modelado paramétrico robusto

La distribución $t$ se utiliza a menudo como una alternativa a la distribución normal como modelo para los datos, que a menudo tienen colas más pesadas de lo que permite la distribución normal; consulte, por ejemplo, Lange et al. ^[26] El enfoque clásico era identificar valores atípicos (por ejemplo, utilizando la prueba de Grubbs ) y excluirlos o reducir su peso de alguna manera. Sin embargo, no siempre es fácil identificar valores atípicos (especialmente en dimensiones altas ), y la distribución $t$ es una elección natural de modelo para tales datos y proporciona un enfoque paramétrico para estadísticas robustas .

Se puede encontrar una explicación bayesiana en Gelman et al. ^[27] . El parámetro de grados de libertad controla la curtosis de la distribución y está correlacionado con el parámetro de escala. La verosimilitud puede tener múltiples máximos locales y, como tal, a menudo es necesario fijar los grados de libertad en un valor bastante bajo y estimar los otros parámetros tomándolo como dado. Algunos autores ^{[ cita requerida ]} informan que los valores entre 3 y 9 suelen ser buenas opciones. Venables y Ripley ^{[ cita requerida ]} sugieren que un valor de 5 suele ser una buena opción.

Estudiantesa proceso

Para las necesidades prácticas de regresión y predicción , se introdujeron los procesos $t de Student, que son generalizaciones de las distribuciones$ $t$ de Student para funciones. Un proceso $t$ de Student se construye a partir de las distribuciones $t$ de Student como un proceso gaussiano se construye a partir de las distribuciones gaussianas . Para un proceso gaussiano , todos los conjuntos de valores tienen una distribución gaussiana multidimensional. Análogamente, es un proceso $t$ de Student en un intervalo si los valores correspondientes del proceso ( ) tienen una distribución t de Student multivariada conjunta . ^[28] Estos procesos se utilizan para regresión, predicción, optimización bayesiana y problemas relacionados. Para la regresión multivariada y la predicción de múltiples salidas, se introducen y utilizan los procesos $t de Student multivariados.$ ^[29] $X(t)$ $I=[a,b]$ $\ X(t_{1}),\ \ldots \ ,X(t_{n})\$ $t_{i}\in I$

Tabla de valores seleccionados

La siguiente tabla muestra los valores de las distribuciones $t$ con $ν$ grados de libertad para un rango de regiones críticas unilaterales o bilaterales. La primera columna es $ν$ , los porcentajes en la parte superior son los niveles de confianza y los números en el cuerpo de la tabla son los factores descritos en la sección sobre intervalos de confianza. $\ \alpha \ ,$ $t_{\alpha ,n-1}$

La última fila con $ν$ infinito proporciona puntos críticos para una distribución normal, ya que una distribución $t$ con infinitos grados de libertad es una distribución normal. (Ver Distribuciones relacionadas más arriba).

Calcular el intervalo de confianza

Digamos que tenemos una muestra con un tamaño de 11, una media muestral de 10 y una varianza muestral de 2. Para un 90 % de confianza con 10 grados de libertad, el valor $t$ unilateral de la tabla es 1,372. Entonces, con un intervalo de confianza calculado a partir de

\ {\overline {X}}_{n}\pm t_{\alpha ,\nu }\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}\ ,

Determinamos que con un 90% de confianza tenemos una media verdadera que se encuentra por debajo

\ 10+1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }}=10.585~.

En otras palabras, el 90% de las veces que se calcula un umbral superior mediante este método a partir de muestras particulares, este umbral superior excede la media real.

Y con un 90% de confianza tenemos una media real que se encuentra arriba

\ 10-1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }}=9.414~.

En otras palabras, el 90% de las veces que se calcula un umbral inferior mediante este método a partir de muestras particulares, dicho umbral inferior se encuentra por debajo de la media real.

De modo que con un 80% de confianza (calculado a partir de 100% − 2 × (1 − 90%) = 80%), tenemos una media verdadera que se encuentra dentro del intervalo

\left(\ 10-1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }},\ 10+1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }}\ \right)=(\ 9.414,\ 10.585\ )~.

Decir que el 80% de las veces que se calculan los umbrales superior e inferior mediante este método a partir de una muestra dada, la media verdadera está tanto por debajo del umbral superior como por encima del umbral inferior no es lo mismo que decir que hay una probabilidad del 80% de que la media verdadera se encuentre entre un par particular de umbrales superior e inferior que se han calculado mediante este método; véase intervalo de confianza y falacia del fiscal .

Hoy en día, el software estadístico, como el lenguaje de programación R , y las funciones disponibles en muchos programas de hojas de cálculo calculan valores de la distribución $t$ y su inversa sin tablas.

Véase también

Distribución F
Distribuciones $t$ plegada y media $t$
Distribución $T²$ de Hotelling
Distribución de Student multivariada
Tabla normal estándar ( tabla de distribución Z )
estadística $t$
Distribución Tau , para residuos estudentizados internamente
Distribución lambda de Wilks
Distribución de Wishart
La distribución seminormal modificada ^[30] con la función de densidad de probabilidad activada se da como donde denota la función Psi de Fox-Wright . $(0,\infty )$ $f(x)={\frac {2\beta ^{\frac {\alpha }{2}}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi {\left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}}\ ,$ $\Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)$

Notas

^ Hurst, Simon. "La función característica de la distribución t de Student". Informe de investigación de matemáticas financieras. Informe de investigación estadística n.º SRR044-95. Archivado desde el original el 18 de febrero de 2010.
^ Norton, Matthew; Khokhlov, Valentyn; Uryasev, Stan (2019). "Cálculo de CVaR y bPOE para distribuciones de probabilidad comunes con aplicación a la optimización de carteras y estimación de densidad" (PDF) . Anales de investigación de operaciones . 299 (1–2). Springer: 1281–1315. arXiv : 1811.11301 . doi :10.1007/s10479-019-03373-1. S2CID 254231768 . Consultado el 27 de febrero de 2023 .
^ Helmert FR (1875). "Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler". Zeitschrift für Angewandte Mathematik und Physik (en alemán). 20 : 300–303.
^ Helmert FR (1876). "Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und úber einige damit in Zusammenhang stehende Fragen". Zeitschrift für Angewandte Mathematik und Physik (en alemán). 21 : 192–218.
^ Helmert FR (1876). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers director Beobachtungen gleicher Genauigkeit" [La precisión de la fórmula de Peters para calcular el error probable de observación de observaciones directas con la misma precisión]. Astronomische Nachrichten (en alemán). 88 (8–9): 113–132. Código bibliográfico : 1876AN.....88..113H. doi :10.1002/asna.18760880802.
^ Lüroth J (1876). "Vergleichung von zwei Werten des wahrscheinlichen Fehlers". Astronomische Nachrichten (en alemán). 87 (14): 209–220. Código bibliográfico : 1876AN.....87..209L. doi :10.1002/asna.18760871402.
^ Pfanzagl J, Sheynin O (1996). "Estudios en la historia de la probabilidad y la estadística. XLIV. Un precursor de la distribución $t$ ". Biometrika . 83 (4): 891–898. doi :10.1093/biomet/83.4.891. MR 1766040.
^ Sheynin O (1995). "El trabajo de Helmert en la teoría de los errores". Archivo de Historia de las Ciencias Exactas . 49 (1): 73–104. doi :10.1007/BF00374700. S2CID 121241599.
^ Pearson, K. (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 186 (374): 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . ISSN 1364-503X.
^ "Estudiante" [ pseu. William Sealy Gosset ] (1908). "El error probable de una media" (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR 2331554. {{cite journal}}: CS1 maint: numeric names: authors list (link)
^ Wendl MC (2016). "Fama seudónima". Science . 351 (6280): 1406. Bibcode :2016Sci...351.1406W. doi :10.1126/science.351.6280.1406. PMID 27013722.
^ Mortimer RG (2005). Matemáticas para la química física (3.ª ed.). Burlington, MA: Elsevier. pp. 326. ISBN 9780080492889.OCLC 156200058 .
^ ab Fisher RA (1925). "Aplicaciones de la distribución de 'Student'" (PDF) . Metron . 5 : 90–104. Archivado desde el original (PDF) el 5 de marzo de 2016.
^ Walpole RE, Myers R, Myers S, Ye K (2006). Probabilidad y estadística para ingenieros y científicos (7.ª ed.). Nueva Delhi, IN: Pearson. pág. 237. ISBN 9788177584042.OCLC 818811849 .
^ Kruschke, JK (2015). Análisis de datos bayesianos (2.ª ed.). Academic Press. ISBN 9780124058880.OCLC 959632184 .
^ Casella G, Berger RL (1990). Inferencia estadística . Centro de recursos Duxbury. pág. 56. ISBN 9780534119584.
^ ab Jackman, S. (2009). Análisis bayesiano para las ciencias sociales . Serie Wiley sobre probabilidad y estadística. Wiley. pág. 507. doi :10.1002/9780470686621. ISBN 9780470011546.
^ Johnson NL, Kotz S, Balakrishnan N (1995). "Capítulo 28". Distribuciones univariadas continuas . Vol. 2 (2.ª ed.). Wiley. ISBN 9780471584940.
^ Hogg RV , Craig AT (1978). Introducción a la estadística matemática (4.ª ed.). Nueva York: Macmillan. ASIN B010WFO0SA. Secciones 4.4 y 4.8{{cite book}}: CS1 maint: postscript (link)
^ Cochran WG (1934). "La distribución de formas cuadráticas en un sistema normal, con aplicaciones al análisis de covarianza". Math. Proc. Camb. Philos. Soc. 30 (2): 178–191. Bibcode :1934PCPS...30..178C. doi :10.1017/S0305004100016595. S2CID 122547084.
^ Gelman AB, Carlin JS, Rubin DB, Stern HS (1997). Análisis de datos bayesianos (2.ª ed.). Boca Raton, FL: Chapman & Hal lp 68. ISBN 9780412039911.
^ Park SY, Bera AK (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía". J. Econom. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014.
^ ab Bailey RW (1994). "Generación polar de variables aleatorias con la distribución $t$ ". Matemáticas de la computación . 62 (206): 779–781. Bibcode :1994MaCom..62..779B. doi :10.2307/2153537. JSTOR 2153537. S2CID 120459654.
^ Ord JK (1972). Familias de distribuciones de frecuencias . Londres, Reino Unido: Griffin. Tabla 5.1. ISBN 9780852641378.
^ Ord JK (1972). Familias de distribuciones de frecuencia . Londres, Reino Unido: Griffin. Capítulo 5. ISBN 9780852641378.
^ Lange KL, Little RJ, Taylor JM (1989). "Modelado estadístico robusto utilizando la distribución t" (PDF) . J. Am. Stat. Assoc. 84 (408): 881–896. doi :10.1080/01621459.1989.10478852. JSTOR 2290063.
^ Gelman AB, Carlin JB, Stern HS, et al. (2014). "Simulación computacionalmente eficiente de cadenas de Markov". Análisis de datos bayesianos . Boca Raton, Florida: CRC Press. p. 293. ISBN 9781439898208.
^ Shah, Amar; Wilson, Andrew Gordon; Ghahramani, Zoubin (2014). "Procesos t de Student como alternativas a los procesos gaussianos" (PDF) . JMLR . 33 (Actas de la 17.ª Conferencia Internacional sobre Inteligencia Artificial y Estadística (AISTATS) 2014, Reykjavik, Islandia): 877–885. arXiv : 1402.4306 .
^ Chen, Zexun; Wang, Bo; Gorban, Alexander N. (2019). "Regresión multivariada de procesos gaussianos y t de Student para predicción de múltiples salidas". Computación neuronal y aplicaciones . 32 (8): 3005–3028. arXiv : 1703.04455 . doi : 10.1007/s00521-019-04687-8 .
^ Sun, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente". Comunicaciones en estadística: teoría y métodos . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.

Referencias

Senn, S.; Richardson, W. (1994). "La primera prueba $t ".$ Estadística en Medicina . 13 (8): 785–803. doi :10.1002/sim.4780130802. PMID 8047737.
Hogg RV , Craig AT (1978). Introducción a la estadística matemática (4.ª ed.). Nueva York: Macmillan. ASIN B010WFO0SA.
Venables, WN; Ripley, BD (2002). Estadística aplicada moderna con S (cuarta edición). Springer.
Gelman, Andrew; John B. Carlin; Hal S. Stern; Donald B. Rubin (2003). Análisis de datos bayesianos (segunda edición). CRC/Chapman & Hall. ISBN 1-58488-388-X.

Enlaces externos

"Distribución de estudiantes", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Usos más antiguos conocidos de algunas palabras de las matemáticas (S) (Observaciones sobre la historia del término "distribución de Student")
Rouaud, M. (2013), Probabilidad, estadística y estimación (PDF) (edición corta)Primeros estudiantes en la página 112.
Distribución t de Student, archivada el 10 de abril de 2021 en Wayback Machine