Sin embargo, tiene colas más pesadas y la cantidad de masa de probabilidad en las colas está controlada por el parámetro. La distribución t de Student se convierte en la distribución estándar de Cauchy , que tiene colas muy "gordas" ; mientras que para se convierte en la distribución normal estándar que tiene colas muy "delgadas".
En forma de distribución t de escala de ubicación, generaliza la distribución normal y también surge en el análisis bayesiano de datos de una familia normal como una distribución compuesta cuando se margina sobre el parámetro de varianza.
En la literatura en lengua inglesa, la distribución toma su nombre del artículo de 1908 de William Sealy Gosset en Biometrika bajo el seudónimo de "Student". [10] Una versión del origen del seudónimo es que el empleador de Gosset prefería que el personal usara seudónimos al publicar artículos científicos en lugar de su nombre real, por lo que usó el nombre "Estudiante" para ocultar su identidad. Otra versión es que Guinness no quería que sus competidores supieran que estaban utilizando la prueba t para determinar la calidad de la materia prima. [11] [12]
Gosset trabajó en la cervecería Guinness en Dublín, Irlanda , y estaba interesado en los problemas de muestras pequeñas; por ejemplo, las propiedades químicas de la cebada, donde los tamaños de muestra podrían ser tan solo 3. El artículo de Gosset se refiere a la distribución como "distribución de frecuencia". desviaciones estándar de muestras extraídas de una población normal". Se hizo muy conocida gracias al trabajo de Ronald Fisher , quien llamó a la distribución "distribución de Student" y representó el valor de la prueba con la letra t . [13] [14]
¿Dónde está la función Beta ? En particular, para grados de libertad con valores enteros tenemos:
Por e incluso,
Para y extraño,
La función de densidad de probabilidad es simétrica y su forma general se asemeja a la forma de campana de una variable distribuida normalmente con media 0 y varianza 1, excepto que es un poco más baja y más ancha. A medida que aumenta el número de grados de libertad, la distribución t se acerca a la distribución normal con media 0 y varianza 1. Por esta razón, también se conoce como parámetro de normalidad. [15]
Las siguientes imágenes muestran la densidad de la distribución t para valores crecientes de. La distribución normal se muestra como una línea azul para comparar. Tenga en cuenta que la distribución t (línea roja) se acerca más a la distribución normal a medida que aumenta.
Densidad de la distribución t (rojo) para 1, 2, 3, 5, 10 y 30 grados de libertad en comparación con la distribución normal estándar (azul). Parcelas anteriores mostradas en verde.
La distribución t de Student se generaliza a la distribución t de escala de ubicación de tres parámetros mediante la introducción de un parámetro de ubicación y un parámetro de escala .
ser una estimación insesgada de la varianza de la muestra. Se puede demostrar que la variable aleatoria
tiene una distribución chi-cuadrado con grados de libertad (según el teorema de Cochran ). [20] Se demuestra fácilmente que la cantidad
se distribuye normalmente con media 0 y varianza 1, ya que la media muestral se distribuye normalmente con media μ y varianza σ 2 / n . Además, es posible demostrar que estas dos variables aleatorias (la distribuida normalmente Z y la distribuida chi-cuadrado V ) son independientes. En consecuencia [ se necesita aclaración ] la cantidad fundamental
que difiere de Z en que la desviación estándar exacta σ se reemplaza por la variable aleatoria S n , tiene una distribución t de Student como se definió anteriormente. Observe que la varianza poblacional desconocida σ 2 no aparece en T , ya que estaba tanto en el numerador como en el denominador, por lo que se canceló. Gosset obtuvo intuitivamente la función de densidad de probabilidad mencionada anteriormente, igual a n − 1, y Fisher la demostró en 1925. [13]
La distribución del estadístico de prueba T depende de μ o σ , pero no de μ ; la falta de dependencia de μ y σ es lo que hace que la distribución t sea importante tanto en la teoría como en la práctica.
Distribución muestral del estadístico t
La distribución t surge como la distribución muestral del estadístico t . A continuación se analiza el estadístico t de una muestra ; para el estadístico t de dos muestras correspondiente, consulte la prueba t de Student .
Estimación de varianza insesgada
Sean muestras independientes e idénticamente distribuidas de una distribución normal con media y varianza. La media muestral y la varianza muestral insesgada vienen dadas por:
El estadístico t resultante (una muestra) viene dado por
y se distribuye según una distribución t de Student con grados de libertad.
Así, para propósitos de inferencia, el estadístico t es una " cantidad fundamental " útil en el caso en que la media y la varianza son parámetros poblacionales desconocidos, en el sentido de que el estadístico t tiene entonces una distribución de probabilidad que no depende ni de ni de
Estimación de la varianza de ML
En lugar de la estimación insesgada también podemos utilizar la estimación de máxima verosimilitud.
dando la estadística
Esto se distribuye según la distribución t de escala de ubicación :
Distribución compuesta de normal con distribución gamma inversa.
La distribución t a escala de ubicación resulta de combinar una distribución gaussiana (distribución normal) con media y varianza desconocida , con una distribución gamma inversa colocada sobre la varianza con parámetros y. En otras palabras, se supone que la variable aleatoria X tiene una distribución gaussiana con una varianza desconocida distribuida como gamma inversa, y luego la varianza se margina (se integra).
De manera equivalente, esta distribución resulta de combinar una distribución gaussiana con una distribución de chi-cuadrado inversa escalada con parámetros y La distribución de chi-cuadrado inversa escalada es exactamente la misma distribución que la distribución gamma inversa, pero con una parametrización diferente, es decir
La razón de la utilidad de esta caracterización es que en la estadística bayesiana la distribución gamma inversa es la distribución previa conjugada de la varianza de una distribución gaussiana. Como resultado, la distribución t de escala de ubicación surge naturalmente en muchos problemas de inferencia bayesianos. [21]
Existen varios enfoques para construir muestras aleatorias a partir de la distribución t de Student . La cuestión depende de si las muestras se requieren de forma independiente o si se van a construir mediante la aplicación de una función cuantil a muestras uniformes ; por ejemplo, en las aplicaciones multidimensionales basadas en la dependencia de cópula . [ cita necesaria ] En el caso del muestreo independiente, se implementa fácilmente una extensión del método Box-Muller y su forma polar . [23] Tiene el mérito de que se aplica igualmente bien a todos los grados de libertad positivos reales , ν , mientras que muchos otros métodos candidatos fallan si ν es cercano a cero. [23]
Integral de la función de densidad de probabilidad de Student y el valor p
La función A ( t | ν ) es la integral de la función de densidad de probabilidad de Student, f ( t ) entre -t y t , para t ≥ 0 . Por lo tanto, da la probabilidad de que ocurra por casualidad un valor de t menor que el calculado a partir de los datos observados. Por lo tanto, la función A ( t | ν ) se puede utilizar al probar si la diferencia entre las medias de dos conjuntos de datos es estadísticamente significativa, calculando el valor correspondiente de t y la probabilidad de que ocurra si los dos conjuntos de datos fueran extraídos de la misma población. Esto se utiliza en una variedad de situaciones, particularmente en pruebas t . Para el estadístico t , con ν grados de libertad, A ( t | ν ) es la probabilidad de que t sea menor que el valor observado si las dos medias fueran iguales (siempre que la media menor se reste de la mayor, de modo que t ≥ 0 ). Se puede calcular fácilmente a partir de la función de distribución acumulativa F ν ( t ) de la distribución t :
Para probar hipótesis estadísticas, esta función se utiliza para construir el valor p .
Distribuciones relacionadas
La distribución t no central generaliza la distribución t para incluir un parámetro de no centralidad. A diferencia de las distribuciones t no estandarizadas , las distribuciones no centrales no son simétricas (la mediana no es lo mismo que la moda).
Aquí a , b y k son parámetros. Esta distribución surge de la construcción de un sistema de distribuciones discretas similar al de las distribuciones de Pearson para distribuciones continuas. [25]
Se pueden generar muestras de Student A ( t | ν ) tomando la proporción de variables de la distribución normal y la raíz cuadrada de la distribución χ² . Si utilizamos en lugar de la distribución normal, por ejemplo, la distribución de Irwin-Hall , obtenemos en general una distribución simétrica de 4 parámetros, que incluye la distribución normal, la uniforme , la triangular , la t de Student y la de Cauchy . Esto también es más flexible que algunas otras generalizaciones simétricas de la distribución normal.
La distribución t de Student surge en una variedad de problemas de estimación estadística donde el objetivo es estimar un parámetro desconocido, como un valor medio, en un entorno donde los datos se observan con errores aditivos . Si (como en casi todos los trabajos estadísticos prácticos) se desconoce la desviación estándar poblacional de estos errores y debe estimarse a partir de los datos, a menudo se utiliza la distribución t para tener en cuenta la incertidumbre adicional que resulta de esta estimación. En la mayoría de estos problemas, si se conociera la desviación estándar de los errores, se utilizaría una distribución normal en lugar de la distribución t .
Muy a menudo, los problemas de los libros de texto tratarán la desviación estándar de la población como si fuera conocida y, por lo tanto, evitarán la necesidad de utilizar la distribución t de Student. Estos problemas son generalmente de dos tipos: (1) aquellos en los que el tamaño de la muestra es tan grande que se puede tratar una estimación de la varianza basada en datos como si fuera cierta, y (2) aquellos que ilustran el razonamiento matemático, en los que el problema de estimar la desviación estándar se ignora temporalmente porque ese no es el punto que el autor o el instructor explica en ese momento.
Evaluación de la hipótesis
Se puede demostrar que varias estadísticas tienen distribuciones t para muestras de tamaño moderado bajo hipótesis nulas que son de interés, de modo que la distribución t forma la base para las pruebas de significancia. Por ejemplo, la distribución del coeficiente de correlación de rangos de Spearman ρ , en el caso nulo (correlación cero) se aproxima bien mediante la distribución t para tamaños de muestra superiores a aproximadamente 20. [ cita necesaria ]
Intervalos de confianza
Supongamos que el número A se elige de tal manera que
cuando T tiene una distribución t con n − 1 grados de libertad. Por simetría, esto es lo mismo que decir que A satisface
entonces A es el "percentil 95" de esta distribución de probabilidad, o Entonces
y esto es equivalente a
Por lo tanto, el intervalo cuyos puntos finales son
es un intervalo de confianza del 90% para μ. Por lo tanto, si encontramos la media de un conjunto de observaciones que razonablemente podemos esperar que tengan una distribución normal, podemos usar la distribución t para examinar si los límites de confianza de esa media incluyen algún valor predicho teóricamente, como el valor predicho en una hipótesis nula .
Es este resultado el que se utiliza en las pruebas t de Student : dado que la diferencia entre las medias de las muestras de dos distribuciones normales se distribuye normalmente, la distribución t se puede utilizar para examinar si se puede suponer razonablemente que esa diferencia es cero.
Si los datos se distribuyen normalmente, el límite de confianza superior (UCL ) unilateral (1 − α ) de la media se puede calcular utilizando la siguiente ecuación:
El UCL resultante será el valor promedio más grande que ocurrirá para un intervalo de confianza y un tamaño de población determinados. En otras palabras, al ser la media del conjunto de observaciones, la probabilidad de que la media de la distribución sea inferior a UCL 1 − α es igual al nivel de confianza 1 − α .
Intervalos de predicción
La distribución t se puede utilizar para construir un intervalo de predicción para una muestra no observada a partir de una distribución normal con media y varianza desconocidas.
En estadística bayesiana
La distribución t de Student , especialmente en su versión de tres parámetros (escala de ubicación), surge con frecuencia en la estadística bayesiana debido a su conexión con la distribución normal. Siempre que se desconoce la varianza de una variable aleatoria distribuida normalmente y se le coloca un conjugado previo que sigue una distribución gamma inversa , la distribución marginal resultante de la variable seguirá una distribución t de Student. Las construcciones equivalentes con los mismos resultados implican una distribución de chi-cuadrado inversa escalada conjugada sobre la varianza o una distribución gamma conjugada sobre la precisión . Si un adelanto impropio proporcional a1/σ² se coloca sobre la varianza, también surge la distribución t . Este es el caso independientemente de si la media de la variable normalmente distribuida es conocida, se desconoce distribuida según una anterior conjugada normalmente distribuida o se desconoce distribuida según una constante previa impropia.
Situaciones relacionadas que también producen una distribución t son:
La distribución marginal posterior de la media desconocida de una variable distribuida normalmente, con media anterior desconocida y varianza siguiendo el modelo anterior.
La distribución t se utiliza a menudo como alternativa a la distribución normal como modelo para datos, que a menudo tiene colas más pesadas de lo que permite la distribución normal; véase, por ejemplo, Lange et al. [26] El enfoque clásico era identificar valores atípicos (por ejemplo, utilizando la prueba de Grubbs ) y excluirlos o reducir su ponderación de alguna manera. Sin embargo, no siempre es fácil identificar valores atípicos (especialmente en dimensiones altas ), y la distribución t es una elección natural de modelo para dichos datos y proporciona un enfoque paramétrico para estadísticas sólidas .
Se puede encontrar una explicación bayesiana en Gelman et al. [27] El parámetro de grados de libertad controla la curtosis de la distribución y está correlacionado con el parámetro de escala. La probabilidad puede tener múltiples máximos locales y, como tal, a menudo es necesario fijar los grados de libertad en un valor bastante bajo y estimar los demás parámetros tomándolo como dado. Algunos autores [ cita necesaria ] informan que los valores entre 3 y 9 suelen ser buenas opciones. Venables y Ripley [ cita necesaria ] sugieren que un valor de 5 suele ser una buena opción.
proceso t de Student
Para necesidades prácticas de regresión y predicción , se introdujeron los procesos t de Student , que son generalizaciones de las distribuciones t de Student para funciones. Un proceso t de Student se construye a partir de las distribuciones t de Student como se construye un proceso gaussiano a partir de las distribuciones gaussianas . Para un proceso gaussiano , todos los conjuntos de valores tienen una distribución gaussiana multidimensional. De manera análoga, un proceso t de Student es en un intervalo si los valores correspondientes del proceso ( ) tienen una distribución t de Student multivariada conjunta . [28] Estos procesos se utilizan para regresión, predicción, optimización bayesiana y problemas relacionados. Para la regresión multivariada y la predicción de múltiples salidas, se introducen y utilizan los procesos multivariados t de Student. [29]
Tabla de valores seleccionados
La siguiente tabla enumera valores para distribuciones t con ν grados de libertad para un rango de regiones críticas unilaterales o bilaterales. La primera columna es ν , los porcentajes en la parte superior son niveles de confianza y los números en el cuerpo de la tabla son los factores descritos en la sección sobre intervalos de confianza.
La última fila con ν infinito proporciona puntos críticos para una distribución normal, ya que una distribución t con infinitos grados de libertad es una distribución normal. (Ver distribuciones relacionadas arriba).
Calcular el intervalo de confianza
Digamos que tenemos una muestra con tamaño 11, media muestral 10 y varianza muestral 2. Para un 90% de confianza con 10 grados de libertad, el valor t unilateral de la tabla es 1,372. Luego con el intervalo de confianza calculado a partir de
determinamos que con un 90% de confianza tenemos una media verdadera debajo
En otras palabras, el 90% de las veces que se calcula un umbral superior mediante este método a partir de muestras particulares, este umbral superior excede la media real.
Y con un 90% de confianza tenemos una media verdadera arriba
En otras palabras, el 90% de las veces que se calcula un umbral inferior mediante este método a partir de muestras particulares, este umbral inferior se encuentra por debajo de la media real.
De modo que con un 80% de confianza (calculado a partir de 100% − 2 × (1 − 90%) = 80%), tenemos una media verdadera que se encuentra dentro del intervalo
Decir que el 80% de las veces que los umbrales superior e inferior se calculan mediante este método a partir de una muestra determinada, la media verdadera está tanto por debajo del umbral superior como por encima del umbral inferior, no es lo mismo que decir que hay un 80% de probabilidad de que la verdadera media se encuentra entre un par particular de umbrales superior e inferior que se han calculado mediante este método; ver intervalo de confianza y falacia del fiscal .
^ Hurst, Simón. "La función característica de la distribución t de Student". Informe de investigación de matemáticas financieras. Informe de Investigación Estadística No. SRR044-95. Archivado desde el original el 18 de febrero de 2010.
^ Norton, Mateo; Khokhlov, Valentyn; Uryasev, Stan (2019). "Cálculo de CVaR y bPOE para distribuciones de probabilidad comunes con aplicación a la optimización de cartera y estimación de densidad" (PDF) . Anales de investigación de operaciones . 299 (1–2). Saltador: 1281-1315. arXiv : 1811.11301 . doi :10.1007/s10479-019-03373-1. S2CID 254231768 . Consultado el 27 de febrero de 2023 .
^ Helmert FR (1875). "Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler". Zeitschrift für Angewandte Mathematik und Physik (en alemán). 20 : 300–303.
^ Helmert FR (1876). "Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und úber einige damit in Zusammenhang stehende Fragen". Zeitschrift für Angewandte Mathematik und Physik (en alemán). 21 : 192–218.
^ Helmert FR (1876). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers director Beobachtungen gleicher Genauigkeit" [La precisión de la fórmula de Peters para calcular el error de observación probable de observaciones directas con la misma precisión]. Astronomische Nachrichten (en alemán). 88 (8–9): 113–132. Código bibliográfico : 1876AN.....88..113H. doi :10.1002/asna.18760880802.
^ Lüroth J (1876). "Vergleichung von zwei Werten des wahrscheinlichen Fehlers". Astronomische Nachrichten (en alemán). 87 (14): 209–220. Código bibliográfico : 1876AN.....87..209L. doi :10.1002/asna.18760871402.
^ Pfanzagl J, Sheynin O (1996). "Estudios de historia de la probabilidad y la estadística. XLIV. Un precursor de la distribución t ". Biometrika . 83 (4): 891–898. doi :10.1093/biomet/83.4.891. SEÑOR 1766040.
^ Pearson, K. (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo" (PDF) . Transacciones filosóficas de la Royal Society A : Ciencias matemáticas, físicas y de ingeniería . 186 (374): 343–414. Código bibliográfico : 1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . ISSN 1364-503X.
^ "Estudiante" [ pseu. William Sealy Gosset ] (1908). «El probable error de una media» (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR 2331554.{{cite journal}}: CS1 maint: numeric names: authors list (link)
^ Wendl MC (2016). "Fama seudónima". Ciencia . 351 (6280): 1406. Bibcode : 2016Sci...351.1406W. doi : 10.1126/ciencia.351.6280.1406. PMID 27013722.
^ Mortimer RG (2005). Matemáticas para la química física (3ª ed.). Burlington, MA: Elsevier. págs.326. ISBN9780080492889. OCLC 156200058.
^ ab Fisher RA (1925). «Aplicaciones de la distribución 'Estudiantes'» (PDF) . Metron . 5 : 90-104. Archivado desde el original (PDF) el 5 de marzo de 2016.
^ Walpole RE, Myers R, Myers S, Ye K (2006). Probabilidad y estadística para ingenieros y científicos (7ª ed.). Nueva Delhi, IN: Pearson. pag. 237.ISBN9788177584042. OCLC 818811849.
^ Kruschke JK (2015). Realizar análisis de datos bayesianos (2ª ed.). Prensa académica. ISBN9780124058880. OCLC 959632184.
^ Casella G, Berger RL (1990). Inferencia estadística . Centro de recursos de Duxbury. pag. 56.ISBN9780534119584.
^ ab Jackman, S. (2009). Análisis bayesiano para las ciencias sociales . Serie Wiley en probabilidad y estadística. Wiley. pag. 507. doi : 10.1002/9780470686621. ISBN9780470011546.
^ Johnson NL, Kotz S, Balakrishnan N (1995). "Capítulo 28". Distribuciones univariadas continuas . vol. 2 (2ª ed.). Wiley. ISBN9780471584940.
^ Hogg RV , Craig AT (1978). Introducción a la estadística matemática (4ª ed.). Nueva York: Macmillan. COMO EN B010WFO0SA. Secciones 4.4 y 4.8{{cite book}}: CS1 maint: postscript (link)
^ Cochran GT (1934). "La distribución de formas cuadráticas en un sistema normal, con aplicaciones al análisis de covarianza". Matemáticas. Proc. Camb. Filos. Soc. 30 (2): 178-191. Código Bib : 1934PCPS...30..178C. doi :10.1017/S0305004100016595. S2CID 122547084.
^ Gelman AB, Carlin JS, Rubin DB, Stern HS (1997). Análisis de datos bayesianos (2ª ed.). Boca Ratón, FL: Chapman & Hal lp 68. ISBN9780412039911.
^ Parque SY, Bera AK (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía". J. Economía. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014.
^ ab Bailey RW (1994). "La generación polar de aleatoria varía con la distribución t ". Matemáticas de la Computación . 62 (206): 779–781. Código Bib : 1994MaCom..62..779B. doi :10.2307/2153537. JSTOR 2153537. S2CID 120459654.
^ Orden JK (1972). Familias de distribuciones de frecuencia . Londres, Reino Unido: Griffin. Tabla 5.1. ISBN9780852641378.
^ Orden JK (1972). Familias de distribuciones de frecuencia . Londres, Reino Unido: Griffin. Capítulo 5. ISBN9780852641378.
^ Lange KL, pequeño RJ, Taylor JM (1989). "Modelado estadístico robusto utilizando la distribución t" (PDF) . Mermelada. Estadística. Asociación. 84 (408): 881–896. doi :10.1080/01621459.1989.10478852. JSTOR 2290063.
^ Gelman AB, Carlin JB, Stern HS y col. (2014). "Simulación de cadena de Markov computacionalmente eficiente". Análisis de datos bayesianos . Boca Ratón, Florida: CRC Press. pag. 293.ISBN9781439898208.
^ Shah, Amar; Wilson, Andrew Gordon; Ghahramani, Zoubin (2014). "Procesos t de Student como alternativas a los procesos gaussianos" (PDF) . JMLR . 33 (Actas de la 17ª Conferencia Internacional sobre Inteligencia Artificial y Estadísticas (AISTATS) 2014, Reykjavik, Islandia): 877–885. arXiv : 1402.4306 .
^ Chen, Zexun; Wang, Bo; Gorban, Alexander N. (2019). "Regresión de procesos multivariados gaussianos y t de Student para predicción de múltiples salidas". Computación neuronal y aplicaciones . 32 (8): 3005–3028. arXiv : 1703.04455 . doi : 10.1007/s00521-019-04687-8 .
^ Sol, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente". Comunicaciones en Estadística - Teoría y Métodos . 52 (5): 1591-1613. doi :10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.
Referencias
Senn, S.; Richardson, W. (1994). "La primera prueba t ". Estadística en Medicina . 13 (8): 785–803. doi :10.1002/sim.4780130802. PMID 8047737.
Hogg RV , Craig AT (1978). Introducción a la estadística matemática (4ª ed.). Nueva York: Macmillan. COMO EN B010WFO0SA.
Venables, WN; Ripley, BD (2002). Estadística aplicada moderna con S (Cuarta ed.). Saltador.
Gelman, Andrés; Juan B. Carlín; Hal S. popa; Donald B. Rubin (2003). Análisis de datos bayesianos (Segunda ed.). CRC/Chapman y Hall. ISBN 1-58488-388-X.