Prueba t de Student

La prueba t de Student es una prueba estadística que se utiliza para comprobar si la diferencia entre las respuestas de dos grupos es estadísticamente significativa o no. Es cualquier prueba de hipótesis estadística en la que el estadístico de prueba sigue una distribución t de Student bajo la hipótesis nula . Se aplica más comúnmente cuando el estadístico de prueba seguiría una distribución normal si se conociera el valor de un término de escala en el estadístico de prueba (normalmente, el término de escala es desconocido y, por tanto, es un parámetro molesto ). Cuando el término de escala se estima en función de los datos , el estadístico de prueba, en determinadas condiciones, sigue una distribución t de Student . La aplicación más común de la prueba t es comprobar si las medias de dos poblaciones son significativamente diferentes. En muchos casos, una prueba Z arrojará resultados muy similares a una prueba t porque esta última converge a la primera a medida que aumenta el tamaño del conjunto de datos.

Historia

El término " estadística t " es la abreviatura de "estadística de prueba de hipótesis". ^[1] En estadística, la distribución t fue derivada por primera vez como una distribución posterior en 1876 por Helmert ^[2]^[3]^[4] y Lüroth . ^[5]^[6]^[7] La distribución t también apareció en una forma más general como distribución tipo IV de Pearson en el artículo de Karl Pearson de 1895. ^[8] Sin embargo, la distribución t , también conocida como distribución t de Student , recibe su nombre de William Sealy Gosset , quien la publicó por primera vez en inglés en 1908 en la revista científica Biometrika usando el seudónimo "Student" ^[9]^[10] porque su empleador prefería que el personal usara seudónimos al publicar artículos científicos. ^[11] Gosset trabajaba en la fábrica de cerveza Guinness en Dublín , Irlanda , y estaba interesado en los problemas de las muestras pequeñas; por ejemplo, las propiedades químicas de la cebada con muestras de tamaño pequeño. Por lo tanto, una segunda versión de la etimología del término Student es que Guinness no quería que sus competidores supieran que estaban usando la prueba t para determinar la calidad de la materia prima. Aunque el término "Student" se debe a William Gosset, en realidad fue a través del trabajo de Ronald Fisher que la distribución se hizo conocida como "distribución de Student" ^[12] y " prueba t de Student ".

Gosset ideó la prueba t como una forma económica de controlar la calidad de la cerveza negra . El trabajo sobre la prueba t se presentó a la revista Biometrika y fue aceptado en ella, y se publicó en 1908. ^[9]

Guinness tenía una política de permitir que el personal técnico se ausentara para estudiar (la llamada "licencia de estudio"), que Gosset utilizó durante los dos primeros semestres del año académico 1906-1907 en el Laboratorio Biométrico del Profesor Karl Pearson en el University College de Londres . ^[13] La identidad de Gosset era entonces conocida por sus colegas estadísticos y por el editor en jefe Karl Pearson. ^[14]

Usos

Una muestraa-prueba

Una prueba t de Student de una muestra es una prueba de ubicación para determinar si la media de una población tiene un valor especificado en una hipótesis nula . Para probar la hipótesis nula de que la media de la población es igual a un valor especificado $μ 0$ , se utiliza la estadística

t={\frac {{\bar {x}}-\mu _{0}}{s/{\sqrt {n}}}},

donde es la media de la muestra, $s$ es la desviación estándar de la muestra y $n$ es el tamaño de la muestra. Los grados de libertad utilizados en esta prueba son $n$ $- 1$ . Aunque no es necesario que la población original tenga una distribución normal, se supone que la distribución de la población de medias de muestra es normal. ${\estilo de visualización {\barra {x}}}$ ${\estilo de visualización {\barra {x}}}$

Por el teorema del límite central , si las observaciones son independientes y existe el segundo momento, entonces será aproximadamente normal . ${\estilo de visualización t}$ ${\textstyle {\mathcal {N}}(0,1)}$

Dos muestrasa-pruebas

Prueba de ubicación de dos muestras de la hipótesis nula, de modo que las medias de dos poblaciones sean iguales. Todas estas pruebas suelen denominarse pruebas t de Student , aunque estrictamente hablando ese nombre solo debería utilizarse si también se supone que las varianzas de las dos poblaciones son iguales; la forma de la prueba utilizada cuando se descarta esta suposición a veces se denomina prueba t de Welch . Estas pruebas suelen denominarse pruebas t de muestras independientes o no pareadas , ya que normalmente se aplican cuando las unidades estadísticas subyacentes a las dos muestras que se comparan no se superponen. ^[15]

Las pruebas t de dos muestras para una diferencia en las medias involucran muestras independientes (muestras no pareadas) o muestras pareadas . Las pruebas t pareadas son una forma de bloqueo y tienen mayor potencia (probabilidad de evitar un error de tipo II, también conocido como falso negativo) que las pruebas no pareadas cuando las unidades pareadas son similares con respecto a los "factores de ruido" (ver factor de confusión ) que son independientes de la pertenencia a los dos grupos que se comparan. ^{[16] En un contexto diferente, las pruebas}t pareadas se pueden utilizar para reducir los efectos de los factores de confusión en un estudio observacional .

Muestras independientes (no pareadas)

La prueba t para muestras independientes se utiliza cuando se obtienen dos conjuntos separados de muestras independientes e idénticamente distribuidas y se compara una variable de cada una de las dos poblaciones. Por ejemplo, supongamos que estamos evaluando el efecto de un tratamiento médico e inscribimos a 100 sujetos en nuestro estudio, luego asignamos aleatoriamente 50 sujetos al grupo de tratamiento y 50 sujetos al grupo de control. En este caso, tenemos dos muestras independientes y utilizaríamos la forma no pareada de la prueba t .

Muestras pareadas

Las pruebas t de muestras pareadas generalmente consisten en una muestra de pares coincidentes de unidades similares , o un grupo de unidades que se ha probado dos veces (una prueba t de "medidas repetidas" ).

Un ejemplo típico de la prueba t de medidas repetidas sería cuando se realizan pruebas a los sujetos antes de un tratamiento, por ejemplo, para la presión arterial alta, y se vuelven a realizar pruebas a los mismos sujetos después del tratamiento con un medicamento para reducir la presión arterial. Al comparar los números del mismo paciente antes y después del tratamiento, estamos utilizando efectivamente a cada paciente como su propio control. De esa manera, el rechazo correcto de la hipótesis nula (aquí: de que el tratamiento no produjo ninguna diferencia) puede volverse mucho más probable, y el poder estadístico aumenta simplemente porque ahora se ha eliminado la variación aleatoria entre pacientes. Sin embargo, un aumento del poder estadístico tiene un precio: se requieren más pruebas y cada sujeto debe ser examinado dos veces. Debido a que la mitad de la muestra ahora depende de la otra mitad, la versión pareada de la prueba t de Student solo $.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num{display:block;line-height:1em;margin:0.0em 0.1em;border-bottom:1px solid}.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0.1em 0.1em}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);clip-path:polygon(0px 0px,0px 0px,0px 0px);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}tienenorte/2⁠ − 1$ grados de libertad (siendo $n$ el número total de observaciones). Los pares se convierten en unidades de prueba individuales y la muestra debe duplicarse para lograr el mismo número de grados de libertad. Normalmente, hay $n - 1$ grados de libertad (siendo $n$ el número total de observaciones).^[17]

Una prueba t de muestras pareadas basada en una "muestra de pares pareados" resulta de una muestra no pareada que se utiliza posteriormente para formar una muestra pareada, mediante el uso de variables adicionales que se midieron junto con la variable de interés. ^[18] La comparación se lleva a cabo identificando pares de valores que consisten en una observación de cada una de las dos muestras, donde el par es similar en términos de otras variables medidas. Este enfoque se utiliza a veces en estudios observacionales para reducir o eliminar los efectos de los factores de confusión.

Las pruebas t de muestras pareadas a menudo se denominan " pruebas t de muestras dependientes ".

Supuestos

^{[ dudoso – discutir ]}

La mayoría de las estadísticas de prueba tienen la forma $t = Z / s$ , donde $Z$ y $s$ son funciones de los datos.

$Z$ puede ser sensible a la hipótesis alternativa (es decir, su magnitud tiende a ser mayor cuando la hipótesis alternativa es verdadera), mientras que $s$ es un parámetro de escala que permite determinar la distribución de $t .$

A modo de ejemplo, en la prueba t de una muestra

t={\frac {Z}{s}}={\frac {{\bar {X}}-\mu }{{\hat {\sigma }}/{\sqrt {n}}}},

donde es la media de la muestra de una muestra $X$ $1$ $,$ $X$ $2$ $, \dots,$ $X$ $n$ , de tamaño $n$ , $s$ es el error estándar de la media , es la estimación de la desviación estándar de la población y $μ$ es la media de la población . ${\estilo de visualización {\bar {X}}}$ ${\hat {\sigma }}={\sqrt {{\frac {1}{n-1}}\sum _{i}(X_{i}-{\bar {X}})^{2}}}$

Los supuestos subyacentes a una prueba t en la forma más simple mencionada anteriormente son los siguientes:

$X$ sigue una distribución normal con media $μ$ y varianza $σ 2 / n$ .
$s 2 (n - 1)/ σ 2$ sigue una distribución χ 2 con $n - 1$ grados de libertad . Este supuesto se cumple cuando las observaciones utilizadas para estimar $s 2$ provienen de una distribución normal (e iid para cada grupo).
$Z$ y $s$ son independientes .

En la prueba t que compara las medias de dos muestras independientes, se deben cumplir los siguientes supuestos:

Las medias de las dos poblaciones que se comparan deben seguir distribuciones normales . Bajo supuestos débiles, esto se deduce en muestras grandes del teorema del límite central , incluso cuando la distribución de las observaciones en cada grupo no es normal. ^[19]
Si se utiliza la definición original de Student de la prueba t , las dos poblaciones que se comparan deben tener la misma varianza (comprobable mediante la prueba F , la prueba de Levene , la prueba de Bartlett o la prueba de Brown-Forsythe ; o evaluable gráficamente mediante un diagrama Q-Q ). Si los tamaños de muestra en los dos grupos que se comparan son iguales, la prueba t original de Student es muy robusta a la presencia de varianzas desiguales. ^[20] La prueba t de Welch es insensible a la igualdad de las varianzas independientemente de si los tamaños de muestra son similares.
Los datos utilizados para realizar la prueba deben ser muestreados independientemente de las dos poblaciones que se comparan o estar completamente pareados. En general, esto no se puede comprobar a partir de los datos, pero si se sabe que los datos son dependientes (por ejemplo, pareados por el diseño de la prueba), se debe aplicar una prueba dependiente. Para datos parcialmente pareados, las pruebas t independientes clásicas pueden arrojar resultados no válidos, ya que la estadística de prueba podría no seguir una distribución t , mientras que la prueba t dependiente es subóptima, ya que descarta los datos no pareados. ^[21]

La mayoría de las pruebas t de dos muestras son robustas a todos los supuestos, excepto a grandes desviaciones. ^[22]

Para mayor exactitud , la prueba t y la prueba Z requieren normalidad de las medias de la muestra, y la prueba t requiere además que la varianza de la muestra siga una distribución χ 2 escalada , y que la media de la muestra y la varianza de la muestra sean estadísticamente independientes . La normalidad de los valores de los datos individuales no es necesaria si se cumplen estas condiciones. Por el teorema del límite central , las medias de la muestra de muestras moderadamente grandes suelen aproximarse bien mediante una distribución normal incluso si los datos no se distribuyen normalmente. Sin embargo, el tamaño de la muestra necesario para que las medias de la muestra converjan a la normalidad depende de la asimetría de la distribución de los datos originales. La muestra puede variar de 30 a 100 o más valores dependiendo de la asimetría. ^[23]^[24] F

Para datos no normales, la distribución de la varianza de la muestra puede desviarse sustancialmente de una distribución χ ² .

Sin embargo, si el tamaño de la muestra es grande, el teorema de Slutsky implica que la distribución de la varianza de la muestra tiene poco efecto sobre la distribución de la estadística de prueba. Es decir, a medida que aumenta el tamaño de la muestra: ${\estilo de visualización n}$

{\sqrt {n}}({\bar {X}}-\mu )\xrightarrow {d} N(0,\sigma ^{2})

Según el teorema del límite central ,

s^{2}\xrightarrow {p} \sigma ^{2}

según la ley de los grandes números ,

\por lo tanto {\frac {{\sqrt {n}}({\bar {X}}-\mu )}{s}}\xrightarrow {d} N(0,1)

Cálculos

A continuación se presentan expresiones explícitas que se pueden utilizar para realizar varias pruebas t . En cada caso, se proporciona la fórmula para un estadístico de prueba que sigue exactamente o se aproxima mucho a una distribución t bajo la hipótesis nula. Además, se proporcionan los grados de libertad apropiados en cada caso. Cada uno de estos estadísticos se puede utilizar para realizar una prueba de una o dos colas .

Una vez que se determinan el valor t y los grados de libertad, se puede hallar un valor p utilizando una tabla de valores de la distribución t de Student . Si el valor p calculado está por debajo del umbral elegido para la significación estadística (normalmente el nivel 0,10, 0,05 o 0,01), se rechaza la hipótesis nula en favor de la hipótesis alternativa.

Pendiente de una recta de regresión

Supongamos que uno está ajustando el modelo

Y=\alpha +\beta x+\varepsilon ,

donde $x$ es conocido, $α$ y $β$ son desconocidos, $ε$ es una variable aleatoria distribuida normalmente con media 0 y varianza desconocida $σ 2$ , e $Y$ es el resultado de interés. Queremos probar la hipótesis nula de que la pendiente $β$ es igual a un valor especificado $β 0$ (que a menudo se toma como 0, en cuyo caso la hipótesis nula es que $x$ e $y$ no están correlacionados).

Dejar

{\begin{aligned}{\hat {\alpha }},{\hat {\beta }}&={\text{estimadores de mínimos cuadrados}},\\SE_{\hat {\alpha }},SE_{\hat {\beta }}&={\text{los errores estándar de los estimadores de mínimos cuadrados}}.\end{aligned}}

Entonces

t_{\text{puntaje}}={\frac {{\hat {\beta }}-\beta _{0}}{SE_{\hat {\beta }}}}\sim {\mathcal {T}}_{n-2}

tiene una distribución t con $n - 2$ grados de libertad si la hipótesis nula es verdadera. El error estándar del coeficiente de pendiente :

SE_{\hat {\beta }}={\frac {\sqrt {\displaystyle {\frac {1}{n-2}}\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}}}{\sqrt {\displaystyle \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}

puede escribirse en términos de los residuos. Sea

{\begin{aligned}{\hat {\varepsilon }}_{i}&=y_{i}-{\hat {y}}_{i}=y_{i}-({\hat {\alpha }}+{\hat {\beta }}x_{i})={\text{residuals}}={\text{estimated errors}},\\{\text{SSR}}&=\sum _{i=1}^{n}{{\hat {\varepsilon }}_{i}}^{2}={\text{sum of squares of residuals}}.\end{aligned}}

Entonces _{la puntuación} $t$ viene dada por

t_{\text{score}}={\frac {({\hat {\beta }}-\beta _{0}){\sqrt {n-2}}}{\sqrt {\frac {SSR}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}}.

Otra forma de determinar la _puntuación $t$ es

t_{\text{score}}={\frac {r{\sqrt {n-2}}}{\sqrt {1-r^{2}}}},

donde r es el coeficiente de correlación de Pearson .

La _puntuación $t$ , la intersección se pueden determinar a partir de la puntuación $t$ _{, la pendiente} :

t_{\text{score,intercept}}={\frac {\alpha }{\beta }}{\frac {t_{\text{score,slope}}}{\sqrt {s_{\text{x}}^{2}+{\bar {x}}^{2}}}},

donde $s x 2$ es la varianza de la muestra.

Dos muestras independientesa-prueba

Tamaños de muestra y varianza iguales

Dados dos grupos (1, 2), esta prueba sólo es aplicable cuando:

los dos tamaños de muestra son iguales,
Se puede suponer que las dos distribuciones tienen la misma varianza.

Las violaciones de estos supuestos se analizan a continuación.

La estadística $t$ para comprobar si las medias son diferentes se puede calcular de la siguiente manera:

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{p}{\sqrt {\frac {2}{n}}}}},

dónde

s_{p}={\sqrt {\frac {s_{X_{1}}^{2}+s_{X_{2}}^{2}}{2}}}.

Aquí $s p$ es la desviación estándar agrupada para $n = n 1 = n 2$ , y $s 2x1 $ y $s 2 X 2$ son los estimadores insesgados de la varianza poblacional. El denominador de $t$ es el error estándar de la diferencia entre dos medias.

Para la prueba de significancia, los grados de libertad para esta prueba son $2 n - 2$ , donde $n$ es el tamaño de la muestra.

Tamaños de muestra iguales o desiguales, varianzas similares (⁠1/2⁠<⁠sX1/y ₂⁠< 2)

Esta prueba se utiliza únicamente cuando se puede suponer que las dos distribuciones tienen la misma varianza (cuando se viola este supuesto, véase más adelante). Las fórmulas anteriores son un caso especial de las fórmulas siguientes, se recuperan cuando ambas muestras son iguales en tamaño: $n = n 1 = n 2$ .

La estadística $t$ para comprobar si las medias son diferentes se puede calcular de la siguiente manera:

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{p}\cdot {\sqrt {{\frac {1}{n_{1}}}+{\frac {1}{n_{2}}}}}}},

dónde

s_{p}={\sqrt {\frac {(n_{1}-1)s_{X_{1}}^{2}+(n_{2}-1)s_{X_{2}}^{2}}{n_{1}+n_{2}-2}}}

es la desviación estándar combinada de las dos muestras: se define de esta manera para que su cuadrado sea un estimador insesgado de la varianza común, independientemente de que las medias de la población sean las mismas o no. En estas fórmulas, $n i - 1$ es el número de grados de libertad de cada grupo, y el tamaño total de la muestra menos dos (es decir, $n 1 + n 2 - 2$ ) es el número total de grados de libertad, que se utiliza en las pruebas de significancia.

Tamaños de muestra iguales o desiguales, varianzas desiguales (s_X1> 2s_X2os_X2> 2s_X1)

Esta prueba, también conocida como prueba t de Welch , se utiliza únicamente cuando no se supone que las varianzas de las dos poblaciones sean iguales (los dos tamaños de muestra pueden ser iguales o no) y, por lo tanto, deben estimarse por separado. La estadística $t$ para comprobar si las medias de la población son diferentes se calcula como

t={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{s_{\bar {\Delta }}}},

dónde

s_{\bar {\Delta }}={\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}.

Aquí $s i 2$ es el estimador insesgado de la varianza de cada una de las dos muestras con $n i$ = número de participantes en el grupo $i$ ( $i$ = 1 o 2). En este caso no es una varianza agrupada. Para su uso en pruebas de significancia, la distribución de la estadística de prueba se aproxima como una distribución t de Student ordinaria con los grados de libertad calculados utilizando $(s_{\bar {\Delta }})^{2}$

{\text{d.f.}}={\frac {\left({\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}\right)^{2}}{{\frac {(s_{1}^{2}/n_{1})^{2}}{n_{1}-1}}+{\frac {(s_{2}^{2}/n_{2})^{2}}{n_{2}-1}}}}.

Esto se conoce como ecuación de Welch-Satterthwaite . La distribución real de la estadística de prueba depende (levemente) de las dos varianzas poblacionales desconocidas (véase el problema de Behrens-Fisher ).

Método exacto para varianzas y tamaños de muestra desiguales

La prueba ^[25] aborda el famoso problema de Behrens-Fisher , es decir, comparar la diferencia entre las medias de dos poblaciones distribuidas normalmente cuando no se supone que las varianzas de las dos poblaciones sean iguales, basándose en dos muestras independientes.

La prueba se desarrolló como una prueba exacta que permite tamaños de muestra desiguales y varianzas desiguales de dos poblaciones. La propiedad exacta se mantiene incluso con tamaños de muestra extremadamente pequeños y desequilibrados (por ejemplo, ). $n_{1}=5,n_{2}=50$

La estadística para comprobar si las medias son diferentes se puede calcular de la siguiente manera:

Sean y los vectores de muestra iid ( ) de y por separado. $X=[X_{1},X_{2},\ldots ,X_{m}]^{T}$ $Y=[Y_{1},Y_{2},\ldots ,Y_{n}]^{T}$ $m\geq n$ $N(\mu _{1},\sigma _{1}^{2})$ $N(\mu _{2},\sigma _{2}^{2})$

Sea una matriz ortogonal cuyos elementos de la primera fila son todos , de manera similar, sean las primeras n filas de una matriz ortogonal (cuyos elementos de la primera fila son todos ). $(P^{T})_{n\times n}$ $n\times n$ $1/{\sqrt {n}}$ $(Q^{T})_{n\times m}$ $m\times m$ $1/{\sqrt {m}}$

Entonces es un vector aleatorio normal n-dimensional. $Z:=(Q^{T})_{n\times m}X/{\sqrt {m}}-(P^{T})_{n\times n}Y/{\sqrt {n}}$

Z\sim N((\mu _{1}-\mu _{2},0,...,0)^{T},(\sigma _{1}^{2}/m+\sigma _{2}^{2}/n)I_{n}).

De la distribución anterior vemos que

Z_{1}={\bar {X}}-{\bar {Y}}={\frac {1}{m}}\sum _{i=1}^{m}X_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j},

Z_{1}-(\mu _{1}-\mu _{2})\sim N(0,\sigma _{1}^{2}/m+\sigma _{2}^{2}/n),

{\frac {\sum _{i=2}^{n}Z_{i}^{2}}{n-1}}\sim {\frac {\chi _{n-1}^{2}}{n-1}}\times \left({\frac {\sigma _{1}^{2}}{m}}+{\frac {\sigma _{2}^{2}}{n}}\right)

Z_{1}-(\mu _{1}-\mu _{2})\perp \sum _{i=2}^{n}Z_{i}^{2}.

T_{e}:={\frac {Z_{1}-(\mu _{1}-\mu _{2})}{\sqrt {(\sum _{i=2}^{n}Z_{i}^{2})/(n-1)}}}\sim t_{n-1}.

Dependientea-prueba para muestras pareadas

Esta prueba se utiliza cuando las muestras son dependientes, es decir, cuando solo hay una muestra que se ha probado dos veces (medidas repetidas) o cuando hay dos muestras que se han emparejado o "emparejado". Este es un ejemplo de una prueba de diferencias pareadas . La estadística t se calcula como

t={\frac {{\bar {X}}_{D}-\mu _{0}}{s_{D}/{\sqrt {n}}}},

donde y son la media y la desviación estándar de las diferencias entre todos los pares. Los pares son, por ejemplo, las puntuaciones de una persona antes y después de la prueba o entre pares de personas emparejadas en grupos significativos (por ejemplo, extraídas de la misma familia o grupo de edad: véase la tabla). La constante $μ$ $0$ es cero si queremos comprobar si la media de la diferencia es significativamente diferente. El grado de libertad utilizado es $n$ $- 1$ , donde $n$ representa el número de pares. ${\bar {X}}_{D}$ $s_{D}$

Ejemplos resueltos

Sea $A 1$ un conjunto obtenido extrayendo una muestra aleatoria de seis mediciones:

A_{1}=\{30.02,\ 29.99,\ 30.11,\ 29.97,\ 30.01,\ 29.99\}

y sea $A 2$ un segundo conjunto obtenido de manera similar:

A_{2}=\{29.89,\ 29.93,\ 29.72,\ 29.98,\ 30.02,\ 29.98\}

Estos podrían ser, por ejemplo, los pesos de tornillos que fueron fabricados por dos máquinas diferentes.

Realizaremos pruebas de la hipótesis nula de que las medias de las poblaciones de las que se tomaron las dos muestras son iguales.

La diferencia entre las dos medias de muestra, cada una denotada por $X i$ , que aparece en el numerador para todos los enfoques de prueba de dos muestras analizados anteriormente, es

{\bar {X}}_{1}-{\bar {X}}_{2}=0.095.

Las desviaciones estándar de las muestras para las dos muestras son aproximadamente 0,05 y 0,11, respectivamente. Para muestras tan pequeñas, una prueba de igualdad entre las varianzas de las dos poblaciones no sería muy eficaz. Dado que los tamaños de las muestras son iguales, las dos formas de la prueba t de dos muestras tendrán un rendimiento similar en este ejemplo.

Varianzas desiguales

Si se sigue el enfoque para varianzas desiguales (discutido anteriormente), los resultados son

{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}\approx 0.04849

y los grados de libertad

{\text{d.f.}}\approx 7.031.

La estadística de prueba es aproximadamente 1,959, lo que da un valor p de prueba de dos colas de 0,09077.

Varianzas iguales

Si se sigue el enfoque de varianzas iguales (discutido anteriormente), los resultados son

s_{p}\approx 0.08399

y los grados de libertad

{\text{d.f.}}=10.

La estadística de prueba es aproximadamente igual a 1,959, lo que da un valor p de dos colas de 0,07857.

Pruebas estadísticas relacionadas

Alternativas a laa-prueba de problemas de ubicación

La prueba t proporciona una prueba exacta para la igualdad de las medias de dos poblaciones normales iid con varianzas desconocidas, pero iguales. ( La prueba t de Welch es una prueba casi exacta para el caso en que los datos son normales pero las varianzas pueden diferir). Para muestras moderadamente grandes y una prueba de una cola, la prueba t es relativamente robusta a violaciones moderadas del supuesto de normalidad. ^[26] En muestras suficientemente grandes, la prueba t se aproxima asintóticamente a la prueba z y se vuelve robusta incluso a grandes desviaciones de la normalidad. ^[19]

Si los datos son sustancialmente anormales y el tamaño de la muestra es pequeño, la prueba t puede arrojar resultados engañosos. Consulte la prueba de ubicación para distribuciones de mezclas de escala gaussiana para obtener información sobre algunas teorías relacionadas con una familia particular de distribuciones anormales.

Cuando el supuesto de normalidad no se cumple, una alternativa no paramétrica a la prueba t puede tener mejor poder estadístico . Sin embargo, cuando los datos no son normales con diferentes varianzas entre los grupos, una prueba t puede tener un mejor control de error de tipo 1 que algunas alternativas no paramétricas. ^[27] Además, los métodos no paramétricos, como la prueba U de Mann-Whitney analizada a continuación, normalmente no prueban una diferencia de medias, por lo que deben usarse con cuidado si una diferencia de medias es de interés científico primario. ^[19] Por ejemplo, la prueba U de Mann-Whitney mantendrá el error de tipo 1 en el nivel deseado alfa si ambos grupos tienen la misma distribución. También tendrá poder para detectar una alternativa por la cual el grupo B tiene la misma distribución que A pero después de algún cambio por una constante (en cuyo caso sí habría una diferencia en las medias de los dos grupos). Sin embargo, podría haber casos en los que el grupo A y el grupo B tengan distribuciones diferentes pero con las mismas medias (como dos distribuciones, una con asimetría positiva y la otra con asimetría negativa, pero desplazadas para que tengan las mismas medias). En tales casos, MW podría tener más poder que el nivel alfa para rechazar la hipótesis nula, pero atribuir la interpretación de la diferencia en las medias a tal resultado sería incorrecto.

En presencia de un valor atípico , la prueba t no es robusta. Por ejemplo, para dos muestras independientes cuando las distribuciones de datos son asimétricas (es decir, las distribuciones están sesgadas ) o las distribuciones tienen colas grandes, entonces la prueba de suma de rangos de Wilcoxon (también conocida como prueba U de Mann-Whitney ) puede tener una potencia tres o cuatro veces mayor que la prueba t . ^[26]^[28]^[29] La contraparte no paramétrica de la prueba t para muestras pareadas es la prueba de rangos con signo de Wilcoxon para muestras pareadas. Para una discusión sobre la elección entre la prueba t y las alternativas no paramétricas, consulte Lumley, et al. (2002). ^[19]

El análisis de varianza unidireccional (ANOVA) generaliza la prueba t de dos muestras cuando los datos pertenecen a más de dos grupos.

Un diseño que incluye tanto observaciones pareadas como observaciones independientes

Cuando en el diseño de dos muestras se encuentran presentes tanto observaciones pareadas como observaciones independientes, suponiendo que los datos faltan de forma completamente aleatoria (MCAR), se pueden descartar las observaciones pareadas o las observaciones independientes para continuar con las pruebas estándar anteriores. Como alternativa, haciendo uso de todos los datos disponibles, suponiendo normalidad y MCAR, se podría utilizar la prueba t generalizada de muestras parcialmente superpuestas . ^[30]

Pruebas multivariadas

Una generalización de la estadística t de Student , llamada estadística t -cuadrada de Hotelling , permite probar hipótesis en múltiples medidas (a menudo correlacionadas) dentro de la misma muestra. Por ejemplo, un investigador puede someter a varios sujetos a una prueba de personalidad que consta de múltiples escalas de personalidad (por ejemplo, el Inventario Multifásico de Personalidad de Minnesota ). Debido a que las medidas de este tipo suelen estar correlacionadas positivamente, no es aconsejable realizar pruebas t univariadas separadas para probar hipótesis, ya que estas descuidarían la covarianza entre las medidas e inflarían la posibilidad de rechazar falsamente al menos una hipótesis ( error de tipo I ). En este caso, es preferible una sola prueba multivariada para probar hipótesis. El método de Fisher para combinar múltiples pruebas con alfa reducido para correlación positiva entre pruebas es uno. Otro es la estadística T ² de Hotelling que sigue una distribución T ^2. Sin embargo, en la práctica, la distribución rara vez se utiliza, ya que los valores tabulados para T ² son difíciles de encontrar. Generalmente, T ² se convierte en una estadística F.

Para una prueba multivariada de una muestra, la hipótesis es que el vector medio ( $μ$ ) es igual a un vector dado ( $μ 0$ ). La estadística de prueba es la t 2 de Hotelling :

t^{2}=n({\bar {\mathbf {x} }}-{{\boldsymbol {\mu }}_{0}})'{\mathbf {S} }^{-1}({\bar {\mathbf {x} }}-{{\boldsymbol {\mu }}_{0}})

donde $n$ es el tamaño de la muestra, $x$ es el vector de medias de columnas y $S$ es una matriz de covarianza de muestra $m \times m$ .

Para una prueba multivariante de dos muestras, la hipótesis es que los vectores de media ( $μ 1, μ 2$ ) de dos muestras son iguales. El estadístico de prueba es la t 2 de Hotelling para dos muestras :

t^{2}={\frac {n_{1}n_{2}}{n_{1}+n_{2}}}\left({\bar {\mathbf {x} }}_{1}-{\bar {\mathbf {x} }}_{2}\right)'{\mathbf {S} _{\text{pooled}}}^{-1}\left({\bar {\mathbf {x} }}_{1}-{\bar {\mathbf {x} }}_{2}\right).

Las dos muestrasa-test es un caso especial de regresión lineal simple

La prueba t de dos muestras es un caso especial de regresión lineal simple como lo ilustra el siguiente ejemplo.

En un ensayo clínico se examina a 6 pacientes a los que se les administra un medicamento o un placebo. Tres (3) pacientes reciben 0 unidades del medicamento (el grupo placebo). Tres (3) pacientes reciben 1 unidad del medicamento (el grupo de tratamiento activo). Al final del tratamiento, los investigadores miden el cambio con respecto al valor inicial en la cantidad de palabras que cada paciente puede recordar en una prueba de memoria.

A continuación se muestra una tabla del recuerdo de palabras de los pacientes y los valores de las dosis del medicamento.

Se proporcionan datos y códigos para el análisis utilizando el lenguaje de programación R con las funciones t.testy lmpara la prueba t y la regresión lineal. Aquí se muestran los mismos datos (ficticios) anteriores generados en R.

> palabra.recuperación.datos = datos.marco ( droga.dosis = c ( 0 , 0 , 0 , 1 , 1 , 1 ), palabra.recuperación = c ( 1 , 2 , 3 , 5 , 6 , 7 ))

Realice la prueba tvar.equal=T . Observe que se requiere el supuesto de varianzas iguales, , para que el análisis sea exactamente equivalente a la regresión lineal simple.

> con ( palabra.recuperación.datos , t.prueba ( palabra.recuperación ~ fármaco.dosis , var.igual = T ))

La ejecución del código R arroja los siguientes resultados.

La palabra media de recuperación en el grupo de dosis de fármaco 0 es 2.
La palabra media de recuerdo en el grupo de 1 dosis de fármaco es 6.
La diferencia entre los grupos de tratamiento en la palabra media de recuperación es 6 – 2 = 4.
La diferencia en el recuerdo de palabras entre dosis de fármaco es significativa (p=0,00805).

Realice una regresión lineal de los mismos datos. Los cálculos se pueden realizar utilizando la función R lm()para un modelo lineal.

> palabra.recuperación.datos.lm = lm ( palabra.recuperación ~ fármaco.dosis , datos = palabra.recuperación.datos ) > resumen ( palabra.recuperación.datos.lm )

La regresión lineal proporciona una tabla de coeficientes y valores p.

La tabla de coeficientes da los siguientes resultados.

El valor estimado de 2 para la intersección es el valor medio del recuerdo de la palabra cuando la dosis del fármaco es 0.
El valor estimado de 4 para la dosis del fármaco indica que por cada cambio de 1 unidad en la dosis del fármaco (de 0 a 1) hay un cambio de 4 unidades en el recuerdo medio de palabras (de 2 a 6). Esta es la pendiente de la línea que une las medias de los dos grupos.
El valor p de que la pendiente de 4 es diferente de 0 es p = 0,00805.

Los coeficientes de la regresión lineal especifican la pendiente y la intersección de la línea que une las medias de los dos grupos, como se ilustra en el gráfico. La intersección es 2 y la pendiente es 4.

Compare el resultado de la regresión lineal con el resultado de la prueba t .

De la prueba t se desprende que la diferencia entre las medias de los grupos es 6-2=4.
A partir de la regresión, la pendiente también es 4, lo que indica que un cambio de 1 unidad en la dosis del fármaco (de 0 a 1) produce un cambio de 4 unidades en el recuerdo medio de palabras (de 2 a 6).
El valor p de la prueba t para la diferencia de medias y el valor p de la regresión para la pendiente son ambos 0,00805. Los métodos arrojan resultados idénticos.

Este ejemplo muestra que, para el caso especial de una regresión lineal simple donde hay una única variable x con valores 0 y 1, la prueba t arroja los mismos resultados que la regresión lineal. La relación también se puede mostrar algebraicamente.

Reconocer esta relación entre la prueba t y la regresión lineal facilita el uso de la regresión lineal múltiple y el análisis de varianza de múltiples vías . Estas alternativas a las pruebas t permiten la inclusión de variables explicativas adicionales asociadas con la respuesta. La inclusión de dichas variables explicativas adicionales mediante regresión o ANOVA reduce la varianza que de otro modo no se explica y, por lo general, produce un mayor poder para detectar diferencias que las pruebas t de dos muestras .

Implementaciones de software

Muchos programas de hojas de cálculo y paquetes de estadísticas, como QtiPlot , LibreOffice Calc , Microsoft Excel , SAS , SPSS , Stata , DAP , gretl , R , Python , PSPP , Wolfram Mathematica , MATLAB y Minitab , incluyen implementaciones de la prueba t de Student .

Véase también

Modelo de cambio condicional
Prueba F : prueba de hipótesis estadística, que utiliza principalmente múltiples restricciones
Distribución t no central en el análisis de potencia – Distribución de probabilidad
Estadística t de Student : proporción en estadística
Prueba Z – Prueba estadística
Prueba U de Mann-Whitney : prueba no paramétrica de la hipótesis nula
Corrección de Šidák para la prueba t – Método estadístico
Prueba t de Welch : prueba estadística para determinar si dos poblaciones tienen medias iguales
Análisis de varianza – Recopilación de modelos estadísticos (ANOVA)

Referencias

^ El microbioma en la salud y la enfermedad. Academic Press. 2020-05-29. p. 397. ISBN 978-0-12-820001-8.
^ Szabó, István (2003). "Systeme aus einer endlichen Anzahl protagonizada por Körper". Einführung in die Technische Mechanik (en alemán). Springer Berlín Heidelberg. págs. 196-199. doi :10.1007/978-3-642-61925-0_16 (inactivo el 1 de noviembre de 2024). ISBN 978-3-540-13293-6.{{cite book}}: CS1 maint: DOI inactive as of November 2024 (link)
^ Schlyvitch, B. (octubre de 1937). "Untersuchungen über den anastomotischen Kanal zwischen der Arteria coeliaca und mesenterica superior und damit in Zusammenhang stehende Fragen". Zeitschrift für Anatomie und Entwicklungsgeschichte (en alemán). 107 (6): 709–737. doi :10.1007/bf02118337. ISSN 0340-2061. S2CID 27311567.
^ Helmert (1876). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers director Beobachtungen gleicher Genauigkeit". Astronomische Nachrichten (en alemán). 88 (8–9): 113–131. Código bibliográfico : 1876AN.....88..113H. doi :10.1002/asna.18760880802.
^ Lüroth, J. (1876). "Vergleichung von zwei Werthen des wahrscheinlichen Fehlers". Astronomische Nachrichten (en alemán). 87 (14): 209–220. Código bibliográfico : 1876AN.....87..209L. doi :10.1002/asna.18760871402.
^ Pfanzagl, J. (1996). "Estudios en la historia de la probabilidad y la estadística XLIV. Un precursor de la distribución t ". Biometrika . 83 (4): 891–898. doi :10.1093/biomet/83.4.891. MR 1766040.
^ Sheynin, Oscar (1995). "El trabajo de Helmert en la teoría de los errores". Archivo de Historia de las Ciencias Exactas . 49 (1): 73–104. doi :10.1007/BF00374700. ISSN 0003-9519. S2CID 121241599.
^ Pearson, Karl (1895). «X. Contribuciones a la teoría matemática de la evolución.—II. Variación sesgada en material homogéneo». Philosophical Transactions of the Royal Society of London A . 186 : 343–414. Bibcode :1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 .
^ ab Student (1908). "El error probable de una media" (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545 . Consultado el 24 de julio de 2016 .
^ "Mesa T".
^ Wendl, Michael C. (2016). "Fama seudónima". Science . 351 (6280): 1406. doi :10.1126/science.351.6280.1406. PMID 27013722.
^ Walpole, Ronald E. (2006). Probabilidad y estadística para ingenieros y científicos . Myers, H. Raymond (7.ª ed.). Nueva Delhi: Pearson. ISBN 81-7758-404-9.OCLC 818811849 .
^ Raju, TN (2005). "William Sealy Gosset y William A. Silverman: dos 'estudiantes' de la ciencia". Pediatría . 116 (3): 732–735. doi :10.1542/peds.2005-1134. PMID 16140715. S2CID 32745754.
^ Dodge, Yadolah (2008). La enciclopedia concisa de estadísticas. Springer Science & Business Media. págs. 234-235. ISBN 978-0-387-31742-7.
^ Fadem, Barbara (2008). Ciencia del comportamiento de alto rendimiento . Serie de alto rendimiento. Hagerstown, MD: Lippincott Williams & Wilkins. ISBN 9781451130300.
^ Rice, John A. (2006). Estadística matemática y análisis de datos (3.ª ed.). Duxbury Advanced.^{[ Falta ISBN ]}
^ Weisstein, Eric. "Distribución t de Student". mathworld.wolfram.com .
^ David, H. A.; Gunnink, Jason L. (1997). "La prueba t pareada bajo emparejamiento artificial". The American Statistician . 51 (1): 9–12. doi :10.2307/2684684. JSTOR 2684684.
^ abcd Lumley, Thomas; Diehr, Paula ; Emerson, Scott; Chen, Lu (mayo de 2002). "La importancia del supuesto de normalidad en grandes conjuntos de datos de salud pública". Revisión anual de salud pública . 23 (1): 151–169. doi : 10.1146/annurev.publhealth.23.100901.140546 . ISSN 0163-7525. PMID 11910059.
^ Markowski, Carol A.; Markowski, Edward P. (1990). "Condiciones para la efectividad de una prueba preliminar de varianza". The American Statistician . 44 (4): 322–326. doi :10.2307/2684360. JSTOR 2684360.
^ Guo, Beibei; Yuan, Ying (2017). "Una revisión comparativa de métodos para comparar medias utilizando datos parcialmente pareados". Métodos estadísticos en investigación médica . 26 (3): 1323–1340. doi :10.1177/0962280215577111. PMID 25834090. S2CID 46598415.
^ Bland, Martin (1995). Introducción a las estadísticas médicas. Oxford University Press. pág. 168. ISBN 978-0-19-262428-4.
^ "Teorema del límite central y supuesto de normalidad > Normalidad > Distribuciones continuas > Distribución > Guía de referencia estadística | Documentación de Analyse-it® 6.15". analyse-it.com . Consultado el 17 de mayo de 2024 .
^ DEMİR, Süleyman (26 de junio de 2022). "Comparación de pruebas de normalidad en términos de tamaños de muestra bajo diferentes coeficientes de asimetría y curtosis". Revista internacional de herramientas de evaluación en educación . 9 (2): 397–409. doi :10.21449/ijate.1101295. ISSN 2148-7456.
^ Wang, Chang; Jia, Jinzhu (2022). "Prueba T: una nueva prueba T no asintótica para problemas de Behrens-Fisher". arXiv : 2210.16473 [math.ST].
^ ab Sawilowsky, Shlomo S.; Blair, R. Clifford (1992). "Una mirada más realista a la robustez y las propiedades de error tipo II de la prueba t ante desviaciones de la normalidad poblacional". Psychological Bulletin . 111 (2): 352–360. doi :10.1037/0033-2909.111.2.352.
^ Zimmerman, Donald W. (enero de 1998). "Invalidación de pruebas estadísticas paramétricas y no paramétricas por violación concurrente de dos supuestos". The Journal of Experimental Education . 67 (1): 55–68. doi :10.1080/00220979809598344. ISSN 0022-0973.
^ Blair, R. Clifford; Higgins, James J. (1980). "Una comparación del poder de la estadística de suma de rangos de Wilcoxon con la de la estadística t de Student bajo varias distribuciones no normales". Journal of Educational Statistics . 5 (4): 309–335. doi :10.2307/1164905. JSTOR 1164905.
^ Fay, Michael P.; Proschan, Michael A. (2010). "¿Wilcoxon–Mann–Whitney o prueba t? Sobre supuestos para pruebas de hipótesis e interpretaciones múltiples de reglas de decisión". Encuestas estadísticas . 4 : 1–39. doi :10.1214/09-SS051. PMC 2857732 . PMID 20414472.
^ Derrick, B; Toher, D; White, P (2017). "Cómo comparar las medias de dos muestras que incluyen observaciones pareadas y observaciones independientes: un complemento a Derrick, Russ, Toher y White (2017)" (PDF) . Los métodos cuantitativos para la psicología . 13 (2): 120–126. doi : 10.20982/tqmp.13.2.p120 .

Fuentes

O'Mahony, Michael (1986). Evaluación sensorial de los alimentos: métodos y procedimientos estadísticos . CRC Press . pág. 487. ISBN. 0-82477337-3.
Prensa, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (1992). Recetas numéricas en C: el arte de la computación científica. Cambridge University Press . p. 616. ISBN 0-521-43108-5.

Lectura adicional

Boneau, C. Alan (1960). "Los efectos de las violaciones de los supuestos subyacentes a la prueba t ". Psychological Bulletin . 57 (1): 49–64. doi :10.1037/h0041412. PMID 13802482.
Edgell, Stephen E.; Noon, Sheila M. (1984). "Efecto de la violación de la normalidad en la prueba t del coeficiente de correlación". Psychological Bulletin . 95 (3): 576–583. doi :10.1037/0033-2909.95.3.576.

Enlaces externos

Wikiversidad tiene recursos de aprendizaje sobre la prueba t

Wikisource tiene el texto original relacionado con este artículo:

El error probable de una media

"Prueba de estudiante". Enciclopedia de Matemáticas . EMS Press . 2001 [1994].
Trochim, William MK "La prueba T", Base de conocimientos sobre métodos de investigación , conjoint.ly
Conferencia sobre econometría (tema: pruebas de hipótesis) en YouTube por Mark Thoma

Prueba t de Student

Historia

Usos

Una muestraa-prueba

Dos muestrasa-pruebas

Muestras independientes (no pareadas)

Muestras pareadas

Supuestos

Cálculos

Pendiente de una recta de regresión

Dos muestras independientesa-prueba

Tamaños de muestra y varianza iguales

Tamaños de muestra iguales o desiguales, varianzas similares (⁠1/2⁠<⁠sX1​​/y 2​⁠< 2)

Tamaños de muestra iguales o desiguales, varianzas desiguales (sX1​> 2sX2​osX2​> 2sX1​)

Método exacto para varianzas y tamaños de muestra desiguales

Dependientea-prueba para muestras pareadas

Ejemplos resueltos

Varianzas desiguales

Varianzas iguales

Pruebas estadísticas relacionadas

Alternativas a laa-prueba de problemas de ubicación

Un diseño que incluye tanto observaciones pareadas como observaciones independientes

Pruebas multivariadas

Las dos muestrasa-test es un caso especial de regresión lineal simple

Implementaciones de software

Véase también

Referencias

Fuentes

Lectura adicional

Enlaces externos

Tamaños de muestra iguales o desiguales, varianzas similares (⁠1/2⁠<⁠sX1/y ₂⁠< 2)

Tamaños de muestra iguales o desiguales, varianzas desiguales (s_X1> 2s_X2os_X2> 2s_X1)