Prueba Z

Una prueba Z es cualquier prueba estadística para la cual la distribución del estadístico de prueba bajo la hipótesis nula puede ser aproximada por una distribución normal . La prueba Z prueba la media de una distribución. Para cada nivel de significancia en el intervalo de confianza , la prueba Z tiene un único valor crítico (por ejemplo, 1,96 para el 5% de dos colas) lo que la hace más conveniente que la prueba t de Student cuyos valores críticos están definidos por el tamaño de la muestra (a través de los grados de libertad correspondientes ). Tanto la prueba Z como la prueba t de Student tienen similitudes en el sentido de que ambas ayudan a determinar la significancia de un conjunto de datos. Sin embargo, la prueba z rara vez se utiliza en la práctica porque la desviación de la población es difícil de determinar.

Aplicabilidad

Debido al teorema del límite central , muchas pruebas estadísticas se distribuyen de manera aproximadamente normal para muestras grandes. Por lo tanto, muchas pruebas estadísticas se pueden realizar convenientemente como pruebas Z aproximadas si el tamaño de la muestra es grande o se conoce la varianza de la población. Si se desconoce la varianza de la población (y, por lo tanto, debe estimarse a partir de la muestra misma) y el tamaño de la muestra no es grande ( n < 30), la prueba t de Student puede ser más apropiada (en algunos casos, n < 50, como se describe a continuación).

Procedimiento

La forma de realizar una prueba Z cuando T es un estadístico que se distribuye aproximadamente de manera normal bajo la hipótesis nula es la siguiente:

En primer lugar, estime el valor esperado μ de T bajo la hipótesis nula y obtenga una estimación s de la desviación estándar de T.

En segundo lugar, determine las propiedades de T : de una cola o de dos colas.

Para la hipótesis nula H ₀ : μ≥μ ₀ frente a la hipótesis alternativa H ₁ : μ<μ ₀ , es de cola inferior/izquierda (unicola).

Para la hipótesis nula H ₀ : μ≤μ ₀ frente a la hipótesis alternativa H ₁ : μ>μ ₀ , es de cola superior/derecha (unicola).

Para la hipótesis nula H ₀ : μ=μ ₀ vs la hipótesis alternativa H ₁ : μ≠μ ₀ , es de dos colas.

En tercer lugar, calcule la puntuación estándar : cuyos valores p de una y dos colas se pueden calcular como Φ( Z ) (para pruebas de cola inferior/izquierda), Φ(− Z ) (para pruebas de cola superior/derecha) y 2Φ(−| Z |) (para pruebas de dos colas), donde Φ es la función de distribución acumulativa normal estándar . $Z={\frac {({\bar {X}}-\mu _ {0})}{s}},$

Uso en pruebas de ubicación

El término " prueba Z " se utiliza a menudo para referirse específicamente a la prueba de ubicación de una muestra que compara la media de un conjunto de mediciones con una constante dada cuando se conoce la varianza de la muestra. Por ejemplo, si los datos observados X ₁ , ..., X _n son (i) independientes, (ii) tienen una media común μ, y (iii) tienen una varianza común σ ² , entonces el promedio de la muestra X tiene media μ y varianza . ${\frac {\sigma ^{2}}{n}}$
La hipótesis nula es que el valor medio de X es un número dado μ ₀ . Podemos utilizar X como estadístico de prueba, rechazando la hipótesis nula si X − μ ₀ es grande.
Para calcular la estadística estandarizada , necesitamos conocer o tener un valor aproximado de σ ² , a partir del cual podemos calcular . En algunas aplicaciones, se conoce σ ^{2 , pero esto no es común.} $Z={\frac {({\bar {X}}-\mu _ {0})}{s}}$ $s^{2}={\frac {\sigma ^{2}}{n}}$
Si el tamaño de la muestra es moderado o grande, podemos sustituir la varianza de la muestra por σ ² , lo que nos dará una prueba complementaria . La prueba resultante no será una prueba Z exacta, ya que no se tiene en cuenta la incertidumbre en la varianza de la muestra; sin embargo, será una buena aproximación a menos que el tamaño de la muestra sea pequeño.
Se puede utilizar una prueba t para tener en cuenta la incertidumbre en la varianza de la muestra cuando los datos son exactamente normales .
Diferencia entre prueba Z y prueba t: La prueba Z se utiliza cuando el tamaño de la muestra es grande (n > 50) o se conoce la varianza de la población. La prueba t se utiliza cuando el tamaño de la muestra es pequeño (n < 50) y se desconoce la varianza de la población.
No existe una constante universal que permita considerar que el tamaño de la muestra es lo suficientemente grande como para justificar el uso de la prueba de complemento. Las reglas generales más habituales son las siguientes: el tamaño de la muestra debe ser de 50 observaciones o más.
Para tamaños de muestra grandes, el procedimiento de prueba t proporciona valores p casi idénticos a los del procedimiento de prueba Z.
Otras pruebas de ubicación que se pueden realizar como pruebas Z son la prueba de ubicación de dos muestras y la prueba de diferencias pareadas .

Condiciones

Para que la prueba Z sea aplicable, se deben cumplir ciertas condiciones.

Los parámetros de molestia deben conocerse o estimarse con alta precisión (un ejemplo de un parámetro de molestia sería la desviación estándar en una prueba de ubicación de una muestra). Las pruebas Z se centran en un solo parámetro y tratan todos los demás parámetros desconocidos como si estuvieran fijados en sus valores verdaderos. En la práctica, debido al teorema de Slutsky , se puede justificar la "introducción" de estimaciones consistentes de los parámetros de molestia. Sin embargo, si el tamaño de la muestra no es lo suficientemente grande como para que estas estimaciones sean razonablemente precisas, la prueba Z puede no funcionar bien.
El estadístico de prueba debe seguir una distribución normal . Generalmente, se apela al teorema del límite central para justificar el supuesto de que un estadístico de prueba varía normalmente. Existe una gran cantidad de investigación estadística sobre la cuestión de cuándo un estadístico de prueba varía aproximadamente de manera normal. Si la variación del estadístico de prueba es marcadamente no normal, no se debe utilizar una prueba Z.

Si se incluyen las estimaciones de los parámetros de molestia como se explicó anteriormente, es importante utilizar estimaciones adecuadas para la forma en que se muestrearon los datos . En el caso especial de las pruebas Z para el problema de ubicación de una o dos muestras, la desviación estándar de la muestra habitual solo es apropiada si los datos se recopilaron como una muestra independiente.

En algunas situaciones, es posible diseñar una prueba que tenga en cuenta adecuadamente la variación en las estimaciones de los parámetros molestos. En el caso de problemas de ubicación de una y dos muestras, una prueba t lo hace.

Ejemplo

Supongamos que en una región geográfica particular, la media y la desviación típica de las puntuaciones en una prueba de lectura son 100 y 12 puntos, respectivamente. Nos interesan las puntuaciones de 55 estudiantes de una escuela en particular que obtuvieron una puntuación media de 96. Podemos preguntarnos si esta puntuación media es significativamente inferior a la media regional, es decir, ¿son los estudiantes de esta escuela comparables a una muestra aleatoria simple de 55 estudiantes de la región en su conjunto, o sus puntuaciones son sorprendentemente bajas?

Primero calculamos el error estándar de la media:

\mathrm {SE} ={\frac {\sigma }{\sqrt {n}}}={\frac {12}{\sqrt {55}}}={\frac {12}{7.42}}=1.62

¿Dónde está la desviación estándar de la población? ${\estilo de visualización {\sigma}}$

A continuación, calcule la puntuación z , que es la distancia entre la media de la muestra y la media de la población en unidades del error estándar:

z={\frac {M-\mu} {\mathrm {SE}}}={\frac {96-100}{1.62}}=-2.47

En este ejemplo, consideramos que la media y la varianza de la población son conocidas, lo que sería adecuado si se evaluara a todos los estudiantes de la región. Cuando se desconocen los parámetros de la población, se debe realizar una prueba t de Student .

La puntuación media del aula es 96, que es -2,47 unidades de error estándar de la media de la población de 100. Al buscar la puntuación z en una tabla de la probabilidad acumulada de la distribución normal estándar , encontramos que la probabilidad de observar un valor normal estándar por debajo de -2,47 es aproximadamente 0,5 - 0,4932 = 0,0068. Este es el valor p unilateral para la hipótesis nula de que los 55 estudiantes son comparables a una muestra aleatoria simple de la población de todos los examinados. El valor p bilateral es aproximadamente 0,014 (el doble del valor p unilateral ).

Otra forma de decirlo es que, con una probabilidad de 1 − 0,014 = 0,986, una muestra aleatoria simple de 55 estudiantes tendría una puntuación media en el examen dentro de 4 unidades de la media de la población. También podríamos decir que, con un 98,6 % de confianza, rechazamos la hipótesis nula de que los 55 examinados son comparables a una muestra aleatoria simple de la población de examinados.

La prueba Z nos indica que los 55 estudiantes de interés tienen una puntuación media en la prueba inusualmente baja en comparación con la mayoría de las muestras aleatorias simples de tamaño similar de la población de examinados. Una deficiencia de este análisis es que no tiene en cuenta si el tamaño del efecto de 4 puntos es significativo. Si en lugar de un aula, consideráramos una subregión que contiene 900 estudiantes cuya puntuación media fue 99, se observaría casi la misma puntuación z y el mismo valor p . Esto demuestra que si el tamaño de la muestra es lo suficientemente grande, diferencias muy pequeñas con respecto al valor nulo pueden ser altamente significativas desde el punto de vista estadístico. Consulte la prueba de hipótesis estadística para obtener más información sobre este tema.

O-pruebas distintas a las de localización

Las pruebas de ubicación son las pruebas Z más conocidas . Otra clase de pruebas Z surge en la estimación de máxima verosimilitud de los parámetros en un modelo estadístico paramétrico . Las estimaciones de máxima verosimilitud son aproximadamente normales bajo ciertas condiciones, y su varianza asintótica se puede calcular en términos de la información de Fisher. La estimación de máxima verosimilitud dividida por su error estándar se puede utilizar como una estadística de prueba para la hipótesis nula de que el valor de la población del parámetro es igual a cero. De manera más general, si es la estimación de máxima verosimilitud de un parámetro θ, y θ ₀ es el valor de θ bajo la hipótesis nula, ${\hat {\theta}}$

{\frac {{\hat {\theta }}-\theta _{0}}{{\rm {SE}}({\hat {\theta }})}}

se puede utilizar como estadística de prueba Z.

Al utilizar una prueba Z para realizar estimaciones de máxima verosimilitud, es importante tener en cuenta que la aproximación normal puede ser deficiente si el tamaño de la muestra no es lo suficientemente grande. Aunque no existe una regla simple y universal que indique cuán grande debe ser el tamaño de la muestra para utilizar una prueba Z , la simulación puede dar una buena idea de si una prueba Z es adecuada en una situación determinada.

Las pruebas Z se emplean siempre que se pueda argumentar que una estadística de prueba sigue una distribución normal bajo la hipótesis nula de interés. Muchas estadísticas de prueba no paramétricas , como las estadísticas U , son aproximadamente normales para tamaños de muestra suficientemente grandes y, por lo tanto, a menudo se realizan como pruebas Z.

Véase también

Referencias

Sprinthall, RC (2011). Análisis estadístico básico (novena edición). Pearson Education. ISBN 978-0-205-05217-2.
Casella, G. , Berger, RL (2002). Inferencia estadística . Duxbury Press. ISBN 0-534-24312-6 .
Douglas C. Montgomery, George C. Runger.(2014). Estadística y probabilidad aplicadas para ingenieros . (6.ª ed.). John Wiley & Sons, Inc. ISBN 9781118539712 , 9781118645062 .