Estadística de prueba

La estadística de prueba es una cantidad derivada de la muestra para la prueba de hipótesis estadísticas . ^[1] Una prueba de hipótesis generalmente se especifica en términos de una estadística de prueba, considerada como un resumen numérico de un conjunto de datos que reduce los datos a un valor que puede usarse para realizar la prueba de hipótesis. En general, una estadística de prueba se selecciona o define de tal manera que cuantifique, dentro de los datos observados, comportamientos que distinguirían la hipótesis nula de la alternativa , cuando dicha alternativa esté prescrita, o que caracterizarían la hipótesis nula si la hubiera. ninguna hipótesis alternativa explícitamente establecida.

Una propiedad importante de una estadística de prueba es que su distribución muestral bajo la hipótesis nula debe ser calculable, ya sea exacta o aproximadamente, lo que permite calcular los valores p . Una estadística de prueba comparte algunas de las mismas cualidades de una estadística descriptiva , y muchas estadísticas se pueden utilizar como estadísticas de prueba y estadísticas descriptivas. Sin embargo, una estadística de prueba está diseñada específicamente para su uso en pruebas estadísticas, mientras que la principal cualidad de una estadística descriptiva es que es fácilmente interpretable. Algunas estadísticas descriptivas informativas, como el rango muestral , no son buenas estadísticas de prueba ya que es difícil determinar su distribución muestral.

Dos estadísticas de prueba ampliamente utilizadas son la estadística t y la prueba F.

Ejemplo

Supongamos que la tarea es comprobar si una moneda es justa (es decir, tiene iguales probabilidades de producir cara o cruz). Si se lanza la moneda 100 veces y se registran los resultados, los datos sin procesar se pueden representar como una secuencia de 100 caras y cruces. Si hay interés en la probabilidad marginal de obtener una cola, sólo es necesario registrar el número T de los 100 lanzamientos que produjeron una cola. Pero T también se puede utilizar como estadístico de prueba de dos maneras:

la distribución muestral exacta de T bajo la hipótesis nula es la distribución binomial con parámetros 0,5 y 100.
el valor de T se puede comparar con su valor esperado bajo la hipótesis nula de 50, y dado que el tamaño de la muestra es grande, se puede utilizar una distribución normal como aproximación a la distribución muestral ya sea para T o para el estadístico de prueba revisado T − 50.

Utilizando una de estas distribuciones muestrales, es posible calcular un valor p de una o dos colas para la hipótesis nula de que la moneda es justa. En este caso, la estadística de prueba reduce un conjunto de 100 números a un único resumen numérico que puede usarse para realizar pruebas.

Estadísticas de pruebas comunes

Las pruebas de una muestra son apropiadas cuando se compara una muestra con la población de una hipótesis. Las características de la población se conocen por la teoría o se calculan a partir de la población.

Las pruebas de dos muestras son apropiadas para comparar dos muestras, generalmente muestras experimentales y de control de un experimento científicamente controlado.

Las pruebas pareadas son apropiadas para comparar dos muestras donde es imposible controlar variables importantes. En lugar de comparar dos conjuntos, los miembros se emparejan entre muestras, de modo que la diferencia entre los miembros se convierte en la muestra. Normalmente, la media de las diferencias se compara con cero. El escenario de ejemplo común en el que una prueba de diferencias pareadas es apropiada es cuando a un único conjunto de sujetos de prueba se les aplica algo y la prueba tiene como objetivo verificar un efecto.

Las pruebas Z son apropiadas para comparar medias en condiciones estrictas de normalidad y desviación estándar conocida.

Una prueba t es apropiada para comparar medias en condiciones relajadas (se supone menos).

Las pruebas de proporciones son análogas a las pruebas de medias (la proporción del 50%).

Las pruebas de chi-cuadrado utilizan los mismos cálculos y la misma distribución de probabilidad para diferentes aplicaciones:

Las pruebas de varianza de chi-cuadrado se utilizan para determinar si una población normal tiene una varianza específica. La hipótesis nula es que sí.
Las pruebas de independencia de chi-cuadrado se utilizan para decidir si dos variables están asociadas o son independientes. Las variables son categóricas en lugar de numéricas. Se puede utilizar para decidir si la zurda se correlaciona con la altura (o no). La hipótesis nula es que las variables son independientes. Los números utilizados en el cálculo son las frecuencias de ocurrencia observadas y esperadas (de tablas de contingencia ).
Las pruebas de bondad de ajuste de chi-cuadrado se utilizan para determinar la adecuación del ajuste de las curvas a los datos. La hipótesis nula es que el ajuste de la curva es adecuado. Es común determinar las formas de las curvas para minimizar el error cuadrático medio, por lo que es apropiado que el cálculo de bondad de ajuste sume los errores cuadráticos.

Las pruebas F (análisis de varianza, ANOVA) se utilizan comúnmente para decidir si las agrupaciones de datos por categoría son significativas. Si la varianza de las puntuaciones de los exámenes de los zurdos de una clase es mucho menor que la varianza de toda la clase, entonces puede resultar útil estudiar a los zurdos como grupo. La hipótesis nula es que dos varianzas son iguales, por lo que la agrupación propuesta no es significativa.

En la siguiente tabla, los símbolos utilizados se definen en la parte inferior de la tabla. Se pueden encontrar muchas otras pruebas en otros artículos . Existen pruebas de que las estadísticas de las pruebas son apropiadas. ^[2]

Ver también

Referencias

^ Berger, RL; Casella, G. (2001). Inferencia estadística , Duxbury Press, segunda edición (p.374)
^ Loveland, Jennifer L. (2011). Justificación matemática de pruebas introductorias de hipótesis y desarrollo de materiales de referencia (Maestría (Matemáticas)). Universidad Estatal de Utah . Consultado el 30 de abril de 2013 .Resumen: "La atención se centró en el enfoque de Neyman-Pearson para la prueba de hipótesis. Un breve desarrollo histórico del enfoque de Neyman-Pearson va seguido de pruebas matemáticas de cada una de las pruebas de hipótesis cubiertas en el material de referencia". Las pruebas no hacen referencia a los conceptos introducidos por Neyman y Pearson, sino que muestran que las estadísticas de prueba tradicionales tienen las distribuciones de probabilidad asignadas, de modo que los cálculos de significancia que suponen esas distribuciones son correctos. La información de la tesis también se publica en mathnstats.com en abril de 2013.
^ ab Manual del NIST: prueba t de dos muestras para medias iguales
^ Steel, RGD y Torrie, JH, Principios y procedimientos de la estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 350.
^ Weiss, Neil A. (1999). Estadística introductoria (5ª ed.). págs.802. ISBN 0-201-59877-9.
^ Manual del NIST: Prueba F para la igualdad de dos desviaciones estándar (prueba de desviaciones estándar de la misma manera que prueba de varianzas)
^ Steel, RGD y Torrie, JH, Principios y procedimientos de la estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 288.)