Una prueba exacta (de significancia) es una prueba estadística tal que si la hipótesis nula es verdadera, entonces se cumplen todas las suposiciones hechas durante la derivación de la distribución de la estadística de prueba . El uso de una prueba exacta proporciona una prueba de significancia que mantiene la tasa de error de tipo I de la prueba ( ) en el nivel de significancia deseado de la prueba. Por ejemplo, una prueba exacta a un nivel de significancia de , cuando se repite en muchas muestras donde la hipótesis nula es verdadera, rechazará en la mayoría de los casos. Esto contrasta con una prueba aproximada en la que la tasa de error de tipo I deseada solo se mantiene aproximadamente (es decir: la prueba puede rechazar > 5% del tiempo), mientras que esta aproximación puede hacerse tan cerca como se desee haciendo que el tamaño de la muestra sea lo suficientemente grande.
Las pruebas exactas que se basan en estadísticas de prueba discretas pueden ser conservadoras, lo que indica que la tasa de rechazo real se encuentra por debajo del nivel de significación nominal . Como ejemplo, este es el caso de la prueba exacta de Fisher y su alternativa más poderosa, la prueba de Boschloo . Si la estadística de prueba es continua, alcanzará exactamente el nivel de significación. [ cita requerida ]
Las pruebas paramétricas , como las que se utilizan en estadística exacta , son pruebas exactas cuando los supuestos paramétricos se cumplen por completo, pero en la práctica, el uso del término prueba exacta (de significancia) se reserva para pruebas no paramétricas, es decir, pruebas que no se basan en supuestos paramétricos [ cita requerida ] . Sin embargo, en la práctica, la mayoría de las implementaciones de software de prueba no paramétrica utilizan algoritmos asintóticos para obtener el valor de significancia, lo que hace que la prueba no sea exacta.
Por lo tanto, cuando un resultado de un análisis estadístico se denomina “prueba exacta” o especifica un “ valor p exacto ”, esto implica que la prueba se define sin supuestos paramétricos y se evalúa sin hacer uso de algoritmos aproximados. En principio, sin embargo, esto también podría significar que se ha empleado una prueba paramétrica en una situación en la que se cumplen plenamente todos los supuestos paramétricos, pero en la mayoría de los casos es imposible demostrarlo por completo en una situación del mundo real. Las excepciones en las que es seguro que las pruebas paramétricas son exactas incluyen las pruebas basadas en las distribuciones binomial o de Poisson. El término prueba de permutación a veces se utiliza como sinónimo de prueba exacta, pero debe tenerse en cuenta que todas las pruebas de permutación son pruebas exactas, pero no todas las pruebas exactas son pruebas de permutación.
La ecuación básica que subyace a las pruebas exactas es
dónde:
y donde la suma abarca todos los resultados y (incluido el observado) que tienen el mismo valor del estadístico de prueba obtenido para la muestra observada x , o uno mayor.
Un ejemplo sencillo de este concepto es la observación de que la prueba de chi-cuadrado de Pearson es una prueba aproximada. Supongamos que se utiliza la prueba de chi-cuadrado de Pearson para determinar si un dado de seis caras es "justo", lo que indica que arroja cada uno de los seis resultados posibles con la misma frecuencia. Si el dado se lanza n veces, entonces uno "espera" ver cada resultado n /6 veces. La estadística de prueba es
donde X k es el número de veces que se observa el resultado k . Si la hipótesis nula de "imparcialidad" es verdadera, entonces la distribución de probabilidad del estadístico de prueba puede hacerse tan cercana como se desee a la distribución de chi-cuadrado con 5 grados de libertad haciendo que el tamaño de la muestra n sea lo suficientemente grande. Por otro lado, si n es pequeño, entonces las probabilidades basadas en distribuciones de chi-cuadrado pueden no ser aproximaciones lo suficientemente cercanas. Encontrar la probabilidad exacta de que este estadístico de prueba exceda un cierto valor requeriría entonces una enumeración combinatoria de todos los resultados del experimento que da lugar a un valor tan grande del estadístico de prueba. Es entonces cuestionable si se debe utilizar el mismo estadístico de prueba. Podría preferirse una prueba de razón de verosimilitud , y el estadístico de prueba podría no ser una función monótona del anterior.
La prueba exacta de Fisher , basada en el trabajo de Ronald Fisher y EJG Pitman en la década de 1930, es exacta porque la distribución de muestreo (condicionada a los marginales) se conoce con exactitud. Esto debe compararse con la prueba de chi-cuadrado de Pearson , que (aunque prueba la misma hipótesis nula) no es exacta porque la distribución de la estadística de prueba es solo asintóticamente correcta.