Una prueba de hipótesis estadística es un método de inferencia estadística que se utiliza para decidir si los datos respaldan suficientemente una hipótesis particular. Una prueba de hipótesis estadística normalmente implica el cálculo de una estadística de prueba . Luego se toma una decisión, ya sea comparando el estadístico de prueba con un valor crítico o, de manera equivalente, evaluando un valor p calculado a partir del estadístico de prueba. Se han definido aproximadamente 100 pruebas estadísticas especializadas . [1] [2]
Si bien las pruebas de hipótesis se popularizaron a principios del siglo XX, las primeras formas se utilizaron en el siglo XVIII. El primer uso se atribuye a John Arbuthnot (1710), [3] seguido de Pierre-Simon Laplace (década de 1770), al analizar la proporción de sexos humanos al nacer; ver § Proporción de sexos humanos.
Paul Meehl ha sostenido que la importancia epistemológica de la elección de la hipótesis nula ha pasado en gran medida desapercibida. Cuando la teoría predice la hipótesis nula, un experimento más preciso será una prueba más severa de la teoría subyacente. Cuando la hipótesis nula por defecto es "sin diferencia" o "sin efecto", un experimento más preciso es una prueba menos severa de la teoría que motivó la realización del experimento. [4] Por tanto, puede resultar útil un examen de los orígenes de esta última práctica:
1778: Pierre Laplace compara las tasas de natalidad de niños y niñas en varias ciudades europeas. Afirma: "es natural concluir que estas posibilidades están casi en la misma proporción". Por lo tanto, la hipótesis nula en este caso de que las tasas de natalidad de niños y niñas deberían ser iguales dada la "sabiduría convencional". [5]
1900: Karl Pearson desarrolla la prueba de chi cuadrado para determinar "si una forma determinada de curva de frecuencia describirá eficazmente las muestras extraídas de una población determinada". Por tanto, la hipótesis nula es que una población se describe mediante alguna distribución predicha por la teoría. Utiliza como ejemplo los números cinco y seis en los datos de lanzamiento de dados de Weldon . [6]
1904: Karl Pearson desarrolla el concepto de " contingencia " para determinar si los resultados son independientes de un factor categórico determinado. En este caso, la hipótesis nula es, por defecto, que dos cosas no están relacionadas (por ejemplo, la formación de cicatrices y las tasas de mortalidad por viruela). [7] La hipótesis nula en este caso ya no es predicha por la teoría o la sabiduría convencional, sino que es el principio de indiferencia que llevó a Fisher y otros a descartar el uso de "probabilidades inversas". [8]
Las pruebas de significancia modernas son en gran medida producto de Karl Pearson ( valor p , prueba de chi-cuadrado de Pearson ), William Sealy Gosset ( distribución t de Student ) y Ronald Fisher (" hipótesis nula ", análisis de varianza , " prueba de significancia ") , mientras que la prueba de hipótesis fue desarrollada por Jerzy Neyman y Egon Pearson (hijo de Karl). Ronald Fisher comenzó su vida en la estadística como bayesiano (Zabell 1992), pero pronto se desencantó de la subjetividad involucrada (es decir, el uso del principio de indiferencia al determinar probabilidades previas) y buscó proporcionar un enfoque más "objetivo" a la estadística inductiva. inferencia. [9]
Fisher enfatizó el diseño y los métodos experimentales rigurosos para extraer un resultado de unas pocas muestras asumiendo distribuciones gaussianas . Neyman (que se asoció con el joven Pearson) enfatizó el rigor matemático y los métodos para obtener más resultados de muchas muestras y una gama más amplia de distribuciones. La prueba de hipótesis moderna es un híbrido inconsistente de la formulación, los métodos y la terminología de Fisher vs Neyman/Pearson desarrollados a principios del siglo XX.
Fisher popularizó la "prueba de significancia". Requirió una hipótesis nula (correspondiente a una distribución de frecuencia poblacional) y una muestra. Sus (ahora familiares) cálculos determinaron si rechazar o no la hipótesis nula. Las pruebas de significancia no utilizaron una hipótesis alternativa, por lo que no existía el concepto de error de tipo II (falso negativo).
El valor p se ideó como un índice informal, pero objetivo, destinado a ayudar a un investigador a determinar (basándose en otros conocimientos) si modificar experimentos futuros o fortalecer la fe en la hipótesis nula. [10] Neyman y Pearson idearon la prueba de hipótesis (y los errores de tipo I/II) como una alternativa más objetiva al valor p de Fisher , que también pretendía determinar el comportamiento del investigador, pero sin requerir ninguna inferencia inductiva por parte del investigador. [11] [12]
Neyman y Pearson consideraron un problema diferente al de Fisher (al que llamaron "prueba de hipótesis"). Inicialmente consideraron dos hipótesis simples (ambas con distribuciones de frecuencia). Calcularon dos probabilidades y normalmente seleccionaron la hipótesis asociada con la probabilidad más alta (la hipótesis que tenía más probabilidades de haber generado la muestra). Su método siempre seleccionaba una hipótesis. También permitió el cálculo de ambos tipos de probabilidades de error.
Fisher y Neyman/Pearson se enfrentaron amargamente. Neyman/Pearson consideraron que su formulación era una generalización mejorada de las pruebas de significancia (el artículo definitorio [11] era abstracto ; los matemáticos han generalizado y refinado la teoría durante décadas [13] ). Fisher pensó que no era aplicable a la investigación científica porque muchas veces, durante el transcurso del experimento, se descubre que las suposiciones iniciales sobre la hipótesis nula son cuestionables debido a fuentes inesperadas de error. Creía que el uso de decisiones rígidas de rechazo/aceptación basadas en modelos formulados antes de recopilar datos era incompatible con este escenario común al que se enfrentaban los científicos y los intentos de aplicar este método a la investigación científica llevarían a una confusión masiva. [14]
La disputa entre Fisher y Neyman-Pearson se libró por motivos filosóficos, caracterizados por un filósofo como una disputa sobre el papel adecuado de los modelos en la inferencia estadística. [15]
Los acontecimientos intervinieron: Neyman aceptó un puesto en la Universidad de California, Berkeley en 1938, rompiendo su asociación con Pearson y separando a los litigantes (que habían ocupado el mismo edificio). La Segunda Guerra Mundial proporcionó un intermedio en el debate. La disputa entre Fisher y Neyman terminó (sin resolver después de 27 años) con la muerte de Fisher en 1962. Neyman escribió un panegírico bien considerado. [16] Algunas de las publicaciones posteriores de Neyman informaron valores p y niveles de significancia. [17]
La versión moderna de la prueba de hipótesis es un híbrido de los dos enfoques que resultó de la confusión entre los escritores de libros de texto de estadística (como lo predijo Fisher) a partir de la década de 1940 [18] (pero la detección de señales , por ejemplo, todavía usa la formulación de Neyman/Pearson). ). Se ignoraron grandes diferencias conceptuales y muchas advertencias además de las mencionadas anteriormente. Neyman y Pearson proporcionaron la terminología más sólida, las matemáticas más rigurosas y la filosofía más consistente, pero la materia que se enseña hoy en la introducción a la estadística tiene más similitudes con el método de Fisher que con el de ellos. [19]
En algún momento alrededor de 1940, [18] los autores de libros de texto de estadística comenzaron a combinar los dos enfoques utilizando el valor p en lugar de la estadística (o datos) de prueba para comparar con el "nivel de significancia" de Neyman-Pearson.
La prueba de hipótesis y la filosofía se cruzan. La estadística inferencial , que incluye la prueba de hipótesis, es probabilidad aplicada. Tanto la probabilidad como su aplicación están entrelazadas con la filosofía. El filósofo David Hume escribió: "Todo conocimiento degenera en probabilidad". Las definiciones prácticas opuestas de probabilidad reflejan diferencias filosóficas. La aplicación más común de la prueba de hipótesis es la interpretación científica de datos experimentales, que naturalmente es estudiada por la filosofía de la ciencia .
Fisher y Neyman se opusieron a la subjetividad de la probabilidad. Sus opiniones contribuyeron a las definiciones objetivas. El núcleo de su desacuerdo histórico era filosófico.
Muchas de las críticas filosóficas a las pruebas de hipótesis son discutidas por estadísticos en otros contextos, en particular la correlación no implica causalidad y el diseño de experimentos . La prueba de hipótesis sigue siendo de interés para los filósofos. [15] [20]
La estadística se enseña cada vez más en las escuelas y la prueba de hipótesis es uno de los elementos que se enseñan. [21] [22] Muchas conclusiones publicadas en la prensa popular (desde encuestas de opinión política hasta estudios médicos) se basan en estadísticas. Algunos escritores han afirmado que el análisis estadístico de este tipo permite pensar con claridad sobre los problemas que involucran datos masivos, así como el informe efectivo de tendencias e inferencias a partir de dichos datos, pero advierten que los escritores para un público amplio deben tener una comprensión sólida del campo. para utilizar correctamente los términos y conceptos. [23] [24] Una clase universitaria de introducción a la estadística pone mucho énfasis en la prueba de hipótesis, tal vez la mitad del curso. Campos como la literatura y la divinidad ahora incluyen hallazgos basados en análisis estadísticos (ver Bible Analyser ). Una clase de introducción a la estadística enseña la prueba de hipótesis como un proceso de libro de cocina. La prueba de hipótesis también se enseña a nivel de posgrado. Los estadísticos aprenden a crear buenos procedimientos de prueba estadística (como z , t de Student , F y chi-cuadrado). La prueba de hipótesis estadísticas se considera un área madura dentro de la estadística, [25] pero continúa con un desarrollo limitado.
Un estudio académico afirma que el método del libro de recetas para enseñar estadística introductoria no deja tiempo para la historia, la filosofía o la controversia. La prueba de hipótesis se ha enseñado como método unificado recibido. Las encuestas mostraron que los graduados de la promoción estaban llenos de conceptos filosóficos erróneos (sobre todos los aspectos de la inferencia estadística) que persistían entre los profesores. [26] Si bien el problema se abordó hace más de una década, [27] y continúan los llamados a una reforma educativa, [28] los estudiantes todavía se gradúan de clases de estadística con conceptos erróneos fundamentales sobre la prueba de hipótesis. [29] Las ideas para mejorar la enseñanza de las pruebas de hipótesis incluyen alentar a los estudiantes a buscar errores estadísticos en artículos publicados, enseñar la historia de la estadística y enfatizar la controversia en un tema generalmente árido. [30]
Los pasos típicos involucrados en la realización de una prueba de hipótesis frecuentista en la práctica son:
La diferencia en los dos procesos aplicados al ejemplo de la maleta radiactiva (a continuación):
El primer informe es adecuado, el segundo explica más detalladamente los datos y el motivo por el que se revisa la maleta.
No rechazar la hipótesis nula no significa que la hipótesis nula sea "aceptada" per se (aunque Neyman y Pearson usaron esa palabra en sus escritos originales; consulte la sección Interpretación).
Los procesos aquí descritos son perfectamente adecuados para el cálculo. Descuiden seriamente las consideraciones sobre el diseño de experimentos . [32] [33]
Es particularmente crítico que se estimen los tamaños de muestra apropiados antes de realizar el experimento.
La frase "prueba de significancia" fue acuñada por el estadístico Ronald Fisher . [34]
Cuando la hipótesis nula es verdadera y se cumplen los supuestos estadísticos, la probabilidad de que el valor p sea menor o igual al nivel de significancia es como máximo . Esto garantiza que la prueba de hipótesis mantenga su tasa de falsos positivos especificada (siempre que se cumplan los supuestos estadísticos). [35]
El valor p es la probabilidad de que un estadístico de prueba que sea al menos tan extremo como el obtenido ocurra bajo la hipótesis nula. Con un nivel de significancia de 0,05, se esperaría que una moneda justa rechazara (incorrectamente) la hipótesis nula (que es justa) en 1 de cada 20 pruebas en promedio. El valor p no proporciona la probabilidad de que la hipótesis nula o su opuesta sea correcta (una fuente común de confusión). [36]
Si el valor p es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está en la región crítica), entonces decimos que la hipótesis nula se rechaza en el nivel de significancia elegido. Si el valor p no es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está fuera de la región crítica), entonces la hipótesis nula no se rechaza en el nivel de significancia elegido.
En el ejemplo de la "señora probando té" (a continuación), Fisher pidió a la señora que clasificara adecuadamente todas las tazas de té para justificar la conclusión de que era poco probable que el resultado fuera fruto del azar. Su prueba reveló que si la dama efectivamente estaba adivinando al azar (la hipótesis nula), había un 1,4% de posibilidades de que ocurrieran los resultados observados (té perfectamente ordenado).
Las estadísticas son útiles para analizar la mayoría de las colecciones de datos. Esto es igualmente cierto en el caso de las pruebas de hipótesis, que pueden justificar conclusiones incluso cuando no existe una teoría científica. En el ejemplo de la Dama probando té, era "obvio" que no existía ninguna diferencia entre (leche vertida en té) y (té vertido en leche). Los datos contradecían lo "obvio".
Las aplicaciones del mundo real de las pruebas de hipótesis incluyen: [37]
La prueba de hipótesis estadísticas juega un papel importante en el conjunto de la estadística y en la inferencia estadística . Por ejemplo, Lehmann (1992) en una revisión del artículo fundamental de Neyman y Pearson (1933) dice: "Sin embargo, a pesar de sus deficiencias, el nuevo paradigma formulado en el artículo de 1933 y los muchos desarrollos llevados a cabo dentro de su marco continúan vigentes". desempeñan un papel central tanto en la teoría como en la práctica de la estadística y se puede esperar que lo hagan en el futuro previsible".
Las pruebas de significancia han sido la herramienta estadística favorita en algunas ciencias sociales experimentales (más del 90% de los artículos del Journal of Applied Psychology a principios de los años noventa). [38] Otros campos han favorecido la estimación de parámetros (por ejemplo, tamaño del efecto ). Las pruebas de significancia se utilizan como sustituto de la comparación tradicional del valor predicho y el resultado experimental en el centro del método científico . Cuando la teoría sólo es capaz de predecir el signo de una relación, se puede configurar una prueba de hipótesis direccional (unilateral) de modo que sólo un resultado estadísticamente significativo respalde la teoría. Esta forma de evaluación teórica es la aplicación más criticada de la prueba de hipótesis.
"Si el gobierno exigiera que los procedimientos estadísticos llevaran etiquetas de advertencia como las de las drogas, la mayoría de los métodos de inferencia tendrían etiquetas realmente largas". [39] Esta precaución se aplica a las pruebas de hipótesis y sus alternativas.
La prueba de hipótesis exitosa está asociada con una probabilidad y una tasa de error tipo I. La conclusión podría ser errónea.
La conclusión de la prueba es tan sólida como la muestra en la que se basa. El diseño del experimento es fundamental. Se han observado una serie de efectos inesperados que incluyen:
Un análisis estadístico de datos engañosos produce conclusiones engañosas. La cuestión de la calidad de los datos puede ser más sutil. En la elaboración de pronósticos, por ejemplo, no hay acuerdo sobre una medida de precisión del pronóstico. En ausencia de una medición consensuada, ninguna decisión basada en mediciones estará exenta de controversia.
Sesgo de publicación: Es posible que sea menos probable que se publiquen resultados estadísticamente no significativos, lo que puede sesgar la literatura.
Pruebas múltiples: cuando se realizan múltiples pruebas de hipótesis nulas verdaderas a la vez sin ajuste, la probabilidad general de error Tipo I es mayor que el nivel alfa nominal. [40]
Quienes toman decisiones críticas basándose en los resultados de una prueba de hipótesis son prudentes al observar los detalles en lugar de la conclusión únicamente. En las ciencias físicas, la mayoría de los resultados sólo se aceptan plenamente cuando se confirman de forma independiente. El consejo general en materia de estadística es: "Las cifras nunca mienten, pero los mentirosos calculan" (anónimo).
Las siguientes definiciones se basan principalmente en la exposición del libro de Lehmann y Romano: [35]
Una prueba de hipótesis estadística compara una estadística de prueba ( zot por ejemplo ) con un umbral. El estadístico de prueba (la fórmula que se encuentra en la siguiente tabla) se basa en la optimización. Para un nivel fijo de tasa de error de Tipo I, el uso de estas estadísticas minimiza las tasas de error de Tipo II (equivalente a maximizar la potencia). Los siguientes términos describen las pruebas en términos de dicha optimización:
Los métodos de remuestreo basados en Bootstrap se pueden utilizar para probar la hipótesis nula. Un bootstrap crea numerosas muestras simuladas remuestreando aleatoriamente (con reemplazo) los datos de muestra originales combinados, asumiendo que la hipótesis nula es correcta. El bootstrap es muy versátil ya que no tiene distribución y no se basa en supuestos paramétricos restrictivos, sino en métodos empíricos aproximados con garantías asintóticas. Las pruebas de hipótesis paramétricas tradicionales son más eficientes desde el punto de vista computacional, pero parten de suposiciones estructurales más sólidas. En situaciones en las que calcular la probabilidad de la estadística de prueba bajo la hipótesis nula es difícil o imposible (quizás debido a inconvenientes o falta de conocimiento de la distribución subyacente), el bootstrap ofrece un método viable para la inferencia estadística. [42] [43] [44] [45]
El primer uso de pruebas de hipótesis estadísticas generalmente se atribuye a la cuestión de si los nacimientos masculinos y femeninos son igualmente probables (hipótesis nula), que fue abordada en el siglo XVIII por John Arbuthnot (1710), [46] y más tarde por Pierre-Simon Laplace. (década de 1770). [47]
Arbuthnot examinó los registros de nacimiento en Londres para cada uno de los 82 años comprendidos entre 1629 y 1710, y aplicó la prueba de signos , una prueba simple no paramétrica . [48] [49] [50] Cada año, el número de hombres nacidos en Londres superó el número de mujeres. Considerando que más nacimientos de hombres o más nacimientos de mujeres son igualmente probables, la probabilidad del resultado observado es 0,5 82 , o alrededor de 1 entre 4.836.000.000.000.000.000.000.000; en términos modernos, este es el valor p . Arbuthnot concluyó que esto es demasiado pequeño para deberse al azar y, en cambio, debe deberse a la divina providencia: "De donde se sigue que es el arte, no el azar, el que gobierna". En términos modernos, rechazó la hipótesis nula de que los nacimientos masculinos y femeninos son igualmente probables en el nivel de significancia p = 1/2 82 .
Laplace consideró las estadísticas de casi medio millón de nacimientos. Las estadísticas muestran un exceso de niños respecto de niñas. [5] [51] Mediante el cálculo de un valor p , concluyó que el exceso era un efecto real, pero inexplicable. [52]
En un famoso ejemplo de prueba de hipótesis, conocido como la Dama probando el té , [53] la Dra. Muriel Bristol , colega de Fisher, afirmó ser capaz de decir si el té o la leche se añadían primero a una taza. Fisher propuso darle ocho tazas, cuatro de cada variedad, en orden aleatorio. Entonces se podría preguntar cuál era la probabilidad de que obtuviera el número correcto, pero sólo por casualidad. La hipótesis nula era que la Dama no tenía tal habilidad. La estadística de la prueba fue un simple recuento del número de éxitos en la selección de las 4 tazas. La región crítica fue el caso único de 4 éxitos de 4 posibles según un criterio de probabilidad convencional (< 5%). Un patrón de 4 aciertos corresponde a 1 de 70 combinaciones posibles (p≈ 1,4%). Fisher afirmó que (nunca) se requirió ninguna hipótesis alternativa. La señora identificó correctamente cada taza, [54] lo que se consideraría un resultado estadísticamente significativo.
Un procedimiento de prueba estadística es comparable a un proceso penal ; un acusado se considera inocente mientras no se pruebe su culpabilidad. El fiscal intenta probar la culpabilidad del acusado. Sólo cuando hay pruebas suficientes para la acusación se condena al acusado.
Al inicio del procedimiento se plantean dos hipótesis : "el acusado no es culpable" y "el acusado es culpable". La primera, se llama hipótesis nula . La segunda, se llama hipótesis alternativa . Es la hipótesis alternativa la que se espera apoyar.
La hipótesis de la inocencia se rechaza sólo cuando un error es muy improbable, porque no se quiere condenar a un acusado inocente. Tal error se llama error del primer tipo (es decir, la condena de una persona inocente), y se controla que su ocurrencia sea rara. Como consecuencia de este comportamiento asimétrico, es más común un error del segundo tipo (absolución de la persona que cometió el delito).
Un juicio penal puede considerarse como uno o ambos de dos procesos de decisión: culpable versus no culpable o evidencia versus un umbral ("más allá de toda duda razonable"). Según una opinión, el acusado es juzgado; en el otro, se juzga la actuación de la acusación (que soporta la carga de la prueba). Una prueba de hipótesis puede considerarse como un juicio de una hipótesis o como un juicio de evidencia.
El siguiente ejemplo fue elaborado por un filósofo que describió métodos científicos generaciones antes de que se formalizara y popularizara la prueba de hipótesis. [55]
Pocos frijoles de este puñado son blancos.
La mayoría de los frijoles de esta bolsa son blancos.
Por lo tanto: Probablemente estos frijoles fueron sacados de otra bolsa.
Ésta es una inferencia hipotética.
Los frijoles en la bolsa son la población. Los pocos son la muestra. La hipótesis nula es que la muestra se originó a partir de la población. El criterio para rechazar la hipótesis nula es la diferencia "obvia" en apariencia (una diferencia informal en la media). El resultado interesante es que la consideración de una población real y una muestra real produjo una bolsa imaginaria. El filósofo estaba considerando la lógica más que la probabilidad. Para ser una prueba de hipótesis estadística real, este ejemplo requiere las formalidades de un cálculo de probabilidad y una comparación de esa probabilidad con un estándar.
Una generalización simple del ejemplo considera una bolsa mixta de frijoles y un puñado que contiene muy pocos o muchos frijoles blancos. La generalización considera ambos extremos. Se requieren más cálculos y más comparaciones para llegar a una respuesta formal, pero la filosofía central no ha cambiado; Si la composición del puñado es muy diferente de la de la bolsa, entonces la muestra probablemente procedía de otra bolsa. El ejemplo original se denomina prueba unilateral o de una cola, mientras que la generalización se denomina prueba bilateral o de dos colas.
La afirmación también se basa en la inferencia de que el muestreo fue aleatorio. Si alguien hubiera estado rebuscando en la bolsa para encontrar frijoles blancos, entonces eso explicaría por qué el puñado tenía tantos frijoles blancos, y también explicaría por qué se agotó el número de frijoles blancos en la bolsa (aunque probablemente se suponga que la bolsa mucho más grande que la mano).
A una persona (el sujeto) se le realiza una prueba de clarividencia . Se les muestra el reverso de una carta elegida al azar 25 veces y se les pregunta a cuál de los cuatro palos pertenece. El número de aciertos, o respuestas correctas, se llama X.
Mientras intentamos encontrar pruebas de su clarividencia, por el momento la hipótesis nula es que la persona no es clarividente. [56] La alternativa es: la persona es (más o menos) clarividente.
Si la hipótesis nula es válida, lo único que la persona que realiza la prueba puede hacer es adivinar. Para cada carta, la probabilidad (frecuencia relativa) de que aparezca un solo palo es 1/4. Si la alternativa es válida, el sujeto de prueba predecirá el palo correctamente con una probabilidad mayor que 1/4. A la probabilidad de acertar la llamaremos p . Las hipótesis entonces son:
y
Cuando el sujeto de prueba predice correctamente las 25 cartas, lo consideraremos clarividente y rechazaremos la hipótesis nula. Así también con 24 o 23 aciertos. Con sólo 5 o 6 aciertos, en cambio, no hay motivo para considerarlos así. Pero ¿qué pasa con 12 o 17 aciertos? ¿Cuál es el número crítico, c , de aciertos en el que consideramos que el sujeto es clarividente? ¿Cómo determinamos el valor crítico c ? Con la opción c =25 (es decir, sólo aceptamos la clarividencia cuando todas las cartas se predicen correctamente) somos más críticos que con c =10. En el primer caso, casi ningún sujeto será reconocido como clarividente; en el segundo caso, un cierto número aprobará la prueba. En la práctica, uno decide hasta qué punto será crítico. Es decir, uno decide con qué frecuencia se acepta un error del primer tipo: un falso positivo o error de Tipo I. Con c = 25 la probabilidad de tal error es:
y por tanto, muy pequeño. La probabilidad de un falso positivo es la probabilidad de acertar aleatoriamente las 25 veces.
Al ser menos crítico, con c = 10, se obtiene:
Por tanto, c = 10 produce una probabilidad mucho mayor de falso positivo.
Antes de realizar la prueba, se determina la probabilidad máxima aceptable de un error de tipo I ( α ). Normalmente, se seleccionan valores en el rango del 1% al 5%. (Si la tasa de error máxima aceptable es cero, se requiere un número infinito de conjeturas correctas). Dependiendo de esta tasa de error Tipo 1, se calcula el valor crítico c . Por ejemplo, si seleccionamos una tasa de error del 1%, c se calcula así:
De todos los números c, con esta propiedad, elegimos el más pequeño, con el fin de minimizar la probabilidad de un error de Tipo II, un falso negativo . Para el ejemplo anterior, seleccionamos: .
La prueba de hipótesis estadística es una técnica clave tanto de la inferencia frecuentista como de la inferencia bayesiana , aunque los dos tipos de inferencia tienen diferencias notables. Las pruebas de hipótesis estadísticas definen un procedimiento que controla (fija) la probabilidad de decidir incorrectamente que una posición predeterminada ( hipótesis nula ) es incorrecta. El procedimiento se basa en la probabilidad de que ocurra un conjunto de observaciones si la hipótesis nula fuera cierta. Esta probabilidad de tomar una decisión incorrecta no es la probabilidad de que la hipótesis nula sea verdadera, ni de si alguna hipótesis alternativa específica es verdadera. Esto contrasta con otras posibles técnicas de la teoría de la decisión en las que la hipótesis nula y la alternativa se tratan de forma más equitativa.
Un enfoque bayesiano ingenuo para la prueba de hipótesis es basar las decisiones en la probabilidad posterior , [57] [58] pero esto falla al comparar hipótesis puntuales y continuas. Otros enfoques para la toma de decisiones, como la teoría de la decisión bayesiana , intentan equilibrar las consecuencias de decisiones incorrectas entre todas las posibilidades, en lugar de concentrarse en una única hipótesis nula. Hay otros enfoques disponibles para llegar a una decisión basada en datos a través de la teoría de la decisión y las decisiones óptimas , algunos de los cuales tienen propiedades deseables. Sin embargo, la prueba de hipótesis es un enfoque dominante para el análisis de datos en muchos campos de la ciencia. Las extensiones de la teoría de la prueba de hipótesis incluyen el estudio del poder de las pruebas, es decir, la probabilidad de rechazar correctamente la hipótesis nula dado que es falsa. Estas consideraciones pueden utilizarse para determinar el tamaño de la muestra antes de la recopilación de datos.
Se puede crear un ejemplo de prueba de hipótesis de Neyman-Pearson (o prueba de significación estadística de hipótesis nula) cambiando el ejemplo de la maleta radiactiva. Si la "maleta" es en realidad un contenedor blindado para el transporte de material radiactivo, entonces se podría utilizar una prueba para seleccionar entre tres hipótesis: ninguna fuente radiactiva presente, una presente, dos (todas) presentes. La prueba podría ser necesaria por motivos de seguridad, con acciones requeridas en cada caso. El lema de Neyman-Pearson de prueba de hipótesis dice que un buen criterio para la selección de hipótesis es la razón de sus probabilidades (una razón de verosimilitud ). Un método sencillo de solución consiste en seleccionar la hipótesis con mayor probabilidad para los recuentos de Geiger observados. El resultado típico coincide con la intuición: pocos recuentos implican ninguna fuente, muchos recuentos implican dos fuentes y los recuentos intermedios implican una fuente. Tenga en cuenta también que normalmente hay problemas para demostrar una negativa . Las hipótesis nulas deberían ser al menos falsables .
La teoría de Neyman-Pearson puede acomodar tanto las probabilidades previas como los costos de las acciones resultantes de las decisiones. [59] El primero permite que cada prueba considere los resultados de pruebas anteriores (a diferencia de las pruebas de significancia de Fisher). Este último permite considerar cuestiones económicas (por ejemplo) así como probabilidades. Una razón de verosimilitud sigue siendo un buen criterio para seleccionar entre hipótesis.
Las dos formas de prueba de hipótesis se basan en diferentes formulaciones de problemas. La prueba original es análoga a una pregunta de verdadero/falso; la prueba de Neyman-Pearson se parece más a una opción múltiple. En opinión de Tukey [60] el primero produce una conclusión basándose únicamente en pruebas sólidas, mientras que el segundo produce una decisión sobre la base de las pruebas disponibles. Si bien las dos pruebas parecen bastante diferentes tanto matemática como filosóficamente, desarrollos posteriores llevan a la afirmación opuesta. Consideremos muchas fuentes radiactivas diminutas. Las hipótesis se convierten en 0,1,2,3... granos de arena radiactiva. Hay poca distinción entre nada o algo de radiación (Fisher) y 0 granos de arena radiactiva frente a todas las alternativas (Neyman-Pearson). El principal artículo de Neyman-Pearson de 1933 [11] también consideró hipótesis compuestas (aquellas cuya distribución incluye un parámetro desconocido). Un ejemplo demostró la optimización de la prueba t (de Student) : "no puede haber una prueba mejor para la hipótesis bajo consideración" (p. 321). La teoría de Neyman-Pearson estaba demostrando la optimización de los métodos de Fisher desde sus inicios.
La prueba de significación de Fisher ha demostrado ser una herramienta estadística popular y flexible en aplicaciones con poco potencial de crecimiento matemático. La prueba de hipótesis de Neyman-Pearson se considera un pilar de la estadística matemática, [61] creando un nuevo paradigma para este campo. También estimuló nuevas aplicaciones en control de procesos estadísticos , teoría de detección , teoría de decisiones y teoría de juegos . Ambas formulaciones han tenido éxito, pero los éxitos han sido de carácter diferente.
La disputa sobre las formulaciones sigue sin resolverse. La ciencia utiliza principalmente la formulación de Fisher (ligeramente modificada) tal como se enseña en la introducción a la estadística. Los estadísticos estudian la teoría de Neyman-Pearson en la escuela de posgrado. Los matemáticos están orgullosos de unir las formulaciones. Los filósofos los consideran por separado. Las opiniones eruditas consideran que las formulaciones son competitivas (Fisher vs Neyman), incompatibles [9] o complementarias. [13] La disputa se ha vuelto más compleja desde que la inferencia bayesiana ha alcanzado respetabilidad.
La terminología es inconsistente. La prueba de hipótesis puede significar cualquier combinación de dos formulaciones que cambiaron con el tiempo. Cualquier discusión sobre pruebas de significancia versus pruebas de hipótesis es doblemente vulnerable a la confusión.
Fisher pensaba que las pruebas de hipótesis eran una estrategia útil para realizar el control de calidad industrial; sin embargo, no estaba totalmente en desacuerdo con que las pruebas de hipótesis pudieran ser útiles para los científicos. [10] La prueba de hipótesis proporciona un medio para encontrar estadísticas de prueba utilizadas en las pruebas de significancia. [13] El concepto de poder es útil para explicar las consecuencias de ajustar el nivel de significancia y se utiliza mucho en la determinación del tamaño de la muestra . Los dos métodos siguen siendo filosóficamente distintos. [15] Por lo general (pero no siempre ) producen la misma respuesta matemática. La respuesta preferida depende del contexto. [13] Si bien la fusión existente de las teorías de Fisher y Neyman-Pearson ha sido fuertemente criticada, se ha considerado modificar la fusión para lograr los objetivos bayesianos. [62]
Las críticas a las pruebas de hipótesis estadísticas llenan volúmenes. [63] [64] [65] [66] [67] [68] Gran parte de las críticas se pueden resumir en las siguientes cuestiones:
Los críticos y partidarios coinciden en gran medida en los hechos con respecto a las características de la prueba de significancia de hipótesis nula (NHST): si bien puede proporcionar información crítica, es inadecuada como única herramienta para el análisis estadístico . Rechazar con éxito la hipótesis nula puede no ofrecer apoyo a la hipótesis de investigación. La continua controversia se refiere a la selección de las mejores prácticas estadísticas para el futuro cercano, dadas las prácticas existentes. Sin embargo, un diseño de investigación adecuado puede minimizar este problema. Los críticos preferirían prohibir completamente el NHST, lo que obligaría a abandonar por completo esas prácticas, [80] mientras que los partidarios sugieren un cambio menos absoluto. [ cita necesaria ]
La controversia sobre las pruebas de significancia y sus efectos sobre el sesgo de publicación en particular ha producido varios resultados. La Asociación Estadounidense de Psicología ha reforzado sus requisitos de presentación de informes estadísticos después de la revisión, [81] los editores de revistas médicas han reconocido la obligación de publicar algunos resultados que no son estadísticamente significativos para combatir el sesgo de publicación, [82] y una revista ( Journal of Articles in Support of la Hipótesis Nula ) ha sido creado para publicar dichos resultados exclusivamente. [83] Los libros de texto han agregado algunas precauciones, [84] y han aumentado la cobertura de las herramientas necesarias para estimar el tamaño de la muestra necesaria para producir resultados significativos. Pocas organizaciones importantes han abandonado el uso de pruebas de significancia, aunque algunas han discutido hacerlo. [81] Por ejemplo, en 2023, los editores del Journal of Physiology "recomiendan encarecidamente el uso de métodos de estimación para quienes publican en The Journal" (es decir, la magnitud del tamaño del efecto (para permitir a los lectores juzgar si un hallazgo tiene efectos prácticos). , fisiológica o clínica) e intervalos de confianza para transmitir la precisión de esa estimación), diciendo: "En última instancia, es la importancia fisiológica de los datos lo que más debería preocupar a quienes publican en The Journal of Physiology, en lugar de la significancia estadística". ". [85]
Una posición unificadora de los críticos es que las estadísticas no deberían conducir a una conclusión o decisión de aceptar o rechazar, sino a un valor estimado con una estimación de intervalo ; Esta filosofía de análisis de datos se conoce en términos generales como estadística de estimación . Las estadísticas de estimación se pueden lograr con métodos frecuentistas [1] o bayesianos. [86] [87]
Los críticos de las pruebas de significancia han abogado por basar la inferencia menos en los valores p y más en los intervalos de confianza para los tamaños del efecto para la importancia, los intervalos de predicción para la confianza, las replicaciones y extensiones para la replicabilidad, los metanálisis para la generalidad:. [88] Pero ninguna de estas alternativas sugeridas produce inherentemente una decisión. Lehmann dijo que la teoría de la prueba de hipótesis se puede presentar en términos de conclusiones/decisiones, probabilidades o intervalos de confianza: "La distinción entre los... enfoques es en gran medida una cuestión de informe e interpretación". [25]
La inferencia bayesiana es una alternativa propuesta a las pruebas de significancia. (Nickerson citó 10 fuentes que lo sugerían, incluido Rozeboom (1960)). [78] Por ejemplo, la estimación de parámetros bayesianos puede proporcionar información rica sobre los datos a partir de los cuales los investigadores pueden sacar inferencias, al tiempo que utiliza antecedentes inciertos que ejercen sólo una influencia mínima en los resultados cuando hay suficientes datos disponibles. El psicólogo John K. Kruschke ha sugerido la estimación bayesiana como una alternativa para la prueba t [86] y también ha contrastado la estimación bayesiana para evaluar valores nulos con la comparación de modelos bayesianos para la prueba de hipótesis. [87] Se pueden comparar dos modelos/hipótesis en competencia utilizando factores de Bayes . [89] Los métodos bayesianos podrían criticarse por requerir información que rara vez está disponible en los casos en los que se utilizan más pruebas de significación. Ni las probabilidades previas ni la distribución de probabilidad del estadístico de prueba bajo la hipótesis alternativa suelen estar disponibles en las ciencias sociales. [78]
Los defensores del enfoque bayesiano a veces afirman que el objetivo de un investigador suele ser evaluar objetivamente la probabilidad de que una hipótesis sea cierta en función de los datos que han recopilado. [90] [91] Ni las pruebas de significación de Fisher ni las pruebas de hipótesis de Neyman-Pearson pueden proporcionar esta información, ni pretenden hacerlo. La probabilidad de que una hipótesis sea verdadera sólo puede derivarse del uso del teorema de Bayes , que fue insatisfactorio tanto para el campo de Fisher como para el de Neyman-Pearson debido al uso explícito de la subjetividad en la forma de probabilidad previa . [11] [92] La estrategia de Fisher es evitar esto con el valor p (un índice objetivo basado únicamente en los datos) seguido de una inferencia inductiva , mientras que Neyman-Pearson ideó su enfoque de comportamiento inductivo .
Corremos el peligro de enviar al mundo a jóvenes altamente capacitados y muy inteligentes con tablas de números erróneos bajo el brazo y con una densa niebla en el lugar donde debería estar su cerebro. En este siglo, por supuesto, trabajarán en misiles guiados y asesorarán a la profesión médica sobre el control de enfermedades, y no hay límite en la medida en que podrían impedir todo tipo de esfuerzo nacional.
{{cite book}}
: |journal=
ignorado ( ayuda )Los editores deben considerar seriamente la publicación de cualquier estudio cuidadosamente realizado sobre una cuestión importante, relevante para sus lectores, ya sea que los resultados del resultado primario o de cualquier resultado adicional sean estadísticamente significativos. No enviar o publicar los resultados debido a la falta de significancia estadística es una causa importante de sesgo de publicación.
{{cite journal}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace )