Una prueba de hipótesis estadística es un método de inferencia estadística que se utiliza para decidir si los datos respaldan suficientemente una hipótesis en particular. Una prueba de hipótesis estadística generalmente implica el cálculo de una estadística de prueba . Luego se toma una decisión, ya sea comparando la estadística de prueba con un valor crítico o, equivalentemente, evaluando un valor p calculado a partir de la estadística de prueba. Se han definido aproximadamente 100 pruebas estadísticas especializadas . [1] [2]
Si bien las pruebas de hipótesis se popularizaron a principios del siglo XX, las primeras formas de uso se utilizaron en el siglo XVIII. El primer uso se atribuye a John Arbuthnot (1710), [3] seguido por Pierre-Simon Laplace (década de 1770), al analizar la proporción de sexos humanos al nacer; consulte § Proporción de sexos humanos.
Paul Meehl ha sostenido que la importancia epistemológica de la elección de la hipótesis nula ha pasado en gran medida desapercibida. Cuando la hipótesis nula es predicha por la teoría, un experimento más preciso será una prueba más rigurosa de la teoría subyacente. Cuando la hipótesis nula por defecto es "ninguna diferencia" o "ningún efecto", un experimento más preciso es una prueba menos rigurosa de la teoría que motivó la realización del experimento. [4] Por lo tanto, puede ser útil examinar los orígenes de esta última práctica:
1778: Pierre Laplace compara las tasas de natalidad de niños y niñas en varias ciudades europeas. Afirma: "es natural concluir que estas posibilidades están casi en la misma proporción". Por lo tanto, la hipótesis nula en este caso es que las tasas de natalidad de niños y niñas deberían ser iguales según la "sabiduría convencional". [5]
1900: Karl Pearson desarrolla la prueba de chi cuadrado para determinar "si una forma dada de curva de frecuencia describirá efectivamente las muestras extraídas de una población dada". Por lo tanto, la hipótesis nula es que una población se describe mediante alguna distribución predicha por la teoría. Utiliza como ejemplo los números cinco y seis en los datos del lanzamiento de dados de Weldon . [6]
1904: Karl Pearson desarrolla el concepto de " contingencia " para determinar si los resultados son independientes de un factor categórico dado. En este caso, la hipótesis nula es por defecto que dos cosas no están relacionadas (por ejemplo, la formación de cicatrices y las tasas de mortalidad por viruela). [7] La hipótesis nula en este caso ya no es predicha por la teoría o la sabiduría convencional, sino que es el principio de indiferencia que llevó a Fisher y a otros a descartar el uso de "probabilidades inversas". [8]
Las pruebas de significación modernas son en gran parte producto de Karl Pearson ( valor p , prueba de chi-cuadrado de Pearson ), William Sealy Gosset ( distribución t de Student ) y Ronald Fisher (" hipótesis nula ", análisis de varianza , " prueba de significación "), mientras que las pruebas de hipótesis fueron desarrolladas por Jerzy Neyman y Egon Pearson (hijo de Karl). Ronald Fisher comenzó su vida en estadística como bayesiano (Zabell 1992), pero pronto se desilusionó con la subjetividad involucrada (a saber, el uso del principio de indiferencia al determinar probabilidades previas) y buscó proporcionar un enfoque más "objetivo" a la inferencia inductiva. [9]
Fisher hizo hincapié en el diseño y los métodos experimentales rigurosos para extraer un resultado de unas pocas muestras asumiendo distribuciones gaussianas . Neyman (que hizo equipo con el joven Pearson) hizo hincapié en el rigor matemático y los métodos para obtener más resultados de muchas muestras y una gama más amplia de distribuciones. Las pruebas de hipótesis modernas son un híbrido inconsistente de la formulación, los métodos y la terminología de Fisher vs. Neyman/Pearson desarrollados a principios del siglo XX.
Fisher popularizó la "prueba de significación". Exigía una hipótesis nula (que correspondía a una distribución de frecuencias de la población) y una muestra. Sus cálculos (que ahora nos resultan familiares) determinaban si se debía rechazar o no la hipótesis nula. La prueba de significación no utilizaba una hipótesis alternativa, por lo que no existía el concepto de error de tipo II (falso negativo).
El valor p fue concebido como un índice informal, pero objetivo, destinado a ayudar a un investigador a determinar (basándose en otro conocimiento) si modificar experimentos futuros o fortalecer su fe en la hipótesis nula. [10] La prueba de hipótesis (y errores de tipo I/II) fue concebida por Neyman y Pearson como una alternativa más objetiva al valor p de Fisher , también destinada a determinar el comportamiento del investigador, pero sin requerir ninguna inferencia inductiva por parte del investigador. [11] [12]
Neyman y Pearson consideraron un problema diferente al de Fisher (al que llamaron "prueba de hipótesis"). Inicialmente, consideraron dos hipótesis simples (ambas con distribuciones de frecuencia). Calcularon dos probabilidades y, por lo general, seleccionaron la hipótesis asociada con la probabilidad más alta (la hipótesis con mayor probabilidad de haber generado la muestra). Su método siempre seleccionaba una hipótesis. También permitía el cálculo de ambos tipos de probabilidades de error.
Fisher y Neyman/Pearson chocaron duramente. Neyman/Pearson consideraban que su formulación era una generalización mejorada de las pruebas de significación (el artículo definitorio [11] era abstracto ; los matemáticos han generalizado y refinado la teoría durante décadas [13] ). Fisher pensaba que no era aplicable a la investigación científica porque a menudo, durante el curso del experimento, se descubre que las suposiciones iniciales sobre la hipótesis nula son cuestionables debido a fuentes inesperadas de error. Creía que el uso de decisiones rígidas de rechazar/aceptar basadas en modelos formulados antes de que se recopilen los datos era incompatible con este escenario común al que se enfrentan los científicos y que los intentos de aplicar este método a la investigación científica conducirían a una confusión masiva. [14]
La disputa entre Fisher y Neyman-Pearson se libró sobre bases filosóficas, y un filósofo la caracterizó como una disputa sobre el papel apropiado de los modelos en la inferencia estadística. [15]
Los acontecimientos intervinieron: Neyman aceptó un puesto en la Universidad de California, Berkeley en 1938, rompiendo su asociación con Pearson y separando a los contendientes (que habían ocupado el mismo edificio). La Segunda Guerra Mundial proporcionó un intermedio en el debate. La disputa entre Fisher y Neyman terminó (sin resolverse después de 27 años) con la muerte de Fisher en 1962. Neyman escribió un panegírico muy bien considerado. [16] Algunas de las publicaciones posteriores de Neyman informaron valores p y niveles de significación. [17]
La versión moderna de la prueba de hipótesis es un híbrido de los dos enfoques que resultaron de la confusión de los escritores de libros de texto estadísticos (como predijo Fisher) a partir de la década de 1940 [18] (pero la detección de señales , por ejemplo, todavía utiliza la formulación de Neyman/Pearson). Se ignoraron grandes diferencias conceptuales y muchas salvedades además de las mencionadas anteriormente. Neyman y Pearson proporcionaron la terminología más sólida, las matemáticas más rigurosas y la filosofía más consistente, pero el tema que se enseña hoy en estadística introductoria tiene más similitudes con el método de Fisher que con el de ellos. [19]
En algún momento alrededor de 1940, [18] los autores de libros de texto estadísticos comenzaron a combinar los dos enfoques utilizando el valor p en lugar de la estadística de prueba (o datos) para probar contra el "nivel de significancia" de Neyman-Pearson.
La prueba de hipótesis y la filosofía se entrecruzan. La estadística inferencial , que incluye la prueba de hipótesis, es probabilidad aplicada. Tanto la probabilidad como su aplicación están entrelazadas con la filosofía. El filósofo David Hume escribió: "Todo conocimiento degenera en probabilidad". Las definiciones prácticas en pugna de la probabilidad reflejan diferencias filosóficas. La aplicación más común de la prueba de hipótesis es la interpretación científica de datos experimentales, que naturalmente se estudia mediante la filosofía de la ciencia .
Fisher y Neyman se opusieron a la subjetividad de la probabilidad. Sus opiniones contribuyeron a las definiciones objetivas. El núcleo de su desacuerdo histórico era filosófico.
Los estadísticos discuten muchas de las críticas filosóficas a las pruebas de hipótesis en otros contextos, en particular la de que la correlación no implica causalidad y la del diseño de experimentos . Las pruebas de hipótesis siguen siendo de interés para los filósofos. [15] [20]
Cada vez se enseña más estadística en las escuelas, y la prueba de hipótesis es uno de los elementos que se enseñan. [21] [22] Muchas conclusiones publicadas en la prensa popular (desde encuestas de opinión política hasta estudios médicos) se basan en estadísticas. Algunos autores han afirmado que el análisis estadístico de este tipo permite pensar con claridad sobre problemas que involucran datos masivos, así como la presentación efectiva de tendencias e inferencias a partir de dichos datos, pero advierten que los escritores para un público amplio deben tener un conocimiento sólido del campo para usar los términos y conceptos correctamente. [23] [24] Una clase introductoria de estadística universitaria pone mucho énfasis en la prueba de hipótesis, tal vez la mitad del curso. Campos como la literatura y la teología ahora incluyen hallazgos basados en el análisis estadístico (ver el Analizador de la Biblia ). Una clase introductoria de estadística enseña la prueba de hipótesis como un proceso de libro de cocina. La prueba de hipótesis también se enseña a nivel de posgrado. Los estadísticos aprenden cómo crear buenos procedimientos de prueba estadística (como z , t de Student , F y chi-cuadrado). La prueba de hipótesis estadísticas se considera un área madura dentro de la estadística, [25] pero aún se encuentra en desarrollo de forma limitada.
Un estudio académico afirma que el método de libro de cocina para enseñar estadística introductoria no deja tiempo para la historia, la filosofía o la controversia. La prueba de hipótesis se ha enseñado como un método unificado aceptado. Las encuestas mostraron que los graduados de la clase estaban llenos de conceptos erróneos filosóficos (sobre todos los aspectos de la inferencia estadística) que persistían entre los instructores. [26] Si bien el problema se abordó hace más de una década, [27] y los llamados a la reforma educativa continúan, [28] los estudiantes aún se gradúan de las clases de estadística con conceptos erróneos fundamentales sobre la prueba de hipótesis. [29] Las ideas para mejorar la enseñanza de la prueba de hipótesis incluyen alentar a los estudiantes a buscar errores estadísticos en artículos publicados, enseñar la historia de la estadística y enfatizar la controversia en un tema generalmente árido. [30]
Los pasos típicos implicados en la realización de una prueba de hipótesis frecuentista en la práctica son:
La diferencia entre los dos procesos aplicados al ejemplo de la maleta radiactiva (abajo):
El primer informe es adecuado, el segundo da una explicación más detallada de los datos y el motivo por el cual se revisa la maleta.
No rechazar la hipótesis nula no significa que la hipótesis nula sea "aceptada" per se (aunque Neyman y Pearson usaron esa palabra en sus escritos originales; ver la sección Interpretación).
Los procesos descritos aquí son perfectamente adecuados para el cálculo, pero descuidan seriamente las consideraciones sobre el diseño de experimentos . [32] [33]
Es especialmente importante estimar tamaños de muestra adecuados antes de realizar el experimento.
La frase "prueba de significación" fue acuñada por el estadístico Ronald Fisher . [34]
Cuando la hipótesis nula es verdadera y se cumplen los supuestos estadísticos, la probabilidad de que el valor p sea menor o igual al nivel de significancia es como máximo . Esto garantiza que la prueba de hipótesis mantenga su tasa de falsos positivos especificada (siempre que se cumplan los supuestos estadísticos). [35]
El valor p es la probabilidad de que se dé un estadístico de prueba que sea al menos tan extremo como el obtenido bajo la hipótesis nula. Con un nivel de significación de 0,05, se esperaría que una moneda justa rechazara (incorrectamente) la hipótesis nula (que es justa) en 1 de cada 20 pruebas en promedio. El valor p no proporciona la probabilidad de que la hipótesis nula o su opuesta sean correctas (una fuente común de confusión). [36]
Si el valor p es menor que el umbral de significancia elegido (equivalentemente, si la estadística de prueba observada está en la región crítica), entonces decimos que la hipótesis nula se rechaza en el nivel de significancia elegido. Si el valor p no es menor que el umbral de significancia elegido (equivalentemente, si la estadística de prueba observada está fuera de la región crítica), entonces la hipótesis nula no se rechaza en el nivel de significancia elegido.
En el ejemplo de la "señora que prueba el té" (abajo), Fisher le pidió a la señora que clasificara correctamente todas las tazas de té para justificar la conclusión de que era poco probable que el resultado fuera fruto del azar. Su prueba reveló que si la señora estaba adivinando al azar (la hipótesis nula), había una probabilidad del 1,4 % de que se produjeran los resultados observados (té perfectamente ordenado).
Las estadísticas son útiles para analizar la mayoría de los conjuntos de datos. Esto es igualmente cierto en el caso de las pruebas de hipótesis, que pueden justificar conclusiones incluso cuando no existe una teoría científica. En el ejemplo de la señora que degustaba té, era "obvio" que no existía diferencia entre (leche vertida en té) y (té vertido en leche). Los datos contradecían lo "obvio".
Las aplicaciones en el mundo real de las pruebas de hipótesis incluyen: [37]
La comprobación de hipótesis estadísticas desempeña un papel importante en toda la estadística y en la inferencia estadística . Por ejemplo, Lehmann (1992), en una revisión del artículo fundamental de Neyman y Pearson (1933), dice: "Sin embargo, a pesar de sus deficiencias, el nuevo paradigma formulado en el artículo de 1933 y los numerosos desarrollos realizados dentro de su marco siguen desempeñando un papel central tanto en la teoría como en la práctica de la estadística y se puede esperar que lo sigan haciendo en el futuro previsible".
Las pruebas de significancia han sido la herramienta estadística favorita en algunas ciencias sociales experimentales (más del 90% de los artículos en el Journal of Applied Psychology durante la década de 1990). [38] Otros campos han favorecido la estimación de parámetros (por ejemplo, el tamaño del efecto ). Las pruebas de significancia se utilizan como un sustituto de la comparación tradicional del valor predicho y el resultado experimental en el núcleo del método científico . Cuando la teoría solo es capaz de predecir el signo de una relación, se puede configurar una prueba de hipótesis direccional (unilateral) de modo que solo un resultado estadísticamente significativo respalde la teoría. Esta forma de evaluación de la teoría es la aplicación más criticada de las pruebas de hipótesis.
"Si el gobierno exigiera que los procedimientos estadísticos llevaran etiquetas de advertencia como las de los medicamentos, la mayoría de los métodos de inferencia tendrían, de hecho, etiquetas largas". [39] Esta advertencia se aplica a las pruebas de hipótesis y a las alternativas a ellas.
La prueba de hipótesis exitosa está asociada con una probabilidad y una tasa de error tipo I. La conclusión podría ser errónea.
La conclusión de la prueba es tan sólida como la muestra en la que se basa. El diseño del experimento es fundamental. Se han observado varios efectos inesperados, entre ellos:
Un análisis estadístico de datos engañosos produce conclusiones engañosas. La cuestión de la calidad de los datos puede ser más sutil. En la previsión , por ejemplo, no hay acuerdo sobre una medida de la precisión de las previsiones. En ausencia de una medida de consenso, ninguna decisión basada en mediciones estará libre de controversias.
Sesgo de publicación: Es posible que los resultados estadísticamente no significativos tengan menos probabilidades de publicarse, lo que puede sesgar la literatura.
Pruebas múltiples: cuando se realizan múltiples pruebas de hipótesis nulas verdaderas a la vez sin ajuste, la probabilidad general de error tipo I es mayor que el nivel alfa nominal. [40]
Quienes toman decisiones críticas basándose en los resultados de una prueba de hipótesis son prudentes y se fijan en los detalles en lugar de en la conclusión únicamente. En las ciencias físicas, la mayoría de los resultados se aceptan plenamente sólo cuando se confirman de forma independiente. El consejo general en materia de estadística es: "Las cifras nunca mienten, pero los mentirosos calculan" (anónimo).
Las siguientes definiciones se basan principalmente en la exposición del libro de Lehmann y Romano: [35]
Una prueba de hipótesis estadística compara una estadística de prueba ( z o t , por ejemplo) con un umbral. La estadística de prueba (la fórmula que se encuentra en la tabla siguiente) se basa en la optimalidad. Para un nivel fijo de tasa de error de tipo I, el uso de estas estadísticas minimiza las tasas de error de tipo II (equivalente a maximizar la potencia). Los siguientes términos describen las pruebas en términos de dicha optimalidad:
Los métodos de remuestreo basados en bootstrap se pueden utilizar para probar la hipótesis nula. Un bootstrap crea numerosas muestras simuladas al remuestrear aleatoriamente (con reemplazo) los datos de muestra originales combinados, suponiendo que la hipótesis nula es correcta. El bootstrap es muy versátil, ya que no tiene distribución y no se basa en supuestos paramétricos restrictivos, sino en métodos aproximados empíricos con garantías asintóticas. Las pruebas de hipótesis paramétricas tradicionales son más eficientes computacionalmente pero hacen supuestos estructurales más sólidos. En situaciones en las que calcular la probabilidad de la estadística de prueba bajo la hipótesis nula es difícil o imposible (debido quizás a inconvenientes o falta de conocimiento de la distribución subyacente), el bootstrap ofrece un método viable para la inferencia estadística. [42] [43] [44] [45]
El uso más temprano de las pruebas de hipótesis estadísticas se atribuye generalmente a la cuestión de si los nacimientos de hombres y mujeres son igualmente probables (hipótesis nula), que fue abordada en la década de 1700 por John Arbuthnot (1710), [46] y más tarde por Pierre-Simon Laplace (década de 1770). [47]
Arbuthnot examinó los registros de nacimiento en Londres para cada uno de los 82 años desde 1629 a 1710, y aplicó la prueba de signos , una prueba no paramétrica simple . [48] [49] [50] En cada año, el número de varones nacidos en Londres superó al número de mujeres. Considerando más nacimientos de varones o más nacimientos de mujeres como igualmente probables, la probabilidad del resultado observado es 0,5 82 , o aproximadamente 1 en 4.836.000.000.000.000.000.000.000; en términos modernos, este es el valor p . Arbuthnot concluyó que esto es demasiado pequeño para deberse al azar y, en cambio, debe deberse a la providencia divina: "De donde se sigue que es el arte, no el azar, lo que gobierna". En términos modernos, rechazó la hipótesis nula de nacimientos de varones y mujeres igualmente probables en el nivel de significación p = 1/2 82 .
Laplace analizó las estadísticas de casi medio millón de nacimientos y demostró que había un exceso de niños en comparación con las niñas. [5] [51] Mediante el cálculo de un valor p , concluyó que el exceso era un efecto real, pero inexplicable. [52]
En un famoso ejemplo de prueba de hipótesis, conocido como la dama que prueba el té , [53] la Dra. Muriel Bristol , colega de Fisher, afirmó ser capaz de decir si el té o la leche se agregó primero a una taza. Fisher propuso darle ocho tazas, cuatro de cada variedad, en orden aleatorio. Uno podría entonces preguntar cuál era la probabilidad de que ella obtuviera el número que acertó, pero solo por casualidad. La hipótesis nula fue que la dama no tenía tal capacidad. La estadística de prueba fue un simple recuento del número de éxitos en la selección de las 4 tazas. La región crítica fue el caso único de 4 éxitos de 4 posibles según un criterio de probabilidad convencional (< 5%). Un patrón de 4 éxitos corresponde a 1 de 70 combinaciones posibles (p≈ 1,4%). Fisher afirmó que no se requirió (nunca) ninguna hipótesis alternativa. La dama identificó correctamente cada taza, [54] lo que se consideraría un resultado estadísticamente significativo.
El procedimiento de prueba estadística es comparable a un proceso penal : el acusado es considerado inocente mientras no se demuestre su culpabilidad. El fiscal intenta demostrar la culpabilidad del acusado. Sólo cuando existen pruebas suficientes para la acusación se condena al acusado.
Al inicio del procedimiento, hay dos hipótesis : "el acusado no es culpable" y "el acusado es culpable". La primera, , se llama hipótesis nula . La segunda, , se llama hipótesis alternativa . Es la hipótesis alternativa que se espera sustentar.
La hipótesis de inocencia se rechaza únicamente cuando el error es muy improbable, porque no se desea condenar a un acusado inocente. Este tipo de error se denomina error del primer tipo (es decir, la condena de una persona inocente) y se controla su ocurrencia para que sea poco frecuente. Como consecuencia de este comportamiento asimétrico, es más frecuente un error del segundo tipo (absolver a la persona que cometió el delito).
Un proceso penal puede considerarse como uno o ambos de los dos procesos de decisión: culpable vs. inocente o evidencia vs. un umbral ("más allá de toda duda razonable"). En un punto de vista, se juzga al acusado; en el otro, se juzga el desempeño de la acusación (que soporta la carga de la prueba). Una prueba de hipótesis puede considerarse como un juicio de una hipótesis o como un juicio de evidencia.
El siguiente ejemplo fue elaborado por un filósofo que describió métodos científicos generaciones antes de que se formalizaran y popularizaran las pruebas de hipótesis. [55]
De este puñado, pocas judías son blancas.
La mayoría de las judías de esta bolsa son blancas.
Por lo tanto: Probablemente, estas judías se sacaron de otra bolsa.
Esta es una inferencia hipotética.
Los frijoles en la bolsa son la población. El puñado es la muestra. La hipótesis nula es que la muestra se originó a partir de la población. El criterio para rechazar la hipótesis nula es la diferencia "obvia" en apariencia (una diferencia informal en la media). El resultado interesante es que la consideración de una población real y una muestra real produjo una bolsa imaginaria. El filósofo estaba considerando la lógica en lugar de la probabilidad. Para ser una prueba de hipótesis estadística real, este ejemplo requiere las formalidades de un cálculo de probabilidad y una comparación de esa probabilidad con un estándar.
Una generalización simple del ejemplo considera una bolsa mixta de frijoles y un puñado que contiene muy pocos o muchos frijoles blancos. La generalización considera ambos extremos. Requiere más cálculos y más comparaciones para llegar a una respuesta formal, pero la filosofía central no cambia: si la composición del puñado es muy diferente a la de la bolsa, entonces la muestra probablemente se originó de otra bolsa. El ejemplo original se denomina prueba unilateral o de una cola, mientras que la generalización se denomina prueba bilateral o de dos colas.
La afirmación también se basa en la inferencia de que el muestreo fue aleatorio. Si alguien hubiera estado rebuscando en la bolsa para encontrar frijoles blancos, eso explicaría por qué el puñado tenía tantos frijoles blancos y también explicaría por qué se agotó el número de frijoles blancos en la bolsa (aunque probablemente se suponga que la bolsa es mucho más grande que la mano de uno).
Se realiza una prueba de clarividencia a una persona (el sujeto) . Se le muestra el reverso de una carta elegida al azar 25 veces y se le pregunta a cuál de los cuatro palos pertenece. El número de aciertos, o respuestas correctas, se denomina X.
Mientras tratamos de encontrar evidencia de su clarividencia, por el momento la hipótesis nula es que la persona no es clarividente. [56] La alternativa es: la persona es (más o menos) clarividente.
Si la hipótesis nula es válida, lo único que puede hacer el sujeto de prueba es adivinar. Para cada carta, la probabilidad (frecuencia relativa) de que aparezca un solo palo es 1/4. Si la alternativa es válida, el sujeto de prueba predecirá correctamente el palo con una probabilidad mayor que 1/4. Llamaremos a la probabilidad de adivinar correctamente p . Las hipótesis, entonces, son:
y
Si el sujeto de prueba predice correctamente las 25 cartas, lo consideraremos clarividente y rechazaremos la hipótesis nula. Lo mismo ocurre con 24 o 23 aciertos. En cambio, con solo 5 o 6 aciertos no hay motivos para considerarlo así. Pero ¿qué pasa con 12 o 17 aciertos? ¿Cuál es el número crítico, c , de aciertos, en cuyo caso consideramos que el sujeto es clarividente? ¿Cómo determinamos el valor crítico c ? Con la opción c = 25 (es decir, solo aceptamos la clarividencia cuando se predicen correctamente todas las cartas) somos más críticos que con c = 10. En el primer caso, casi ningún sujeto de prueba será reconocido como clarividente, en el segundo caso, un cierto número pasará la prueba. En la práctica, uno decide cuán crítico será, es decir, uno decide con qué frecuencia acepta un error del primer tipo: un falso positivo o error de tipo I. Con c = 25, la probabilidad de tal error es:
y por lo tanto, muy pequeña. La probabilidad de un falso positivo es la probabilidad de acertar al azar las 25 veces.
Siendo menos crítico, con c = 10, se obtiene:
Por lo tanto, c = 10 produce una probabilidad mucho mayor de falso positivo.
Antes de que se realice la prueba, se determina la probabilidad máxima aceptable de un error de tipo I ( α ). Normalmente, se seleccionan valores en el rango de 1% a 5%. (Si la tasa de error máxima aceptable es cero, se requiere un número infinito de intentos correctos). Dependiendo de esta tasa de error de tipo 1, se calcula el valor crítico c . Por ejemplo, si seleccionamos una tasa de error de 1%, c se calcula de la siguiente manera:
De todos los números c, con esta propiedad, elegimos el más pequeño, para minimizar la probabilidad de un error de tipo II, un falso negativo . Para el ejemplo anterior, seleccionamos: .
La prueba de hipótesis estadística es una técnica clave tanto de la inferencia frecuentista como de la inferencia bayesiana , aunque los dos tipos de inferencia tienen diferencias notables. Las pruebas de hipótesis estadísticas definen un procedimiento que controla (corrige) la probabilidad de decidir incorrectamente que una posición predeterminada ( hipótesis nula ) es incorrecta. El procedimiento se basa en la probabilidad de que ocurra un conjunto de observaciones si la hipótesis nula fuera verdadera. Esta probabilidad de tomar una decisión incorrecta no es la probabilidad de que la hipótesis nula sea verdadera, ni de si alguna hipótesis alternativa específica es verdadera. Esto contrasta con otras técnicas posibles de la teoría de la decisión en las que la hipótesis nula y la alternativa se tratan de manera más igualitaria.
Un enfoque bayesiano ingenuo para la prueba de hipótesis es basar las decisiones en la probabilidad posterior , [57] [58] pero esto falla cuando se comparan hipótesis puntuales y continuas. Otros enfoques para la toma de decisiones, como la teoría de decisión bayesiana , intentan equilibrar las consecuencias de las decisiones incorrectas entre todas las posibilidades, en lugar de concentrarse en una sola hipótesis nula. Hay varios otros enfoques para llegar a una decisión basada en datos disponibles a través de la teoría de decisiones y las decisiones óptimas , algunas de las cuales tienen propiedades deseables. Sin embargo, la prueba de hipótesis es un enfoque dominante para el análisis de datos en muchos campos de la ciencia. Las extensiones de la teoría de la prueba de hipótesis incluyen el estudio del poder de las pruebas, es decir, la probabilidad de rechazar correctamente la hipótesis nula dado que es falsa. Tales consideraciones se pueden utilizar para determinar el tamaño de la muestra antes de la recopilación de datos.
Un ejemplo de prueba de hipótesis de Neyman-Pearson (o prueba de significación estadística de hipótesis nula) se puede hacer modificando el ejemplo de la maleta radiactiva. Si la "maleta" es en realidad un contenedor blindado para el transporte de material radiactivo, entonces se podría utilizar una prueba para seleccionar entre tres hipótesis: ninguna fuente radiactiva presente, una presente, dos (todas) presentes. La prueba podría ser necesaria por razones de seguridad, y en cada caso se requerirían acciones. El lema de Neyman-Pearson de la prueba de hipótesis dice que un buen criterio para la selección de hipótesis es la razón de sus probabilidades (una razón de verosimilitud ). Un método simple de solución es seleccionar la hipótesis con la mayor probabilidad para los conteos Geiger observados. El resultado típico coincide con la intuición: pocos conteos implican que no hay fuente, muchos conteos implican dos fuentes y los conteos intermedios implican una fuente. Observe también que, por lo general, existen problemas para probar una hipótesis negativa . Las hipótesis nulas deben ser, al menos, falsables .
La teoría de Neyman-Pearson puede tener en cuenta tanto las probabilidades previas como los costos de las acciones resultantes de las decisiones. [59] La primera permite que cada prueba considere los resultados de pruebas anteriores (a diferencia de las pruebas de significancia de Fisher). La segunda permite considerar cuestiones económicas (por ejemplo) así como probabilidades. Una razón de verosimilitud sigue siendo un buen criterio para seleccionar entre hipótesis.
Las dos formas de prueba de hipótesis se basan en diferentes formulaciones del problema. La prueba original es análoga a una pregunta de verdadero/falso; la prueba de Neyman-Pearson es más parecida a una de opción múltiple. En opinión de Tukey [60], la primera produce una conclusión basándose únicamente en evidencia sólida, mientras que la segunda produce una decisión basándose en la evidencia disponible. Si bien las dos pruebas parecen bastante diferentes tanto matemática como filosóficamente, desarrollos posteriores conducen a la afirmación opuesta. Consideremos muchas fuentes radiactivas diminutas. Las hipótesis se convierten en 0, 1, 2, 3... granos de arena radiactiva. Hay poca distinción entre ninguna o algo de radiación (Fisher) y 0 granos de arena radiactiva frente a todas las alternativas (Neyman-Pearson). El importante artículo de Neyman-Pearson de 1933 [11] también consideró hipótesis compuestas (aquellas cuya distribución incluye un parámetro desconocido). Un ejemplo demostró la optimalidad de la prueba t (de Student) : "no puede haber una prueba mejor para la hipótesis en cuestión" (p. 321). La teoría de Neyman-Pearson demostró la optimalidad de los métodos fisherianos desde sus inicios.
La prueba de significancia de Fisher ha demostrado ser una herramienta estadística flexible y popular en aplicaciones con poco potencial de crecimiento matemático. La prueba de hipótesis de Neyman-Pearson se considera un pilar de la estadística matemática, [61] creando un nuevo paradigma para el campo. También estimuló nuevas aplicaciones en el control de procesos estadísticos , la teoría de detección , la teoría de decisiones y la teoría de juegos . Ambas formulaciones han tenido éxito, pero los éxitos han sido de carácter diferente.
La disputa sobre las formulaciones no se ha resuelto. La ciencia utiliza principalmente la formulación de Fisher (ligeramente modificada) que se enseña en las estadísticas introductorias. Los estadísticos estudian la teoría de Neyman-Pearson en la escuela de posgrado. Los matemáticos se enorgullecen de unificar las formulaciones. Los filósofos las consideran por separado. Las opiniones eruditas consideran que las formulaciones son competitivas (Fisher vs. Neyman), incompatibles [9] o complementarias [13] . La disputa se ha vuelto más compleja desde que la inferencia bayesiana ha alcanzado respetabilidad.
La terminología es inconsistente. La prueba de hipótesis puede significar cualquier combinación de dos formulaciones que hayan cambiado con el tiempo. Cualquier discusión sobre la prueba de significación versus la prueba de hipótesis es doblemente vulnerable a la confusión.
Fisher pensaba que la prueba de hipótesis era una estrategia útil para realizar un control de calidad industrial, sin embargo, estaba en total desacuerdo con que la prueba de hipótesis pudiera ser útil para los científicos. [10] La prueba de hipótesis proporciona un medio para encontrar las estadísticas de prueba utilizadas en las pruebas de significancia. [13] El concepto de potencia es útil para explicar las consecuencias de ajustar el nivel de significancia y se utiliza mucho en la determinación del tamaño de la muestra . Los dos métodos siguen siendo filosóficamente distintos. [15] Por lo general (pero no siempre ) producen la misma respuesta matemática. La respuesta preferida depende del contexto. [13] Si bien la fusión existente de las teorías de Fisher y Neyman-Pearson ha sido muy criticada, se ha considerado modificar la fusión para lograr objetivos bayesianos. [62]
Las críticas a las pruebas de hipótesis estadísticas llenan volúmenes. [63] [64] [65] [66] [67] [68] Gran parte de las críticas se pueden resumir en las siguientes cuestiones:
Los críticos y los partidarios coinciden en gran medida en cuanto a las características de las pruebas de significación de la hipótesis nula (NHST): si bien pueden proporcionar información crítica, son inadecuadas como única herramienta para el análisis estadístico . Rechazar con éxito la hipótesis nula puede no ofrecer ningún respaldo a la hipótesis de investigación. La controversia continua se refiere a la selección de las mejores prácticas estadísticas para el futuro cercano dadas las prácticas existentes. Sin embargo, un diseño de investigación adecuado puede minimizar este problema. Los críticos preferirían prohibir las NHST por completo, lo que obligaría a abandonar por completo esas prácticas, [80] mientras que los partidarios sugieren un cambio menos absoluto. [ cita requerida ]
La controversia sobre las pruebas de significación, y sus efectos sobre el sesgo de publicación en particular, ha producido varios resultados. La Asociación Estadounidense de Psicología ha reforzado sus requisitos de informes estadísticos después de la revisión, [81] los editores de revistas médicas han reconocido la obligación de publicar algunos resultados que no son estadísticamente significativos para combatir el sesgo de publicación, [82] y se ha creado una revista ( Journal of Articles in Support of the Null Hypothesis ) para publicar exclusivamente dichos resultados. [83] Los libros de texto han añadido algunas precauciones, [84] y han aumentado la cobertura de las herramientas necesarias para estimar el tamaño de la muestra requerida para producir resultados significativos. Pocas organizaciones importantes han abandonado el uso de pruebas de significación, aunque algunas han discutido hacerlo. [81] Por ejemplo, en 2023, los editores del Journal of Physiology "recomiendan encarecidamente el uso de métodos de estimación para quienes publican en el Journal" (es decir, la magnitud del tamaño del efecto (para permitir que los lectores juzguen si un hallazgo tiene relevancia práctica, fisiológica o clínica) e intervalos de confianza para transmitir la precisión de esa estimación), diciendo "En última instancia, es la importancia fisiológica de los datos lo que más debería preocupar a quienes publican en el Journal of Physiology, en lugar de la significación estadística". [85]
Una posición unificadora de los críticos es que las estadísticas no deberían llevar a una conclusión o decisión de aceptar o rechazar, sino a un valor estimado con una estimación de intervalo ; esta filosofía de análisis de datos se conoce en términos generales como estadísticas de estimación . Las estadísticas de estimación se pueden lograr con métodos frecuentistas [1] o bayesianos. [86] [87]
Los críticos de las pruebas de significación han defendido que la inferencia se base menos en los valores p y más en los intervalos de confianza para los tamaños del efecto en el caso de la importancia, los intervalos de predicción para la confianza, las réplicas y extensiones para la replicabilidad y los metaanálisis para la generalidad. [88] Pero ninguna de estas alternativas sugeridas produce inherentemente una decisión. Lehmann dijo que la teoría de las pruebas de hipótesis se puede presentar en términos de conclusiones/decisiones, probabilidades o intervalos de confianza: "La distinción entre los... enfoques es en gran medida una de presentación de informes e interpretación". [25]
La inferencia bayesiana es una alternativa propuesta a las pruebas de significancia. (Nickerson citó 10 fuentes que la sugieren, incluyendo Rozeboom (1960)). [78] Por ejemplo, la estimación de parámetros bayesianos puede proporcionar información rica sobre los datos de los cuales los investigadores pueden extraer inferencias, mientras que se utilizan valores previos inciertos que ejercen solo una influencia mínima en los resultados cuando hay suficientes datos disponibles. El psicólogo John K. Kruschke ha sugerido la estimación bayesiana como una alternativa para la prueba t [86] y también ha contrastado la estimación bayesiana para evaluar valores nulos con la comparación de modelos bayesianos para pruebas de hipótesis. [87] Dos modelos/hipótesis en competencia se pueden comparar utilizando factores de Bayes . [89] Los métodos bayesianos podrían ser criticados por requerir información que rara vez está disponible en los casos en que las pruebas de significancia se utilizan con mayor frecuencia. Ni las probabilidades previas ni la distribución de probabilidad de la estadística de prueba bajo la hipótesis alternativa suelen estar disponibles en las ciencias sociales. [78]
Los defensores de un enfoque bayesiano a veces afirman que el objetivo de un investigador es, en la mayoría de los casos, evaluar objetivamente la probabilidad de que una hipótesis sea verdadera basándose en los datos que ha recopilado. [90] [91] Ni la prueba de significancia de Fisher ni la prueba de hipótesis de Neyman-Pearson pueden proporcionar esta información, y no afirman hacerlo. La probabilidad de que una hipótesis sea verdadera solo se puede derivar del uso del teorema de Bayes , que no era satisfactorio para los bandos de Fisher y Neyman-Pearson debido al uso explícito de la subjetividad en forma de probabilidad previa . [11] [92] La estrategia de Fisher es eludir esto con el valor p (un índice objetivo basado solo en los datos) seguido de inferencia inductiva , mientras que Neyman-Pearson ideó su enfoque de comportamiento inductivo .
Corremos el gran peligro de enviar al mundo a jóvenes muy preparados e inteligentes con tablas de números erróneos bajo el brazo y con una densa niebla en el lugar donde deberían estar sus cerebros. En este siglo, por supuesto, trabajarán en misiles teledirigidos y asesorarán a la profesión médica sobre el control de las enfermedades, y no hay límite en cuanto a la medida en que podrían obstaculizar todo tipo de esfuerzo nacional.
{{cite book}}
: |journal=
ignorado ( ayuda )Los editores deben considerar seriamente la publicación de cualquier estudio realizado cuidadosamente sobre una cuestión importante, relevante para sus lectores, independientemente de si los resultados del resultado principal o de cualquier otro resultado adicional son estadísticamente significativos. La falta de presentación o publicación de los hallazgos debido a la falta de significación estadística es una causa importante de sesgo de publicación.
{{cite journal}}
: CS1 maint: varios nombres: lista de autores ( enlace )