stringtranslate.com

Prueba de hipótesis estadística

La imagen de arriba muestra una tabla con algunas de las estadísticas de prueba más comunes y sus pruebas o modelos correspondientes.

Una prueba de hipótesis estadística es un método de inferencia estadística que se utiliza para decidir si los datos respaldan suficientemente una hipótesis particular. Una prueba de hipótesis estadística normalmente implica el cálculo de una estadística de prueba . Luego se toma una decisión, ya sea comparando el estadístico de prueba con un valor crítico o, de manera equivalente, evaluando un valor p calculado a partir del estadístico de prueba. Se han definido aproximadamente 100 pruebas estadísticas especializadas . [1] [2]

Historia

Si bien las pruebas de hipótesis se popularizaron a principios del siglo XX, las primeras formas se utilizaron en el siglo XVIII. El primer uso se atribuye a John Arbuthnot (1710), [3] seguido de Pierre-Simon Laplace (década de 1770), al analizar la proporción de sexos humanos al nacer; ver § Proporción de sexos humanos.

Elección de la hipótesis nula

Paul Meehl ha sostenido que la importancia epistemológica de la elección de la hipótesis nula ha pasado en gran medida desapercibida. Cuando la teoría predice la hipótesis nula, un experimento más preciso será una prueba más severa de la teoría subyacente. Cuando la hipótesis nula por defecto es "sin diferencia" o "sin efecto", un experimento más preciso es una prueba menos severa de la teoría que motivó la realización del experimento. [4] Por tanto, puede resultar útil un examen de los orígenes de esta última práctica:

1778: Pierre Laplace compara las tasas de natalidad de niños y niñas en varias ciudades europeas. Afirma: "es natural concluir que estas posibilidades están casi en la misma proporción". Por lo tanto, la hipótesis nula en este caso de que las tasas de natalidad de niños y niñas deberían ser iguales dada la "sabiduría convencional". [5]

1900: Karl Pearson desarrolla la prueba de chi cuadrado para determinar "si una forma determinada de curva de frecuencia describirá eficazmente las muestras extraídas de una población determinada". Por tanto, la hipótesis nula es que una población se describe mediante alguna distribución predicha por la teoría. Utiliza como ejemplo los números cinco y seis en los datos de lanzamiento de dados de Weldon . [6]

1904: Karl Pearson desarrolla el concepto de " contingencia " para determinar si los resultados son independientes de un factor categórico determinado. En este caso, la hipótesis nula es, por defecto, que dos cosas no están relacionadas (por ejemplo, la formación de cicatrices y las tasas de mortalidad por viruela). [7] La ​​hipótesis nula en este caso ya no es predicha por la teoría o la sabiduría convencional, sino que es el principio de indiferencia que llevó a Fisher y otros a descartar el uso de "probabilidades inversas". [8]

Orígenes modernos y controversia temprana

Las pruebas de significación modernas son en gran medida producto de Karl Pearson ( valor p , prueba de chi-cuadrado de Pearson ), William Sealy Gosset ( distribución t de Student ) y Ronald Fisher (" hipótesis nula ", análisis de varianza , " prueba de significancia ") , mientras que la prueba de hipótesis fue desarrollada por Jerzy Neyman y Egon Pearson (hijo de Karl). Ronald Fisher comenzó su vida en la estadística como bayesiano (Zabell 1992), pero pronto se desencantó de la subjetividad involucrada (es decir, el uso del principio de indiferencia al determinar probabilidades previas) y buscó proporcionar un enfoque más "objetivo" a la estadística inductiva. inferencia. [9]

Fisher enfatizó el diseño y los métodos experimentales rigurosos para extraer un resultado de unas pocas muestras asumiendo distribuciones gaussianas . Neyman (que se asoció con el joven Pearson) enfatizó el rigor matemático y los métodos para obtener más resultados de muchas muestras y una gama más amplia de distribuciones. La prueba de hipótesis moderna es un híbrido inconsistente de la formulación, los métodos y la terminología de Fisher vs Neyman/Pearson desarrollados a principios del siglo XX.

Fisher popularizó la "prueba de significancia". Requirió una hipótesis nula (correspondiente a una distribución de frecuencia poblacional) y una muestra. Sus (ahora familiares) cálculos determinaron si rechazar o no la hipótesis nula. Las pruebas de significancia no utilizaron una hipótesis alternativa, por lo que no existía el concepto de error de tipo II (falso negativo).

El valor p se ideó como un índice informal, pero objetivo, destinado a ayudar a un investigador a determinar (basándose en otros conocimientos) si modificar experimentos futuros o fortalecer la fe en la hipótesis nula. [10] Neyman y Pearson idearon la prueba de hipótesis (y los errores de tipo I/II) como una alternativa más objetiva al valor p de Fisher , que también pretendía determinar el comportamiento del investigador, pero sin requerir ninguna inferencia inductiva por parte del investigador. [11] [12]

Neyman y Pearson consideraron un problema diferente al de Fisher (al que llamaron "prueba de hipótesis"). Inicialmente consideraron dos hipótesis simples (ambas con distribuciones de frecuencia). Calcularon dos probabilidades y normalmente seleccionaron la hipótesis asociada con la probabilidad más alta (la hipótesis que tenía más probabilidades de haber generado la muestra). Su método siempre seleccionaba una hipótesis. También permitió el cálculo de ambos tipos de probabilidades de error.

Fisher y Neyman/Pearson se enfrentaron amargamente. Neyman/Pearson consideraron que su formulación era una generalización mejorada de las pruebas de significancia (el artículo definitorio [11] era abstracto ; los matemáticos han generalizado y refinado la teoría durante décadas [13] ). Fisher pensó que no era aplicable a la investigación científica porque muchas veces, durante el transcurso del experimento, se descubre que las suposiciones iniciales sobre la hipótesis nula son cuestionables debido a fuentes inesperadas de error. Creía que el uso de decisiones rígidas de rechazo/aceptación basadas en modelos formulados antes de que se recopilen los datos era incompatible con este escenario común que enfrentan los científicos y los intentos de aplicar este método a la investigación científica conducirían a una confusión masiva. [14]

La disputa entre Fisher y Neyman-Pearson se libró por motivos filosóficos, caracterizados por un filósofo como una disputa sobre el papel adecuado de los modelos en la inferencia estadística. [15]

Los acontecimientos intervinieron: Neyman aceptó un puesto en la Universidad de California, Berkeley en 1938, rompiendo su asociación con Pearson y separando a los litigantes (que habían ocupado el mismo edificio). La Segunda Guerra Mundial proporcionó un intermedio en el debate. La disputa entre Fisher y Neyman terminó (sin resolver después de 27 años) con la muerte de Fisher en 1962. Neyman escribió un panegírico bien considerado. [16] Algunas de las publicaciones posteriores de Neyman informaron valores p y niveles de significancia. [17]

La versión moderna de la prueba de hipótesis es un híbrido de los dos enfoques que resultó de la confusión entre los escritores de libros de texto de estadística (como lo predijo Fisher) a partir de la década de 1940 [18] (pero la detección de señales , por ejemplo, todavía usa la formulación de Neyman/Pearson). ). Se ignoraron grandes diferencias conceptuales y muchas advertencias además de las mencionadas anteriormente. Neyman y Pearson proporcionaron la terminología más sólida, las matemáticas más rigurosas y la filosofía más consistente, pero la materia que se enseña hoy en la introducción a la estadística tiene más similitudes con el método de Fisher que con el de ellos. [19]

En algún momento alrededor de 1940, [18] los autores de libros de texto de estadística comenzaron a combinar los dos enfoques utilizando el valor p en lugar de la estadística (o datos) de prueba para comparar con el "nivel de significancia" de Neyman-Pearson.


Filosofía

La prueba de hipótesis y la filosofía se cruzan. La estadística inferencial , que incluye la prueba de hipótesis, es probabilidad aplicada. Tanto la probabilidad como su aplicación están entrelazadas con la filosofía. El filósofo David Hume escribió: "Todo conocimiento degenera en probabilidad". Las definiciones prácticas opuestas de probabilidad reflejan diferencias filosóficas. La aplicación más común de la prueba de hipótesis es la interpretación científica de datos experimentales, que naturalmente es estudiada por la filosofía de la ciencia .

Fisher y Neyman se opusieron a la subjetividad de la probabilidad. Sus opiniones contribuyeron a las definiciones objetivas. El núcleo de su desacuerdo histórico era filosófico.

Muchas de las críticas filosóficas a las pruebas de hipótesis son discutidas por estadísticos en otros contextos, en particular la correlación no implica causalidad y el diseño de experimentos . La prueba de hipótesis sigue siendo de interés para los filósofos. [15] [20]

Educación

La estadística se enseña cada vez más en las escuelas y la prueba de hipótesis es uno de los elementos que se enseñan. [21] [22] Muchas conclusiones publicadas en la prensa popular (desde encuestas de opinión política hasta estudios médicos) se basan en estadísticas. Algunos escritores han afirmado que el análisis estadístico de este tipo permite pensar con claridad sobre los problemas que involucran datos masivos, así como el informe efectivo de tendencias e inferencias a partir de dichos datos, pero advierten que los escritores para un público amplio deben tener una comprensión sólida del campo. para utilizar correctamente los términos y conceptos. [23] [24] Una clase universitaria de introducción a la estadística pone mucho énfasis en la prueba de hipótesis, tal vez la mitad del curso. Campos como la literatura y la divinidad ahora incluyen hallazgos basados ​​en análisis estadísticos (ver Bible Analyser ). Una clase de introducción a la estadística enseña la prueba de hipótesis como un proceso de libro de cocina. La prueba de hipótesis también se enseña a nivel de posgrado. Los estadísticos aprenden a crear buenos procedimientos de prueba estadística (como z , t de Student , F y chi-cuadrado). La prueba de hipótesis estadísticas se considera un área madura dentro de la estadística, [25] pero continúa con un desarrollo limitado.

Un estudio académico afirma que el método del libro de recetas para enseñar estadística introductoria no deja tiempo para la historia, la filosofía o la controversia. La prueba de hipótesis se ha enseñado como método unificado recibido. Las encuestas mostraron que los graduados de la promoción estaban llenos de conceptos filosóficos erróneos (sobre todos los aspectos de la inferencia estadística) que persistían entre los profesores. [26] Si bien el problema se abordó hace más de una década, [27] y continúan los llamados a una reforma educativa, [28] los estudiantes todavía se gradúan de clases de estadística con conceptos erróneos fundamentales sobre la prueba de hipótesis. [29] Las ideas para mejorar la enseñanza de las pruebas de hipótesis incluyen alentar a los estudiantes a buscar errores estadísticos en artículos publicados, enseñar la historia de la estadística y enfatizar la controversia en un tema generalmente árido. [30]

Realización de una prueba de hipótesis frecuentista en la práctica.

Los pasos típicos involucrados en la realización de una prueba de hipótesis frecuentista en la práctica son:

  1. Definir una hipótesis (afirmación que sea comprobable utilizando datos).
  2. Seleccione una prueba estadística relevante con la estadística de prueba asociada T.
  3. Derive la distribución del estadístico de prueba bajo la hipótesis nula a partir de los supuestos. En casos estándar, este será un resultado bien conocido. Por ejemplo, el estadístico de prueba podría seguir una distribución t de Student con grados de libertad conocidos o una distribución normal con media y varianza conocidas.
  4. Seleccione un nivel de significancia ( α ), la tasa máxima aceptable de falsos positivos . Los valores comunes son 5% y 1%.
  5. Calcule a partir de las observaciones el valor observado t obs del estadístico de prueba T .
  6. Decide rechazar la hipótesis nula a favor de la alternativa o no rechazarla. La regla de decisión de Neyman-Pearson es rechazar la hipótesis nula H 0 si el valor observado t obs está en la región crítica, y no rechazar la hipótesis nula en caso contrario. [31]

Ejemplo práctico

La diferencia en los dos procesos aplicados al ejemplo de la maleta radiactiva (a continuación):

El primer informe es adecuado, el segundo explica más detalladamente los datos y el motivo por el que se revisa la maleta.

No rechazar la hipótesis nula no significa que la hipótesis nula sea "aceptada" per se (aunque Neyman y Pearson usaron esa palabra en sus escritos originales; consulte la sección de Interpretación).

Los procesos aquí descritos son perfectamente adecuados para el cálculo. Descuiden seriamente las consideraciones sobre el diseño de experimentos . [32] [33]

Es particularmente crítico que se estimen los tamaños de muestra apropiados antes de realizar el experimento.

La frase "prueba de significancia" fue acuñada por el estadístico Ronald Fisher . [34]

Interpretación

Cuando la hipótesis nula es verdadera y se cumplen los supuestos estadísticos, la probabilidad de que el valor p sea menor o igual al nivel de significancia es como máximo . Esto garantiza que la prueba de hipótesis mantenga su tasa de falsos positivos especificada (siempre que se cumplan los supuestos estadísticos). [35]

El valor p es la probabilidad de que un estadístico de prueba que sea al menos tan extremo como el obtenido ocurra bajo la hipótesis nula. Con un nivel de significancia de 0,05, se esperaría que una moneda justa rechazara (incorrectamente) la hipótesis nula (que es justa) en 1 de cada 20 pruebas en promedio. El valor p no proporciona la probabilidad de que la hipótesis nula o su opuesta sea correcta (una fuente común de confusión). [36]

Si el valor p es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está en la región crítica), entonces decimos que la hipótesis nula se rechaza en el nivel de significancia elegido. Si el valor p no es menor que el umbral de significancia elegido (de manera equivalente, si el estadístico de prueba observado está fuera de la región crítica), entonces la hipótesis nula no se rechaza en el nivel de significancia elegido.

En el ejemplo de la "señora probando té" (a continuación), Fisher pidió a la señora que clasificara adecuadamente todas las tazas de té para justificar la conclusión de que era poco probable que el resultado fuera fruto del azar. Su prueba reveló que si la dama efectivamente estaba adivinando al azar (la hipótesis nula), había un 1,4% de posibilidades de que ocurrieran los resultados observados (té perfectamente ordenado).

Uso e importancia

Las estadísticas son útiles para analizar la mayoría de las colecciones de datos. Esto es igualmente cierto en el caso de las pruebas de hipótesis, que pueden justificar conclusiones incluso cuando no existe una teoría científica. En el ejemplo de la Dama probando té, era "obvio" que no existía ninguna diferencia entre (leche vertida en té) y (té vertido en leche). Los datos contradecían lo "obvio".

Las aplicaciones del mundo real de las pruebas de hipótesis incluyen: [37]

La prueba de hipótesis estadísticas juega un papel importante en el conjunto de la estadística y en la inferencia estadística . Por ejemplo, Lehmann (1992) en una reseña del artículo fundamental de Neyman y Pearson (1933) dice: "Sin embargo, a pesar de sus deficiencias, el nuevo paradigma formulado en el artículo de 1933 y los muchos desarrollos llevados a cabo dentro de su marco continúan vigentes". desempeñan un papel central tanto en la teoría como en la práctica de la estadística y se puede esperar que lo hagan en el futuro previsible".

Las pruebas de significancia han sido la herramienta estadística favorita en algunas ciencias sociales experimentales (más del 90% de los artículos en el Journal of Applied Psychology a principios de los años 1990). [38] Otros campos han favorecido la estimación de parámetros (por ejemplo, tamaño del efecto ). Las pruebas de significancia se utilizan como sustituto de la comparación tradicional del valor predicho y el resultado experimental en el centro del método científico . Cuando la teoría sólo es capaz de predecir el signo de una relación, se puede configurar una prueba de hipótesis direccional (unilateral) de modo que sólo un resultado estadísticamente significativo respalde la teoría. Esta forma de evaluación teórica es la aplicación más criticada de la prueba de hipótesis.

Precauciones

"Si el gobierno exigiera que los procedimientos estadísticos llevaran etiquetas de advertencia como las de las drogas, la mayoría de los métodos de inferencia tendrían etiquetas realmente largas". [39] Esta precaución se aplica a las pruebas de hipótesis y sus alternativas.

La prueba de hipótesis exitosa está asociada con una probabilidad y una tasa de error tipo I. La conclusión podría ser errónea.

La conclusión de la prueba es tan sólida como la muestra en la que se basa. El diseño del experimento es fundamental. Se han observado una serie de efectos inesperados que incluyen:

Un análisis estadístico de datos engañosos produce conclusiones engañosas. La cuestión de la calidad de los datos puede ser más sutil. En la elaboración de pronósticos , por ejemplo, no hay acuerdo sobre una medida de precisión del pronóstico. En ausencia de una medición consensuada, ninguna decisión basada en mediciones estará exenta de controversia.

Sesgo de publicación: Es posible que sea menos probable que se publiquen resultados estadísticamente no significativos, lo que puede sesgar la literatura.

Pruebas múltiples: cuando se realizan múltiples pruebas de hipótesis nulas verdaderas a la vez sin ajuste, la probabilidad general de error Tipo I es mayor que el nivel alfa nominal. [40]

Quienes toman decisiones críticas basándose en los resultados de una prueba de hipótesis son prudentes al observar los detalles en lugar de la conclusión únicamente. En las ciencias físicas, la mayoría de los resultados sólo se aceptan plenamente cuando se confirman de forma independiente. El consejo general en materia de estadística es: "Las cifras nunca mienten, pero los mentirosos calculan" (anónimo).

Definición de términos

Las siguientes definiciones se basan principalmente en la exposición del libro de Lehmann y Romano: [35]

Supongamos que los datos se pueden obtener a partir de una distribución N (0,1). Por ejemplo, con un nivel de significancia elegido α = 0,05, de la tabla Z, se puede obtener un valor crítico de una cola de aproximadamente 1,645. El valor crítico de una cola C α ≈ 1,645 corresponde al nivel de significancia elegido. La región crítica [C α , ∞) se realiza como la cola de la distribución normal estándar.

Una prueba de hipótesis estadística compara una estadística de prueba ( zot por ejemplo ) con un umbral. El estadístico de prueba (la fórmula que se encuentra en la siguiente tabla) se basa en la optimización. Para un nivel fijo de tasa de error de Tipo I, el uso de estas estadísticas minimiza las tasas de error de Tipo II (equivalente a maximizar la potencia). Los siguientes términos describen las pruebas en términos de dicha optimización:

Prueba de hipótesis de arranque no paramétrica

Los métodos de remuestreo basados ​​en Bootstrap se pueden utilizar para probar la hipótesis nula. Un bootstrap crea numerosas muestras simuladas remuestreando aleatoriamente (con reemplazo) los datos de muestra originales combinados, asumiendo que la hipótesis nula es correcta. El bootstrap es muy versátil ya que no tiene distribución y no se basa en supuestos paramétricos restrictivos, sino en métodos empíricos aproximados con garantías asintóticas. Las pruebas de hipótesis paramétricas tradicionales son más eficientes desde el punto de vista computacional, pero parten de suposiciones estructurales más sólidas. En situaciones en las que calcular la probabilidad de la estadística de prueba bajo la hipótesis nula es difícil o imposible (quizás debido a inconvenientes o falta de conocimiento de la distribución subyacente), el bootstrap ofrece un método viable para la inferencia estadística. [42] [43] [44] [45]

Ejemplos

Proporción de sexos humanos

El primer uso de pruebas de hipótesis estadísticas generalmente se atribuye a la cuestión de si los nacimientos masculinos y femeninos son igualmente probables (hipótesis nula), que fue abordada en el siglo XVIII por John Arbuthnot (1710), [46] y más tarde por Pierre-Simon Laplace. (década de 1770). [47]

Arbuthnot examinó los registros de nacimiento en Londres para cada uno de los 82 años comprendidos entre 1629 y 1710, y aplicó la prueba de signos , una prueba simple no paramétrica . [48] ​​[49] [50] Cada año, el número de hombres nacidos en Londres superó el número de mujeres. Considerando que más nacimientos de hombres o más nacimientos de mujeres son igualmente probables, la probabilidad del resultado observado es 0,5 82 , o alrededor de 1 en 4.836.000.000.000.000.000.000.000; en términos modernos, este es el valor p . Arbuthnot concluyó que esto es demasiado pequeño para deberse al azar y, en cambio, debe deberse a la divina providencia: "De donde se sigue que es el arte, no el azar, el que gobierna". En términos modernos, rechazó la hipótesis nula de que los nacimientos masculinos y femeninos son igualmente probables en el nivel de significancia p  = 1/2 82 .

Laplace consideró las estadísticas de casi medio millón de nacimientos. Las estadísticas muestran un exceso de niños respecto de niñas. [5] [51] Mediante el cálculo de un valor p , concluyó que el exceso era un efecto real, pero inexplicable. [52]

Señora degustando té

En un famoso ejemplo de prueba de hipótesis, conocido como la Dama probando el té , [53] la Dra. Muriel Bristol , colega de Fisher, afirmó ser capaz de decir si el té o la leche se añadían primero a una taza. Fisher propuso darle ocho tazas, cuatro de cada variedad, en orden aleatorio. Entonces se podría preguntar cuál era la probabilidad de que obtuviera el número correcto, pero sólo por casualidad. La hipótesis nula era que la Dama no tenía tal habilidad. La estadística de la prueba fue un simple recuento del número de éxitos en la selección de las 4 tazas. La región crítica fue el caso único de 4 éxitos de 4 posibles según un criterio de probabilidad convencional (< 5%). Un patrón de 4 aciertos corresponde a 1 de 70 combinaciones posibles (p≈ 1,4%). Fisher afirmó que (nunca) se requirió ninguna hipótesis alternativa. La señora identificó correctamente cada taza, [54] lo que se consideraría un resultado estadísticamente significativo.

Juicio en la sala del tribunal

Un procedimiento de prueba estadística es comparable a un proceso penal ; un acusado se considera inocente mientras no se pruebe su culpabilidad. El fiscal intenta probar la culpabilidad del acusado. Sólo cuando hay pruebas suficientes para la acusación se condena al acusado.

Al inicio del procedimiento se plantean dos hipótesis : "el acusado no es culpable" y "el acusado es culpable". La primera, se llama hipótesis nula . La segunda, se llama hipótesis alternativa . Es la hipótesis alternativa la que se espera apoyar.

La hipótesis de la inocencia se rechaza sólo cuando un error es muy improbable, porque no se quiere condenar a un acusado inocente. Tal error se llama error del primer tipo (es decir, la condena de una persona inocente), y se controla que su ocurrencia sea rara. Como consecuencia de este comportamiento asimétrico, es más común un error del segundo tipo (absolución de la persona que cometió el delito).

Un juicio penal puede considerarse como uno o ambos de dos procesos de decisión: culpable versus no culpable o evidencia versus un umbral ("más allá de toda duda razonable"). Según una opinión, el acusado es juzgado; en el otro, se juzga la actuación de la acusación (que soporta la carga de la prueba). Una prueba de hipótesis puede considerarse como un juicio de una hipótesis o como un juicio de evidencia.

frijoles filosofales

El siguiente ejemplo fue elaborado por un filósofo que describió métodos científicos generaciones antes de que se formalizara y popularizara la prueba de hipótesis. [55]

Pocos frijoles de este puñado son blancos.
La mayoría de los frijoles de esta bolsa son blancos.
Por lo tanto: Probablemente estos frijoles fueron sacados de otra bolsa.
Ésta es una inferencia hipotética.

Los frijoles en la bolsa son la población. Los pocos son la muestra. La hipótesis nula es que la muestra se originó a partir de la población. El criterio para rechazar la hipótesis nula es la diferencia "obvia" en apariencia (una diferencia informal en la media). El resultado interesante es que la consideración de una población real y una muestra real produjo una bolsa imaginaria. El filósofo estaba considerando la lógica más que la probabilidad. Para ser una prueba de hipótesis estadística real, este ejemplo requiere las formalidades de un cálculo de probabilidad y una comparación de esa probabilidad con un estándar.

Una generalización simple del ejemplo considera una bolsa mixta de frijoles y un puñado que contiene muy pocos o muchos frijoles blancos. La generalización considera ambos extremos. Se requieren más cálculos y más comparaciones para llegar a una respuesta formal, pero la filosofía central no ha cambiado; Si la composición del puñado es muy diferente de la de la bolsa, entonces la muestra probablemente procedía de otra bolsa. El ejemplo original se denomina prueba unilateral o de una cola, mientras que la generalización se denomina prueba bilateral o de dos colas.

La afirmación también se basa en la inferencia de que el muestreo fue aleatorio. Si alguien hubiera estado rebuscando en la bolsa para encontrar frijoles blancos, entonces eso explicaría por qué el puñado tenía tantos frijoles blancos, y también explicaría por qué se agotó el número de frijoles blancos en la bolsa (aunque probablemente se suponga que la bolsa mucho más grande que la mano).

Juego de cartas clarividente

A una persona (el sujeto) se le realiza una prueba de clarividencia . Se les muestra el reverso de una carta elegida al azar 25 veces y se les pregunta a cuál de los cuatro palos pertenece. El número de aciertos, o respuestas correctas, se llama X.

Mientras intentamos encontrar pruebas de su clarividencia, por el momento la hipótesis nula es que la persona no es clarividente. [56] La alternativa es: la persona es (más o menos) clarividente.

Si la hipótesis nula es válida, lo único que la persona que realiza la prueba puede hacer es adivinar. Para cada carta, la probabilidad (frecuencia relativa) de que aparezca un solo palo es 1/4. Si la alternativa es válida, el sujeto de prueba predecirá el palo correctamente con una probabilidad mayor que 1/4. A la probabilidad de acertar la llamaremos p . Las hipótesis entonces son:

y

Cuando el sujeto de prueba predice correctamente las 25 cartas, lo consideraremos clarividente y rechazaremos la hipótesis nula. Así también con 24 o 23 aciertos. Con sólo 5 o 6 aciertos, en cambio, no hay motivo para considerarlos así. Pero ¿qué pasa con 12 o 17 aciertos? ¿Cuál es el número crítico, c , de aciertos en el que consideramos que el sujeto es clarividente? ¿ Cómo determinamos el valor crítico c ? Con la opción c =25 (es decir, sólo aceptamos la clarividencia cuando todas las cartas se predicen correctamente) somos más críticos que con c =10. En el primer caso, casi ningún sujeto será reconocido como clarividente; en el segundo caso, un cierto número aprobará la prueba. En la práctica, uno decide hasta qué punto será crítico. Es decir, uno decide con qué frecuencia se acepta un error del primer tipo: un falso positivo o error de Tipo I. Con c = 25 la probabilidad de tal error es:

,

y por tanto, muy pequeño. La probabilidad de un falso positivo es la probabilidad de acertar aleatoriamente las 25 veces.

Al ser menos crítico, con c = 10, se obtiene:

.

Por tanto, c = 10 produce una probabilidad mucho mayor de falso positivo.

Antes de realizar la prueba, se determina la probabilidad máxima aceptable de un error de tipo I ( α ). Normalmente, se seleccionan valores en el rango del 1% al 5%. (Si la tasa de error máxima aceptable es cero, se requiere un número infinito de conjeturas correctas). Dependiendo de esta tasa de error Tipo 1, se calcula el valor crítico c . Por ejemplo, si seleccionamos una tasa de error del 1%, c se calcula así:

.

De todos los números c, con esta propiedad, elegimos el más pequeño, con el fin de minimizar la probabilidad de un error de Tipo II, un falso negativo . Para el ejemplo anterior, seleccionamos: .

Variaciones y subclases

La prueba de hipótesis estadística es una técnica clave tanto de la inferencia frecuentista como de la inferencia bayesiana , aunque los dos tipos de inferencia tienen diferencias notables. Las pruebas de hipótesis estadísticas definen un procedimiento que controla (fija) la probabilidad de decidir incorrectamente que una posición predeterminada ( hipótesis nula ) es incorrecta. El procedimiento se basa en la probabilidad de que ocurra un conjunto de observaciones si la hipótesis nula fuera cierta. Esta probabilidad de tomar una decisión incorrecta no es la probabilidad de que la hipótesis nula sea verdadera, ni de si alguna hipótesis alternativa específica es verdadera. Esto contrasta con otras posibles técnicas de la teoría de la decisión en las que la hipótesis nula y la alternativa se tratan de forma más equitativa.

Un enfoque bayesiano ingenuo para la prueba de hipótesis es basar las decisiones en la probabilidad posterior , [57] [58] pero esto falla al comparar hipótesis puntuales y continuas. Otros enfoques para la toma de decisiones, como la teoría de la decisión bayesiana , intentan equilibrar las consecuencias de decisiones incorrectas entre todas las posibilidades, en lugar de concentrarse en una única hipótesis nula. Hay otros enfoques disponibles para llegar a una decisión basada en datos a través de la teoría de la decisión y las decisiones óptimas , algunos de los cuales tienen propiedades deseables. Sin embargo, la prueba de hipótesis es un enfoque dominante para el análisis de datos en muchos campos de la ciencia. Las extensiones de la teoría de la prueba de hipótesis incluyen el estudio del poder de las pruebas, es decir, la probabilidad de rechazar correctamente la hipótesis nula dado que es falsa. Estas consideraciones pueden utilizarse para determinar el tamaño de la muestra antes de la recopilación de datos.

Prueba de hipótesis de Neyman-Pearson

Se puede crear un ejemplo de prueba de hipótesis de Neyman-Pearson (o prueba de significación estadística de hipótesis nula) cambiando el ejemplo de la maleta radiactiva. Si la "maleta" es en realidad un contenedor blindado para el transporte de material radiactivo, entonces se podría utilizar una prueba para seleccionar entre tres hipótesis: ninguna fuente radiactiva presente, una presente, dos (todas) presentes. La prueba podría ser necesaria por motivos de seguridad, con acciones requeridas en cada caso. El lema de Neyman-Pearson de prueba de hipótesis dice que un buen criterio para la selección de hipótesis es la razón de sus probabilidades (una razón de verosimilitud ). Un método sencillo de solución consiste en seleccionar la hipótesis con mayor probabilidad para los recuentos de Geiger observados. El resultado típico coincide con la intuición: pocos recuentos implican ninguna fuente, muchos recuentos implican dos fuentes y los recuentos intermedios implican una fuente. Tenga en cuenta también que normalmente hay problemas para demostrar una negativa . Las hipótesis nulas deberían ser al menos falsables .

La teoría de Neyman-Pearson puede acomodar tanto las probabilidades previas como los costos de las acciones resultantes de las decisiones. [59] El primero permite que cada prueba considere los resultados de pruebas anteriores (a diferencia de las pruebas de significancia de Fisher). Este último permite considerar cuestiones económicas (por ejemplo) así como probabilidades. Una razón de verosimilitud sigue siendo un buen criterio para seleccionar entre hipótesis.

Las dos formas de prueba de hipótesis se basan en diferentes formulaciones de problemas. La prueba original es análoga a una pregunta de verdadero/falso; la prueba de Neyman-Pearson se parece más a una opción múltiple. En opinión de Tukey [60] el primero produce una conclusión basándose únicamente en pruebas sólidas, mientras que el segundo produce una decisión sobre la base de las pruebas disponibles. Si bien las dos pruebas parecen bastante diferentes tanto matemática como filosóficamente, desarrollos posteriores llevan a la afirmación opuesta. Consideremos muchas fuentes radiactivas diminutas. Las hipótesis se convierten en 0,1,2,3... granos de arena radiactiva. Hay poca distinción entre nada o algo de radiación (Fisher) y 0 granos de arena radiactiva frente a todas las alternativas (Neyman-Pearson). El principal artículo de Neyman-Pearson de 1933 [11] también consideró hipótesis compuestas (aquellas cuya distribución incluye un parámetro desconocido). Un ejemplo demostró la optimización de la prueba t (de Student) : "no puede haber una prueba mejor para la hipótesis bajo consideración" (p. 321). La teoría de Neyman-Pearson estaba demostrando la optimización de los métodos de Fisher desde sus inicios.

La prueba de significación de Fisher ha demostrado ser una herramienta estadística popular y flexible en aplicaciones con poco potencial de crecimiento matemático. La prueba de hipótesis de Neyman-Pearson se considera un pilar de la estadística matemática, [61] creando un nuevo paradigma para este campo. También estimuló nuevas aplicaciones en control de procesos estadísticos , teoría de detección , teoría de decisiones y teoría de juegos . Ambas formulaciones han tenido éxito, pero los éxitos han sido de carácter diferente.

La disputa sobre las formulaciones sigue sin resolverse. La ciencia utiliza principalmente la formulación de Fisher (ligeramente modificada) tal como se enseña en la introducción a la estadística. Los estadísticos estudian la teoría de Neyman-Pearson en la escuela de posgrado. Los matemáticos están orgullosos de unir las formulaciones. Los filósofos los consideran por separado. Las opiniones eruditas consideran que las formulaciones son competitivas (Fisher vs Neyman), incompatibles [9] o complementarias. [13] La disputa se ha vuelto más compleja desde que la inferencia bayesiana ha alcanzado respetabilidad.

La terminología es inconsistente. La prueba de hipótesis puede significar cualquier combinación de dos formulaciones que cambiaron con el tiempo. Cualquier discusión sobre pruebas de significancia versus pruebas de hipótesis es doblemente vulnerable a la confusión.

Fisher pensaba que las pruebas de hipótesis eran una estrategia útil para realizar el control de calidad industrial; sin embargo, no estaba de acuerdo con que las pruebas de hipótesis pudieran ser útiles para los científicos. [10] La prueba de hipótesis proporciona un medio para encontrar estadísticas de prueba utilizadas en las pruebas de significancia. [13] El concepto de poder es útil para explicar las consecuencias de ajustar el nivel de significancia y se utiliza mucho en la determinación del tamaño de la muestra . Los dos métodos siguen siendo filosóficamente distintos. [15] Por lo general (pero no siempre ) producen la misma respuesta matemática. La respuesta preferida depende del contexto. [13] Si bien la fusión existente de las teorías de Fisher y Neyman-Pearson ha sido fuertemente criticada, se ha considerado modificar la fusión para lograr los objetivos bayesianos. [62]

Crítica

Las críticas a las pruebas de hipótesis estadísticas llenan volúmenes. [63] [64] [65] [66] [67] [68] Gran parte de las críticas se pueden resumir en las siguientes cuestiones:

Los críticos y partidarios coinciden en gran medida en los hechos con respecto a las características de la prueba de significancia de hipótesis nula (NHST): si bien puede proporcionar información crítica, es inadecuada como única herramienta para el análisis estadístico . Rechazar con éxito la hipótesis nula puede no ofrecer apoyo a la hipótesis de investigación. La continua controversia se refiere a la selección de las mejores prácticas estadísticas para el futuro cercano, dadas las prácticas existentes. Sin embargo, un diseño de investigación adecuado puede minimizar este problema. Los críticos preferirían prohibir completamente el NHST, lo que obligaría a abandonar por completo esas prácticas, [80] mientras que los partidarios sugieren un cambio menos absoluto. [ cita necesaria ]

La controversia sobre las pruebas de significancia y sus efectos sobre el sesgo de publicación en particular ha producido varios resultados. La Asociación Estadounidense de Psicología ha reforzado sus requisitos de presentación de informes estadísticos después de la revisión, [81] los editores de revistas médicas han reconocido la obligación de publicar algunos resultados que no son estadísticamente significativos para combatir el sesgo de publicación, [82] y una revista ( Journal of Articles in Support of la Hipótesis Nula ) ha sido creado para publicar dichos resultados exclusivamente. [83] Los libros de texto han agregado algunas precauciones, [84] y han aumentado la cobertura de las herramientas necesarias para estimar el tamaño de la muestra necesaria para producir resultados significativos. Pocas organizaciones importantes han abandonado el uso de pruebas de significancia, aunque algunas han discutido hacerlo. [81] Por ejemplo, en 2023, los editores del Journal of Physiology "recomiendan encarecidamente el uso de métodos de estimación para quienes publican en The Journal" (es decir, la magnitud del tamaño del efecto (para permitir a los lectores juzgar si un hallazgo tiene efectos prácticos). , fisiológica o clínica) e intervalos de confianza para transmitir la precisión de esa estimación), diciendo: "En última instancia, es la importancia fisiológica de los datos lo que más debería preocupar a quienes publican en The Journal of Physiology, en lugar de la significación estadística". ". [85]

Alternativas

Una posición unificadora de los críticos es que las estadísticas no deberían conducir a una conclusión o decisión de aceptar o rechazar, sino a un valor estimado con una estimación de intervalo ; Esta filosofía de análisis de datos se conoce en términos generales como estadística de estimación . Las estadísticas de estimación se pueden lograr con métodos frecuentistas [1] o bayesianos. [86] [87]

Los críticos de las pruebas de significancia han abogado por basar la inferencia menos en los valores p y más en los intervalos de confianza para los tamaños del efecto para la importancia, los intervalos de predicción para la confianza, las replicaciones y extensiones para la replicabilidad, y los metanálisis para la generalidad: [88] . Pero ninguna de estas alternativas sugeridas produce inherentemente una decisión. Lehmann dijo que la teoría de la prueba de hipótesis se puede presentar en términos de conclusiones/decisiones, probabilidades o intervalos de confianza: "La distinción entre los... enfoques es en gran medida una cuestión de informe e interpretación". [25]

La inferencia bayesiana es una alternativa propuesta a las pruebas de significancia. (Nickerson citó 10 fuentes que lo sugerían, incluido Rozeboom (1960)). [78] Por ejemplo, la estimación de parámetros bayesianos puede proporcionar información rica sobre los datos a partir de los cuales los investigadores pueden sacar inferencias, al tiempo que utiliza antecedentes inciertos que ejercen sólo una influencia mínima en los resultados cuando hay suficientes datos disponibles. El psicólogo John K. Kruschke ha sugerido la estimación bayesiana como una alternativa para la prueba t [86] y también ha contrastado la estimación bayesiana para evaluar valores nulos con la comparación de modelos bayesianos para la prueba de hipótesis. [87] Se pueden comparar dos modelos/hipótesis en competencia utilizando factores de Bayes . [89] Los métodos bayesianos podrían criticarse por requerir información que rara vez está disponible en los casos en los que se utilizan más pruebas de significación. Ni las probabilidades previas ni la distribución de probabilidad del estadístico de prueba bajo la hipótesis alternativa suelen estar disponibles en las ciencias sociales. [78]

Los defensores del enfoque bayesiano a veces afirman que el objetivo de un investigador suele ser evaluar objetivamente la probabilidad de que una hipótesis sea cierta en función de los datos que han recopilado. [90] [91] Ni las pruebas de significación de Fisher ni las pruebas de hipótesis de Neyman-Pearson pueden proporcionar esta información, ni pretenden hacerlo. La probabilidad de que una hipótesis sea verdadera sólo puede derivarse del uso del teorema de Bayes , que fue insatisfactorio tanto para el campo de Fisher como para el de Neyman-Pearson debido al uso explícito de la subjetividad en la forma de probabilidad previa . [11] [92] La estrategia de Fisher es evitar esto con el valor p (un índice objetivo basado únicamente en los datos) seguido de una inferencia inductiva , mientras que Neyman-Pearson ideó su enfoque de comportamiento inductivo .

Ver también

Referencias

  1. ^ Lewis, Nancy D.; Lewis, Nigel Da Costa; Lewis, Dakota del Norte (2013). 100 pruebas estadísticas en R: qué elegir, cómo calcular fácilmente, con más de 300 ilustraciones y ejemplos. Prensa de Heather Hills. ISBN 978-1-4840-5299-0.
  2. ^ Kanji, Gopal K. (18 de julio de 2006). 100 pruebas estadísticas. SABIO. ISBN 978-1-4462-2250-8.
  3. ^ Bellhouse, P. (2001), "John Arbuthnot", en Estadísticos de los siglos por CC Heyde y E. Seneta , Springer, págs. 39-42, ISBN 978-0-387-95329-8
  4. ^ Meehl, P (1990). "Evaluación y modificación de teorías: la estrategia de la defensa lakatosiana y dos principios que la justifican" (PDF) . Consulta Psicológica . 1 (2): 108–141. doi :10.1207/s15327965pli0102_1.
  5. ^ ab Laplace, P. (1778). "Mémoire sur les probabilités" (PDF) . Mémoires de l'Académie Royale des Sciences de París . 9 : 227–332. Archivado desde el original (PDF) el 27 de abril de 2015 . Consultado el 5 de septiembre de 2013 .
  6. ^ Pearson, K (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que se puede suponer razonablemente que surgió de un muestreo aleatorio" (PDF) . Revista filosófica y revista científica de Londres, Edimburgo y Dublín . 5 (50): 157-175. doi :10.1080/14786440009463897.
  7. ^ Pearson, K (1904). "Sobre la teoría de la contingencia y su relación con la asociación y correlación normal". Serie biométrica de memorias de investigación de Drapers' Company . 1 : 1–35.
  8. ^ Zabell, S (1989). "RA Fisher sobre la historia de la probabilidad inversa". Ciencia estadística . 4 (3): 247–256. doi : 10.1214/ss/1177012488 . JSTOR  2245634.
  9. ^ ab Raymond Hubbard, MJ Bayarri , Los valores P no son probabilidades de error Archivado el 4 de septiembre de 2013 en Wayback Machine . Un documento de trabajo que explica la diferencia entre el valor p probatorio de Fisher y la tasa de error tipo I de Neyman-Pearson .
  10. ^ ab Fisher, R (1955). «Métodos estadísticos e inducción científica» (PDF) . Revista de la Royal Statistical Society, Serie B. 17 (1): 69–78.
  11. ^ abcd Neyman, J; Pearson, ES (1 de enero de 1933). "Sobre el problema de las pruebas de hipótesis estadísticas más eficientes". Transacciones filosóficas de la Royal Society A. 231 (694–706): 289–337. Código Bib : 1933RSPTA.231..289N. doi : 10.1098/rsta.1933.0009 .
  12. ^ Goodman, SN (15 de junio de 1999). "Hacia estadísticas médicas basadas en evidencia. 1: La falacia del valor P". Ann Intern Med . 130 (12): 995–1004. doi :10.7326/0003-4819-130-12-199906150-00008. PMID  10383371. S2CID  7534212.
  13. ^ abcd Lehmann, EL (diciembre de 1993). "Las teorías de Fisher, Neyman-Pearson sobre la prueba de hipótesis: ¿una teoría o dos?". Revista de la Asociación Estadounidense de Estadística . 88 (424): 1242-1249. doi :10.1080/01621459.1993.10476404.
  14. ^ Pescador, enfermera registrada (1958). "La naturaleza de la probabilidad" (PDF) . Revisión del centenario . 2 : 261–274. Corremos el peligro de enviar al mundo a jóvenes altamente capacitados y muy inteligentes con tablas de números erróneos bajo el brazo y con una densa niebla en el lugar donde debería estar su cerebro. En este siglo, por supuesto, trabajarán en misiles guiados y asesorarán a la profesión médica sobre el control de enfermedades, y no hay límite en la medida en que podrían impedir todo tipo de esfuerzo nacional.
  15. ^ abc Lenhard, Johannes (2006). "Modelos e inferencia estadística: la controversia entre Fisher y Neyman-Pearson". Hno. J. Filos. Ciencia . 57 : 69–91. doi : 10.1093/bjps/axi152. S2CID  14136146.
  16. ^ Neyman, Jerzy (1967). "RA Fisher (1890-1962): un agradecimiento". Ciencia . 156 (3781): 1456-1460. Código bibliográfico : 1967 Ciencia... 156.1456N. doi : 10.1126/ciencia.156.3781.1456. PMID  17741062. S2CID  44708120.
  17. ^ Losavich, JL; Neyman, J.; Scott, EL; Wells, MA (1971). "Explicaciones hipotéticas de los efectos negativos aparentes de la siembra de nubes en el experimento Whitetop". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 68 (11): 2643–2646. Código bibliográfico : 1971PNAS...68.2643L. doi : 10.1073/pnas.68.11.2643 . PMC 389491 . PMID  16591951. 
  18. ^ ab Halpin, PF; Stam, HJ (invierno de 2006). "Inferencia inductiva o comportamiento inductivo: Fisher y Neyman: enfoques de Pearson para las pruebas estadísticas en la investigación psicológica (1940-1960)". La Revista Estadounidense de Psicología . 119 (4): 625–653. doi :10.2307/20445367. JSTOR  20445367. PMID  17286092.
  19. ^ Gigerenzer, Gerd; Zenón Swijtink; Teodoro Porter; Lorena Daston; John Beatty; Lorenz Kruger (1989). "Parte 3: Los expertos en inferencias". El imperio del azar: cómo la probabilidad cambió la ciencia y la vida cotidiana . Prensa de la Universidad de Cambridge. págs. 70-122. ISBN 978-0-521-39838-1.
  20. ^ Mayo, director general; Spanos, A. (2006). "Pruebas severas como concepto básico en la filosofía de inducción de Neyman-Pearson". La Revista Británica de Filosofía de la Ciencia . 57 (2): 323–357. CiteSeerX 10.1.1.130.8131 . doi :10.1093/bjps/axl003. S2CID  7176653. 
  21. ^ Matemáticas> Escuela secundaria: estadística y probabilidad> Introducción Archivado el 28 de julio de 2012 en archive.today Iniciativa de estándares estatales básicos comunes (se relaciona con estudiantes de EE. UU.)
  22. ^ Pruebas del College Board> AP: Materias> Estadísticas The College Board (se relaciona con estudiantes de EE. UU.)
  23. ^ Huff, Darrell (1993). Cómo mentir con las estadísticas. Nueva York: Norton. pag. 8.ISBN 978-0-393-31072-6.'Los métodos estadísticos y los términos estadísticos son necesarios para informar los datos masivos de las tendencias sociales y económicas, las condiciones comerciales, las encuestas de "opinión", el censo. Pero sin escritores que utilicen las palabras con honestidad y lectores que sepan lo que significan, el resultado sólo puede ser un disparate semántico.'
  24. ^ Snedecor, George W.; Cochran, William G. (1967). Métodos estadísticos (6 ed.). Ames, Iowa: Prensa de la Universidad Estatal de Iowa. pag. 3."...las ideas básicas de la estadística nos ayudan a pensar con claridad sobre el problema, nos proporcionan cierta orientación sobre las condiciones que deben cumplirse para hacer inferencias sólidas y nos permiten detectar muchas inferencias que no tienen una buena base lógica. "
  25. ^ ab EL Lehmann (1997). "Prueba de hipótesis estadísticas: la historia de un libro". Ciencia estadística . 12 (1): 48–52. doi : 10.1214/ss/1029963261 .
  26. ^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patricio (2007). "Conceptos erróneos de los estudiantes sobre la inferencia estadística: una revisión de la evidencia empírica de la investigación sobre educación estadística" (PDF) . Revisión de investigaciones educativas . 2 (2): 98-113. doi :10.1016/j.edurev.2007.04.001.
  27. ^ Moore, David S. (1997). «Nueva Pedagogía y Nuevos Contenidos: El Caso de la Estadística» (PDF) . Revista estadística internacional . 65 (2): 123–165. doi :10.2307/1403333. JSTOR  1403333.
  28. ^ Hubbard, Raymond; Armstrong, J. Scott (2006). "Por qué no sabemos realmente qué significa la importancia estadística: implicaciones para los educadores". Revista de educación en marketing . 28 (2): 114-120. doi :10.1177/0273475306288399. hdl : 2092/413 . S2CID  34729227.
  29. ^ Sotos, Ana Elisa Castro; Vanhoof, Stijn; Noortgate, Wim Van den; Onghena, Patricio (2009). "¿Qué confianza tienen los estudiantes en sus ideas erróneas sobre las pruebas de hipótesis?". Revista de Educación Estadística . 17 (2). doi : 10.1080/10691898.2009.11889514 .
  30. ^ Gigerenzer, G. (2004). "El ritual nulo Lo que siempre quiso saber sobre las pruebas importantes pero tuvo miedo de preguntar" (PDF) . El manual SAGE de metodología cuantitativa para las ciencias sociales . págs. 391–408. doi :10.4135/9781412986311. ISBN 9780761923596.
  31. ^ "Prueba de hipótesis estadísticas". Textos Springer en Estadística . 2005. doi :10.1007/0-387-27605-x. ISBN 978-0-387-98864-1. ISSN  1431-875X.
  32. ^ Hinkelmann, Klaus; Kempthorne, Óscar (2008). Diseño y análisis de experimentos . vol. I y II (Segunda ed.). Wiley. ISBN 978-0-470-38551-7.
  33. ^ Montgomery, Douglas (2009). Diseño y análisis de experimentos . Hoboken, Nueva Jersey: Wiley. ISBN 978-0-470-12866-4.
  34. ^ RA Fisher (1925). Métodos estadísticos para investigadores , Edimburgo: Oliver y Boyd, 1925, p.43.
  35. ^ ab Lehmann, EL; Romano, José P. (2005). Prueba de hipótesis estadísticas (3E ed.). Nueva York: Springer. ISBN 978-0-387-98864-1.
  36. ^ Nuzzo, Regina (2014). "Método científico: errores estadísticos". Naturaleza . 506 (7487): 150–152. Código Bib :2014Natur.506..150N. doi : 10.1038/506150a . PMID  24522584.
  37. ^ Richard J. Larsen; Donna Fox Stroup (1976). Estadísticas en el mundo real: un libro de ejemplos . Macmillan. ISBN 978-0023677205.
  38. ^ Hubbard, R.; Parsa, AR; Luthy, señor (1997). "La difusión de las pruebas de significación estadística en psicología: el caso de la Revista de Psicología Aplicada". Teoría y Psicología . 7 (4): 545–554. doi :10.1177/0959354397074006. S2CID  145576828.
  39. ^ Moore, David (2003). Introducción a la práctica de la estadística . Nueva York: WH Freeman and Co. p. 426.ISBN 9780716796572.
  40. ^ Ranganathan, Priya; Pramesh, CS; Buyse, Marc (abril-junio de 2016). "Errores comunes en el análisis estadístico: los peligros de las pruebas múltiples". Perspectiva Clin Res . 7 (2): 106–107. doi : 10.4103/2229-3485.179436 . PMC 4840791 . PMID  27141478. 
  41. ^ Hughes, Ann J.; Grawoig, Dennis E. (1971). Estadísticas: una base para el análisis . Lectura, Massachusetts: Addison-Wesley. pag. 191.ISBN 0-201-03021-7.
  42. ^ Hall, P. y Wilson, SR, 1991. Dos pautas para las pruebas de hipótesis de arranque. Biometría, págs.757-762.
  43. ^ Tibshirani, RJ y Efron, B., 1993. Una introducción al bootstrap. Monografías sobre estadística y probabilidad aplicada, 57(1).
  44. ^ Martin, MA, 2007. Prueba de hipótesis Bootstrap para algunos problemas estadísticos comunes: una evaluación crítica de las propiedades de tamaño y potencia. Estadística computacional y análisis de datos, 51 (12), páginas 6321-6342.
  45. ^ Horowitz, JL, 2019. Métodos bootstrap en econometría. Revista Anual de Economía, 11, páginas 193-224. Soy
  46. ^ Juan Arbuthnot (1710). «Un argumento a favor de la Divina Providencia, tomado de la constante regularidad que se observa en los nacimientos de ambos sexos» (PDF) . Transacciones filosóficas de la Royal Society de Londres . 27 (325–336): 186–190. doi : 10.1098/rstl.1710.0011 . S2CID  186209819.
  47. ^ Brian, Éric; Jaisson, María (2007). "Físico-Teología y Matemáticas (1710-1794)". El descenso de la proporción de sexos humanos al nacer . Medios de ciencia y negocios de Springer. págs. 1–25. ISBN 978-1-4020-6036-6.
  48. ^ Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Estadística práctica no paramétrica (tercera ed.), Wiley, págs. 157-176, ISBN 978-0-471-16068-7
  49. ^ Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (Segunda ed.), Chapman & Hall, ISBN 978-0-412-44980-2
  50. ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Prensa de la Universidad de Harvard. págs. 225-226. ISBN 978-0-67440341-3.
  51. ^ Laplace, P. (1778). "Mémoire sur les probabilités (XIX, XX)". Obras completas de Laplace . vol. 9. págs. 429–438. {{cite book}}: |journal=ignorado ( ayuda )
  52. ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900. Cambridge, Mass: Belknap Press de Harvard University Press. pag. 134.ISBN 978-0-674-40340-6.
  53. ^ Pescador, Sir Ronald A. (1956) [1935]. "Matemáticas de una dama probando té". En James Roy Newman (ed.). El mundo de las matemáticas, volumen 3 [ Diseño de experimentos ]. Publicaciones de Courier Dover. ISBN 978-0-486-41151-4.Originalmente del libro de Fisher Diseño de experimentos .
  54. ^ Caja, Joan Fisher (1978). RA Fisher, La vida de un científico . Nueva York: Wiley. pag. 134.ISBN 978-0-471-09300-8.
  55. ^ CS Peirce (agosto de 1878). "Ilustraciones de la lógica de la ciencia VI: deducción, inducción e hipótesis". Mensual de divulgación científica . 13 . Consultado el 30 de marzo de 2012 .
  56. ^ Jaynes, et (2007). Teoría de la probabilidad: la lógica de la ciencia (5. ed. impresa). Cambridge [ua]: Universidad de Cambridge. Prensa. ISBN 978-0-521-59271-0.
  57. ^ Schervish, M (1996) Teoría de la estadística , p. 218. Saltador ISBN 0-387-94546-6 
  58. ^ Kaye, David H.; Freedman, David A. (2011). "Guía de referencia en estadística". Manual de referencia sobre evidencia científica (3ª ed.). Eagan, MN Washington, DC: Prensa de las Academias Nacionales del Oeste. pag. 259.ISBN 978-0-309-21421-6.
  59. ^ Ceniza, Robert (1970). Teoría básica de la probabilidad . Nueva York: Wiley. ISBN 978-0471034506.Sección 8.2
  60. ^ ab Tukey, John W. (1960). "Conclusiones vs decisiones". Tecnometría . 26 (4): 423–433. doi :10.1080/00401706.1960.10489909."Hasta que revisemos las explicaciones de las hipótesis de prueba, separando los elementos de decisión [Neyman-Pearson] de los elementos de conclusión [Fisher], la mezcla íntima de elementos dispares será una fuente continua de confusión". ... "Hay lugar tanto para 'hacer lo mejor que uno pueda' como para 'decir sólo lo que es cierto', pero es importante saber, en cada caso, cuál se está haciendo y cuál se debe hacer. "
  61. ^ Stigler, Stephen M. (agosto de 1996). "La Historia de la Estadística en 1933". Ciencia estadística . 11 (3): 244–252. doi : 10.1214/ss/1032280216 . JSTOR  2246117.
  62. ^ Berger, James O. (2003). "¿Podrían Fisher, Jeffreys y Neyman haberse puesto de acuerdo sobre las pruebas?". Ciencia estadística . 18 (1): 1–32. doi : 10.1214/ss/1056397485 .
  63. ^ Morrison, Denton; Henkel, Ramón, eds. (2006) [1970]. La controversia de la prueba de significancia . Transacción Aldina. ISBN 978-0-202-30879-1.
  64. ^ Oakes, Michael (1986). Inferencia estadística: un comentario para las ciencias sociales y del comportamiento . Chichester Nueva York: Wiley. ISBN 978-0471104438.
  65. ^ Chow, Siu L. (1997). Importancia estadística: justificación, validez y utilidad . Publicaciones SAGE. ISBN 978-0-7619-5205-3.
  66. ^ Harlow, Lisa Lavoie; Stanley A. Mulaik; James H. Steiger, eds. (1997). ¿Qué pasaría si no hubiera pruebas de significancia? . Asociados de Lawrence Erlbaum. ISBN 978-0-8058-2634-0.
  67. ^ ab Kline, Rex (2004). Más allá de las pruebas de significancia: reforma de los métodos de análisis de datos en la investigación del comportamiento . Washington, DC: Asociación Estadounidense de Psicología. ISBN 9781591471189.
  68. ^ McCloskey, Deirdre N.; Stephen T. Ziliak (2008). El culto a la significancia estadística: cómo el error estándar nos cuesta empleos, justicia y vidas . Prensa de la Universidad de Michigan. ISBN 978-0-472-05007-9.
  69. ^ Campo de maíz, Jerome (1976). «Contribuciones metodológicas recientes a los ensayos clínicos» (PDF) . Revista Estadounidense de Epidemiología . 104 (4): 408–421. doi : 10.1093/oxfordjournals.aje.a112313. PMID  788503.
  70. ^ Yates, Frank (1951). "La influencia de los métodos estadísticos para los investigadores en el desarrollo de la ciencia de la estadística". Revista de la Asociación Estadounidense de Estadística . 46 (253): 19–34. doi :10.1080/01621459.1951.10500764."El énfasis dado a las pruebas formales de significancia a lo largo de los Métodos estadísticos [de RA Fisher]... ha causado que los investigadores científicos presten atención indebida a los resultados de las pruebas de significancia que realizan sobre sus datos, particularmente los datos derivados de experimentos, y también poco a las estimaciones de la magnitud de los efectos que están investigando." ... "El énfasis en las pruebas de significancia y la consideración de los resultados de cada experimento de forma aislada, han tenido la desafortunada consecuencia de que los trabajadores científicos a menudo han considerado la ejecución de una prueba de significancia en un experimento como el objetivo final".
  71. ^ Mendigar, Colin B.; Berlín, Jesse A. (1988). "Sesgo de publicación: un problema en la interpretación de datos médicos". Revista de la Royal Statistical Society, Serie A. 151 (3): 419–463. doi :10.2307/2982993. JSTOR  2982993. S2CID  121054702.
  72. ^ Meehl, Paul E. (1967). "Pruebas teóricas en psicología y física: una paradoja metodológica" (PDF) . Filosofía de la Ciencia . 34 (2): 103-115. doi :10.1086/288135. S2CID  96422880. Archivado desde el original (PDF) el 3 de diciembre de 2013.Treinta años más tarde, Meehl reconoció que la teoría de la significación estadística era matemáticamente sólida, mientras continuaba cuestionando la elección por defecto de la hipótesis nula, culpando en cambio a "la pobre comprensión de los científicos sociales de la relación lógica entre teoría y hecho" en "El problema es la epistemología, no la epistemología". Estadísticas: reemplazar las pruebas de significancia por intervalos de confianza y cuantificar la precisión de las predicciones numéricas arriesgadas" (capítulo 14 en Harlow (1997)).
  73. ^ Bakán, David (1966). "La prueba de significancia en la investigación psicológica". Boletín Psicológico . 66 (6): 423–437. doi :10.1037/h0020412. PMID  5974619.
  74. ^ Gigerenzer, G (noviembre de 2004). "Estadísticas sin sentido". La Revista de Socioeconomía . 33 (5): 587–606. doi :10.1016/j.socec.2004.09.033.
  75. ^ Nunnally, Jum (1960). "El lugar de la estadística en psicología". Medición Educativa y Psicológica . 20 (4): 641–650. doi :10.1177/001316446002000401. S2CID  144813784.
  76. ^ Lykken, David T. (1991). "¿Qué hay de malo en la psicología, de todos modos?". Pensar con claridad en psicología . 1 : 3–39.
  77. ^ Jacob Cohen (diciembre de 1994). "La Tierra es redonda (p <.05)". Psicólogo americano . 49 (12): 997–1003. doi :10.1037/0003-066X.49.12.997. S2CID  380942.Este artículo conduce a la revisión de las prácticas estadísticas por parte de la APA. Cohen fue miembro del grupo de trabajo que realizó la revisión.
  78. ^ abc Nickerson, Raymond S. (2000). "Pruebas de significancia de hipótesis nulas: una revisión de una controversia antigua y continua". Métodos psicológicos . 5 (2): 241–301. doi :10.1037/1082-989X.5.2.241. PMID  10937333. S2CID  28340967.
  79. ^ Sucursal, Mark (2014). "Efectos secundarios malignos de las pruebas de significación de hipótesis nulas". Teoría y Psicología . 24 (2): 256–277. doi :10.1177/0959354314525282. S2CID  40712136.
  80. ^ Hunter, John E. (enero de 1997). "Necesario: prohibición de la prueba de significancia". Ciencia psicológica . 8 (1): 3–7. doi :10.1111/j.1467-9280.1997.tb00534.x. S2CID  145422959.
  81. ^ ab Wilkinson, Leland (1999). "Métodos estadísticos en revistas de psicología; directrices y explicaciones". Psicólogo americano . 54 (8): 594–604. doi :10.1037/0003-066X.54.8.594. S2CID  428023."Pruebas de hipótesis. Es difícil imaginar una situación en la que una decisión dicotómica de aceptar-rechazar sea mejor que informar un valor p real o, mejor aún, un intervalo de confianza". (pág. 599). El comité utilizó el término de advertencia "tolerancia" al describir su decisión contra la prohibición de las pruebas de hipótesis en los informes de psicología. (pág. 603)
  82. ^ "ICMJE: Obligación de publicar estudios negativos". Archivado desde el original el 16 de julio de 2012 . Consultado el 3 de septiembre de 2012 . Los editores deben considerar seriamente la publicación de cualquier estudio cuidadosamente realizado sobre una cuestión importante, relevante para sus lectores, ya sea que los resultados del resultado primario o de cualquier resultado adicional sean estadísticamente significativos. No enviar o publicar los resultados debido a la falta de significación estadística es una causa importante de sesgo de publicación.
  83. ^ Revista de artículos en apoyo del sitio web Null Hypothesis: página de inicio de JASNH. El volumen 1 número 1 se publicó en 2002 y todos los artículos tratan sobre temas relacionados con la psicología.
  84. ^ Howell, David (2002). Métodos estadísticos para psicología (5 ed.). Duxbury. pag. 94.ISBN 978-0-534-37770-0.
  85. ^ Williams S, Carson R, Tóth K (10 de octubre de 2023). "Más allá de los valores de P en The Journal of Physiology: una introducción al valor de los tamaños del efecto y los intervalos de confianza". J Physiol . 601 (23): 5131–5133. doi : 10.1113/JP285575 . PMID  37815959. S2CID  263827430.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  86. ^ ab Kruschke, JK (9 de julio de 2012). "La estimación bayesiana reemplaza a la prueba T" (PDF) . Revista de Psicología Experimental: General . 142 (2): 573–603. doi :10.1037/a0029146. PMID  22774788. S2CID  5610231.
  87. ^ ab Kruschke, JK (8 de mayo de 2018). "Rechazar o aceptar valores de parámetros en la estimación bayesiana" (PDF) . Avances en métodos y prácticas en ciencia psicológica . 1 (2): 270–280. doi :10.1177/2515245918771304. S2CID  125788648.
  88. ^ Armstrong, J. Scott (2007). "Las pruebas de importancia perjudican el progreso en la previsión". Revista internacional de previsión . 23 (2): 321–327. CiteSeerX 10.1.1.343.9516 . doi : 10.1016/j.ijforecast.2007.03.004. S2CID  1550979. 
  89. ^ Kass, RE (1993). Factores de Bayes e incertidumbre del modelo (PDF) (Reporte). Departamento de Estadística, Universidad de Washington.
  90. ^ Rozeboom, William W. (1960). "La falacia de la prueba de significancia de la hipótesis nula" (PDF) . Boletín Psicológico . 57 (5): 416–428. CiteSeerX 10.1.1.398.9002 . doi :10.1037/h0042040. PMID  13744252. "...la aplicación adecuada de la estadística a la inferencia científica está irrevocablemente comprometida con una consideración exhaustiva de las probabilidades inversas [también conocidas como bayesianas]..." Se reconoció, con pesar, que las distribuciones de probabilidad a priori estaban disponibles "sólo como una sensación subjetiva, diferentes de una persona a otra" "al menos en el futuro más inmediato".
  91. ^ Berger, James (2006). "El caso del análisis bayesiano objetivo". Análisis bayesiano . 1 (3): 385–402. doi : 10.1214/06-ba115 . Al enumerar las definiciones en competencia de análisis bayesiano "objetivo", "un objetivo importante de la estadística (de hecho, la ciencia) es encontrar una metodología bayesiana objetiva completamente coherente para aprender a partir de datos". El autor expresó la opinión de que este objetivo "no es alcanzable".
  92. ^ Aldrich, J (2008). "RA Fisher sobre Bayes y el teorema de Bayes". Análisis bayesiano . 3 (1): 161-170. doi : 10.1214/08-BA306 .

Otras lecturas

enlaces externos

Calculadoras en línea