En las pruebas de hipótesis estadísticas , [1] [2] un resultado tiene significancia estadística cuando un resultado al menos tan "extremo" sería muy infrecuente si la hipótesis nula fuera verdadera. [3] Más precisamente, el nivel de significancia definido de un estudio , denotado por , es la probabilidad de que el estudio rechace la hipótesis nula, dado que la hipótesis nula es verdadera; [4] y el valor p de un resultado, , es la probabilidad de obtener un resultado al menos tan extremo, dado que la hipótesis nula es verdadera. [5] El resultado es estadísticamente significativo, según los estándares del estudio, cuando . [6] [7] [8] [9] [10] [11] [12] El nivel de significancia de un estudio se elige antes de la recopilación de datos y, por lo general, se establece en 5% [13] o mucho menos, dependiendo del campo de estudio. [14]
En cualquier experimento u observación que implique extraer una muestra de una población , siempre existe la posibilidad de que se hubiera producido un efecto observado debido únicamente a un error de muestreo . [15] [16] Pero si el valor p de un efecto observado es menor (o igual) al nivel de significancia, un investigador puede concluir que el efecto refleja las características de toda la población, [1] rechazando así la hipótesis nula. [17]
Esta técnica para comprobar la significación estadística de los resultados se desarrolló a principios del siglo XX. El término significación no implica aquí importancia, y el término significación estadística no es lo mismo que significación de investigación, significación teórica o significación práctica. [1] [2] [18] [19] Por ejemplo, el término significación clínica se refiere a la importancia práctica del efecto de un tratamiento. [20]
Historia
La significación estadística se remonta al siglo XVIII, en el trabajo de John Arbuthnot y Pierre-Simon Laplace , quienes calcularon el valor p para la proporción de sexos humanos al nacer, asumiendo una hipótesis nula de probabilidad igual de nacimientos de hombres y mujeres; véase el valor p § Historia para más detalles. [21] [22] [23] [24] [25] [26] [27]
En 1925, Ronald Fisher propuso la idea de las pruebas de hipótesis estadísticas, a las que llamó "pruebas de significancia", en su publicación Métodos estadísticos para investigadores . [28] [29] [30] Fisher sugirió una probabilidad de uno en veinte (0,05) como un nivel de corte conveniente para rechazar la hipótesis nula. [31] En un artículo de 1933, Jerzy Neyman y Egon Pearson llamaron a este nivel de corte el nivel de significancia , al que llamaron . Recomendaron que se estableciera con anticipación, antes de cualquier recopilación de datos. [31] [32]
A pesar de su sugerencia inicial de 0,05 como nivel de significación, Fisher no pretendía que este valor límite fuera fijo. En su publicación de 1956 Métodos estadísticos e inferencia científica, recomendó que los niveles de significación se establecieran según circunstancias específicas. [31]
Conceptos relacionados
El nivel de significación es el umbral por debajo del cual se rechaza la hipótesis nula, aunque se suponga que es cierta y está ocurriendo algo más. Esto significa que también es la probabilidad de rechazar por error la hipótesis nula, si esta es verdadera. [4] Esto también se denomina falso positivo y error de tipo I.
En ocasiones, los investigadores hablan del nivel de confianza γ = (1 − α ) , que es la probabilidad de no rechazar la hipótesis nula dado que es verdadera. [33] [34] Los niveles de confianza y los intervalos de confianza fueron introducidos por Neyman en 1937. [35]
Papel en la prueba de hipótesis estadísticas
La significación estadística desempeña un papel fundamental en las pruebas de hipótesis estadísticas. Se utiliza para determinar si la hipótesis nula debe rechazarse o mantenerse. La hipótesis nula es la hipótesis de que no existe ningún efecto en el fenómeno que se está estudiando. [36] Para que se rechace la hipótesis nula, un resultado observado debe ser estadísticamente significativo, es decir, el valor p observado es menor que el nivel de significación preespecificado .
Para determinar si un resultado es estadísticamente significativo, un investigador calcula un valor p , que es la probabilidad de observar un efecto de la misma magnitud o más extremo dado que la hipótesis nula es verdadera. [5] [12] La hipótesis nula se rechaza si el valor p es menor que (o igual a) un nivel predeterminado, . también se denomina nivel de significancia , y es la probabilidad de rechazar la hipótesis nula dado que es verdadera (un error de tipo I ). Por lo general, se establece en el 5 % o menos.
Por ejemplo, cuando se establece en 5%, la probabilidad condicional de un error de tipo I , dado que la hipótesis nula es verdadera , es 5%, [37] y un resultado estadísticamente significativo es uno donde el valor p observado es menor que (o igual a) 5%. [38] Al extraer datos de una muestra, esto significa que la región de rechazo comprende el 5% de la distribución de muestreo . [39] Este 5% se puede asignar a un lado de la distribución de muestreo, como en una prueba de una cola , o dividirse en ambos lados de la distribución, como en una prueba de dos colas , con cada cola (o región de rechazo) conteniendo el 2,5% de la distribución.
El uso de una prueba de una cola depende de si la pregunta de investigación o la hipótesis alternativa especifica una dirección, como si un grupo de objetos es más pesado o si el desempeño de los estudiantes en una evaluación es mejor . [3] Todavía se puede usar una prueba de dos colas, pero será menos poderosa que una prueba de una cola, porque la región de rechazo para una prueba de una cola se concentra en un extremo de la distribución nula y es el doble del tamaño (5% frente a 2,5%) de cada región de rechazo para una prueba de dos colas. Como resultado, la hipótesis nula puede rechazarse con un resultado menos extremo si se utilizó una prueba de una cola. [40] La prueba de una cola solo es más poderosa que una prueba de dos colas si la dirección especificada de la hipótesis alternativa es correcta. Sin embargo, si es incorrecta, entonces la prueba de una cola no tiene poder.
Umbrales de significación en campos específicos
En campos específicos como la física de partículas y la fabricación , la significancia estadística a menudo se expresa en múltiplos de la desviación estándar o sigma ( σ ) de una distribución normal , con umbrales de significancia establecidos en un nivel mucho más estricto (por ejemplo, 5 σ ). [41] [42] Por ejemplo, la certeza de la existencia de la partícula del bosón de Higgs se basó en el criterio 5 σ , que corresponde a un valor p de aproximadamente 1 en 3,5 millones. [42] [43]
En otros campos de investigación científica, como los estudios de asociación de todo el genoma , los niveles de significación son tan bajos como5 × 10 −8 no son poco comunes [44] [45] —ya que el número de pruebas realizadas es extremadamente grande.
Limitaciones
Los investigadores que se centran únicamente en si sus resultados son estadísticamente significativos pueden informar hallazgos que no son sustanciales [46] y no se pueden reproducir. [47] [48] También existe una diferencia entre la significación estadística y la significación práctica. Un estudio que se considera estadísticamente significativo puede no ser necesariamente significativo en la práctica. [49] [19]
Tamaño del efecto
El tamaño del efecto es una medida de la significación práctica de un estudio. [49] Un resultado estadísticamente significativo puede tener un efecto débil. Para medir la significación de investigación de su resultado, se recomienda a los investigadores que siempre informen el tamaño del efecto junto con los valores p . Una medida del tamaño del efecto cuantifica la fuerza de un efecto, como la distancia entre dos medias en unidades de desviación estándar (cf. d de Cohen ), el coeficiente de correlación entre dos variables o su cuadrado , y otras medidas. [50]
Reproducibilidad
Puede que no sea fácil reproducir un resultado estadísticamente significativo. [48] En particular, algunos resultados estadísticamente significativos serán, de hecho, falsos positivos. Cada intento fallido de reproducir un resultado aumenta la probabilidad de que el resultado sea un falso positivo. [51]
Desafíos
Uso excesivo en algunas revistas
A partir de la década de 2010, algunas revistas comenzaron a cuestionar si se estaba recurriendo demasiado a las pruebas de significación, y en particular al uso de un umbral de α = 5%, como medida principal de validez de una hipótesis. [52] Algunas revistas alentaron a los autores a realizar análisis más detallados que una simple prueba de significación estadística. En psicología social, la revista Basic and Applied Social Psychology prohibió por completo el uso de pruebas de significación en los artículos que publicaba, [53] exigiendo a los autores que utilizaran otras medidas para evaluar las hipótesis y el impacto. [54] [55]
Otros editores, al comentar esta prohibición, han señalado: "Prohibir la presentación de informes de valores p , como lo hizo recientemente Basic and Applied Social Psychology, no va a resolver el problema porque simplemente está tratando un síntoma del problema. No hay nada malo con las pruebas de hipótesis y los valores p per se siempre que los autores, revisores y editores de acciones los utilicen correctamente". [56] Algunos estadísticos prefieren utilizar medidas alternativas de evidencia, como razones de verosimilitud o factores de Bayes . [57] El uso de estadísticas bayesianas puede evitar niveles de confianza, pero también requiere hacer suposiciones adicionales, [57] y puede que no necesariamente mejore la práctica con respecto a las pruebas estadísticas. [58]
El abuso generalizado de la significación estadística representa un tema importante de investigación en la metaciencia . [59]
Redefiniendo el significado
En 2016, la Asociación Estadounidense de Estadística (ASA) publicó una declaración sobre los valores p , diciendo que "el uso generalizado de 'significación estadística' (generalmente interpretada como ' p ≤ 0,05') como licencia para hacer una afirmación de un hallazgo científico (o verdad implícita) conduce a una distorsión considerable del proceso científico". [57] En 2017, un grupo de 72 autores propuso mejorar la reproducibilidad cambiando el umbral del valor p para la significación estadística de 0,05 a 0,005. [60] Otros investigadores respondieron que imponer un umbral de significación más estricto agravaría problemas como el dragado de datos ; las propuestas alternativas son, por tanto, seleccionar y justificar umbrales de valores p flexibles antes de recopilar datos, [61] o interpretar los valores p como índices continuos, descartando así los umbrales y la significación estadística. [62] Además, el cambio a 0,005 aumentaría la probabilidad de falsos negativos, en los que el efecto estudiado es real, pero la prueba no lo demuestra. [63]
En 2019, más de 800 estadísticos y científicos firmaron un mensaje pidiendo el abandono del término "significación estadística" en la ciencia, [64] y la ASA publicó otra declaración oficial [65] declarando (página 2):
Concluimos, basándonos en nuestra revisión de los artículos de este número especial y de la literatura más amplia, que es hora de dejar de utilizar por completo el término "estadísticamente significativo". Tampoco deberían sobrevivir variantes como "significativamente diferente", " ," y "no significativo", ya sea expresadas en palabras, mediante asteriscos en una tabla o de alguna otra manera.
Falacia del tirador de Texas (da ejemplos de pruebas en las que el nivel de significación se estableció demasiado alto)
Referencias
^ abc Sirkin, R. Mark (2005). "Two-sample t tests". Estadísticas para las ciencias sociales (3.ª ed.). Thousand Oaks, CA: SAGE Publications, Inc., págs. 271–316. ISBN 978-1-4129-0546-6.
^ ab Borror, Connie M. (2009). "Toma de decisiones estadística". Manual del ingeniero de calidad certificado (3.ª ed.). Milwaukee, WI: ASQ Quality Press. págs. 418–472. ISBN978-0-87389-745-7.
^ ab Myers, Jerome L.; Well, Arnold D.; Lorch, Robert F. Jr. (2010). "Desarrollo de los fundamentos de la prueba de hipótesis utilizando la distribución binomial". Diseño de investigación y análisis estadístico (3.ª ed.). Nueva York, NY: Routledge. pp. 65–90. ISBN978-0-8058-6431-1.
^ ab Dalgaard, Peter (2008). "Potencia y cálculo del tamaño de la muestra". Introducción a la estadística con R. Estadística y computación. Nueva York: Springer. págs. 155-56. doi :10.1007/978-0-387-79054-1_9. ISBN978-0-387-79053-4.
^ ab "Prueba de hipótesis estadística". www.dartmouth.edu . Archivado desde el original el 2020-08-02 . Consultado el 2019-11-11 .
^ Johnson, Valen E. (9 de octubre de 2013). "Estándares revisados para la evidencia estadística". Actas de la Academia Nacional de Ciencias . 110 (48): 19313–19317. Bibcode :2013PNAS..11019313J. doi : 10.1073/pnas.1313476110 . PMC 3845140 . PMID 24218581.
^ Redmond, Carol; Colton, Theodore (2001). "Importancia clínica frente a significancia estadística". Bioestadística en ensayos clínicos . Wiley Reference Series in Biostatistics (3.ª ed.). West Sussex, Reino Unido: John Wiley & Sons Ltd. págs. 35–36. ISBN978-0-471-82211-0.
^ Cumming, Geoff (2012). Entendiendo las nuevas estadísticas: tamaños del efecto, intervalos de confianza y metaanálisis . Nueva York, EE. UU.: Routledge. pp. 27–28.
^ Krzywinski, Martin; Altman, Naomi (30 de octubre de 2013). "Puntos de significación: significación, valores P y pruebas t". Nature Methods . 10 (11): 1041–1042. doi : 10.1038/nmeth.2698 . PMID 24344377.
^ Sham, Pak C.; Purcell, Shaun M (17 de abril de 2014). "Pruebas de potencia estadística y significación en estudios genéticos a gran escala". Nature Reviews Genetics . 15 (5): 335–346. doi :10.1038/nrg3706. PMID 24739678. S2CID 10961123.
^ Altman, Douglas G. (1999). Estadísticas prácticas para la investigación médica . Nueva York, EE. UU.: Chapman & Hall/CRC. pp. 167. ISBN978-0-412-27630-9.
^ ab Devore, Jay L. (2011). Probabilidad y estadística para ingeniería y ciencias (8.ª ed.). Boston, MA: Cengage Learning. págs. 300–344. ISBN978-0-538-73352-6.
^ Craparo, Robert M. (2007). "Nivel de significancia". En Salkind, Neil J. (ed.). Enciclopedia de medición y estadística . Vol. 3. Thousand Oaks, CA: SAGE Publications. págs. 889–891. ISBN978-1-4129-1611-0.
^ Sproull, Natalie L. (2002). "Prueba de hipótesis". Manual de métodos de investigación: una guía para profesionales y estudiantes de ciencias sociales (2.ª ed.). Lanham, MD: Scarecrow Press, Inc., págs. 49-64. ISBN978-0-8108-4486-5.
^ Babbie, Earl R. (2013). "La lógica del muestreo". La práctica de la investigación social (13.ª ed.). Belmont, CA: Cengage Learning. pp. 185–226. ISBN978-1-133-04979-1.
^ Faherty, Vincent (2008). "Probabilidad y significación estadística". Compassionate Statistics: Applied Quantitative Analysis for Social Services (Con ejercicios e instrucciones en SPSS) (1.ª ed.). Thousand Oaks, CA: SAGE Publications, Inc., págs. 127-138. ISBN978-1-4129-3982-9.
^ McKillup, Steve (2006). "La probabilidad te ayuda a tomar una decisión sobre tus resultados" . Statistics Explained: An Introductory Guide for Life Scientists (1.ª ed.). Cambridge, Reino Unido: Cambridge University Press. pp. 44–56. ISBN978-0-521-54316-3.
^ Myers, Jerome L.; Well, Arnold D.; Lorch, Robert F. Jr. (2010). "La distribución t y sus aplicaciones". Diseño de investigación y análisis estadístico (3.ª ed.). Nueva York, NY: Routledge. pp. 124–153. ISBN978-0-8058-6431-1.
^ ab Hooper, Peter. "¿Qué es el valor P?" (PDF) . Universidad de Alberta, Departamento de Ciencias Matemáticas y Estadísticas . Archivado desde el original (PDF) el 31 de marzo de 2020. Consultado el 10 de noviembre de 2019 .
^ Leung, W.-C. (1 de marzo de 2001). "Equilibrio entre la significación estadística y clínica en la evaluación de los efectos del tratamiento". Revista Médica de Postgrado . 77 (905): 201–204. doi :10.1136/pmj.77.905.201. ISSN 0032-5473. PMC 1741942 . PMID 11222834.
^ Brian, Éric; Jaisson, Marie (2007). "Fisicoteología y matemáticas (1710-1794)". El origen de la proporción de sexos humanos al nacer . Springer Science & Business Media. págs. 1–25. ISBN978-1-4020-6036-6.
↑ John Arbuthnot (1710). "Un argumento a favor de la Divina Providencia, tomado de la regularidad constante observada en los nacimientos de ambos sexos" (PDF) . Philosophical Transactions of the Royal Society of London . 27 (325–336): 186–190. doi : 10.1098/rstl.1710.0011 .
^ Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Practical Nonparametric Statistics (tercera edición), Wiley, págs. 157-176, ISBN978-0-471-16068-7
^ Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (segunda edición), Chapman & Hall, ISBN978-0-412-44980-2
^ Stigler, Stephen M. (1986). Historia de la estadística: la medición de la incertidumbre antes de 1900. Harvard University Press. pp. 225–226. ISBN978-0-674-40341-3.
^ Bellhouse, David (2001), "John Arbuthnot", en CC Heyde ; E. Seneta (eds.), en Estadísticos de los siglos , Springer, págs. 39-42, ISBN978-0-387-95329-8
^ Hald, Anders (1998), "Capítulo 4. Azar o diseño: Pruebas de significancia", Una historia de las estadísticas matemáticas de 1750 a 1930 , Wiley, pág. 65
^ Cumming, Geoff (2011). "De la significación de la hipótesis nula a la prueba de los tamaños del efecto". Entendiendo las nuevas estadísticas: tamaños del efecto, intervalos de confianza y metaanálisis . Serie de aplicaciones multivariadas. East Sussex, Reino Unido: Routledge. págs. 21–52. ISBN978-0-415-87968-2.
^ Fisher, Ronald A. (1925). Métodos estadísticos para investigadores. Edimburgo, Reino Unido: Oliver and Boyd. pp. 43. ISBN978-0-05-002170-5.
^ Poletiek, Fenna H. (2001). "Teorías formales de las pruebas". Comportamiento en la prueba de hipótesis . Ensayos sobre psicología cognitiva (1.ª ed.). East Sussex, Reino Unido: Psychology Press. pp. 29–48. ISBN978-1-84169-159-6.
^ abc Quinn, Geoffrey R.; Keough, Michael J. (2002). Diseño experimental y análisis de datos para biólogos (1.ª ed.). Cambridge, Reino Unido: Cambridge University Press. pp. 46–69. ISBN978-0-521-00976-8.
^ Neyman, J.; Pearson, ES (1933). "La prueba de hipótesis estadísticas en relación con probabilidades a priori". Actas matemáticas de la Sociedad filosófica de Cambridge . 29 (4): 492–510. Bibcode :1933PCPS...29..492N. doi :10.1017/S030500410001152X. S2CID 119855116.
^ "Es posible sacar conclusiones sobre la significación estadística con la ayuda del intervalo de confianza. Si el intervalo de confianza no incluye el valor de efecto cero, se puede suponer que hay un resultado estadísticamente significativo". Prel, Jean-Baptist du; Hommel, Gerhard; Röhrig, Bernd; Blettner, Maria (2009). "¿Intervalo de confianza o valor P?". Deutsches Ärzteblatt Online . 106 (19): 335–9. doi :10.3238/arztebl.2009.0335. PMC 2689604 . PMID 19547734.
^ StatNews #73: Intervalos de confianza superpuestos y significancia estadística
^ Meier, Kenneth J.; Brudney, Jeffrey L.; Bohte, John (2011). Estadística aplicada a la administración pública y sin fines de lucro (3.ª ed.). Boston, MA: Cengage Learning. págs. 189–209. ISBN978-1-111-34280-7.
^ Healy, Joseph F. (2009). Fundamentos de estadística: una herramienta para la investigación social (2.ª ed.). Belmont, CA: Cengage Learning. pp. 177–205. ISBN978-0-495-60143-2.
^ McKillup, Steve (2006). Explicación de las estadísticas: una guía introductoria para los científicos de la vida (1.ª ed.). Cambridge, Reino Unido: Cambridge University Press. pp. 32–38. ISBN978-0-521-54316-3.
^ Salud, David (1995). Introducción al diseño experimental y las estadísticas para la biología (1.ª ed.). Boston, MA: CRC Press. Págs. 123-154. ISBN978-1-85728-132-3.
^ Hinton, Perry R. (2010). "Significance, error, and power". Explicación de las estadísticas (3.ª ed.). Nueva York, NY: Routledge. pp. 79–90. ISBN978-1-84872-312-2.
^ Vaughan, Simon (2013). Inferencia científica: aprendizaje a partir de datos (1.ª ed.). Cambridge, Reino Unido: Cambridge University Press. pp. 146–152. ISBN978-1-107-02482-3.
^ ab Bracken, Michael B. (2013). Riesgo, azar y causalidad: investigación de los orígenes y el tratamiento de las enfermedades (1.ª ed.). New Haven, Connecticut: Yale University Press. pp. 260–276. ISBN978-0-300-18884-4.
^ Franklin, Allan (2013). "Prólogo: El ascenso de los sigmas". Cambios en los estándares: experimentos en física de partículas en el siglo XX (1.ª ed.). Pittsburgh, PA: University of Pittsburgh Press. pp. Ii–Iii. ISBN978-0-8229-4430-0.
^ Clarke, GM; Anderson, CA; Pettersson, FH; Cardon, LR; Morris, AP; Zondervan, KT (6 de febrero de 2011). "Análisis estadístico básico en estudios genéticos de casos y controles". Nature Protocols . 6 (2): 121–33. doi :10.1038/nprot.2010.182. PMC 3154648 . PMID 21293453.
^ Barsh, GS; Copenhaver, GP; Gibson, G; Williams, SM (5 de julio de 2012). "Directrices para estudios de asociación de todo el genoma". PLOS Genetics . 8 (7): e1002812. doi : 10.1371/journal.pgen.1002812 . PMC 3390399 . PMID 22792080.
^ Carver, Ronald P. (1978). "El caso contra las pruebas de significación estadística". Harvard Educational Review . 48 (3): 378–399. doi :10.17763/haer.48.3.t490261645281841. S2CID 16355113.
^ Ioannidis, John PA (2005). "Por qué la mayoría de los hallazgos de investigación publicados son falsos". PLOS Medicine . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC 1182327 . PMID 16060722.
^ ab Amrhein, Valentin; Korner-Nievergelt, Fränzi; Roth, Tobias (2017). "La Tierra es plana (p > 0,05): umbrales de significación y la crisis de la investigación irreplicable". PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092 . PMID 28698825.
^ ab Hojat, Mohammadreza; Xu, Gang (2004). "Guía para visitantes sobre tamaños de efecto". Avances en la educación en ciencias de la salud . 9 (3): 241–9. doi :10.1023/B:AHSE.0000038173.00909.f6. PMID 15316274. S2CID 8045624.
^ Pedhazur, Elazar J.; Schmelkin, Liora P. (1991). Medición, diseño y análisis: un enfoque integrado (edición estudiantil). Nueva York, NY: Psychology Press. págs. 180-210. ISBN978-0-8058-1063-9.
^ Stahel, Werner (2016). "Problema estadístico en la reproducibilidad". Principios, problemas, prácticas y perspectivas Reproducibilidad: principios, problemas, prácticas y perspectivas : 87–114. doi :10.1002/9781118865064.ch5. ISBN978-1-118-86497-5.
^ "Serie de seminarios CSSME: El argumento sobre los valores p y el paradigma de la prueba de significación de hipótesis nula (NHST)". www.education.leeds.ac.uk . Facultad de Educación, Universidad de Leeds . Consultado el 1 de diciembre de 2016 .
^ Novella, Steven (25 de febrero de 2015). "Revista de psicología prohíbe las pruebas de significación". Medicina basada en la ciencia.
^ Woolston, Chris (5 de marzo de 2015). "Revista de psicología prohíbe los valores P". Nature . 519 (7541): 9. Bibcode :2015Natur.519....9W. doi : 10.1038/519009f .
^ Siegfried, Tom (17 de marzo de 2015). "Prohibición del valor p: un pequeño paso para una revista, un gran salto para la ciencia". Science News . Consultado el 1 de diciembre de 2016 .
^ Antonakis, John (febrero de 2017). "Sobre cómo hacer mejor ciencia: de la emoción del descubrimiento a las implicaciones políticas" (PDF) . The Leadership Quarterly . 28 (1): 5–21. doi :10.1016/j.leaqua.2017.01.006.
^ abc Wasserstein, Ronald L.; Lazar, Nicole A. (2 de abril de 2016). "Declaración de la ASA sobre los valores p: contexto, proceso y propósito". The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 .
^ García-Pérez, Miguel A. (5 de octubre de 2016). "No darás falso testimonio contra la prueba de significación de hipótesis nula". Medición educativa y psicológica . 77 (4): 631–662. doi :10.1177/0013164416668232. ISSN 0013-1644. PMC 5991793 . PMID 30034024.
^ Ioannidis, John PA; Ware, Jennifer J.; Wagenmakers, Eric-Jan; Simonsohn, Uri; Chambers, Christopher D.; Button, Katherine S.; Bishop, Dorothy VM; Nosek, Brian A.; Munafò, Marcus R. (enero de 2017). "Un manifiesto para la ciencia reproducible". Nature Human Behaviour . 1 (1): 0021. doi : 10.1038/s41562-016-0021 . PMC 7610724 . PMID 33954258.
^ Benjamin, Daniel; et al. (2018). "Redefinir la significación estadística". Nature Human Behaviour . 1 (1): 6–10. doi : 10.1038/s41562-017-0189-z . hdl : 10281/184094 . PMID 30980045.
^ Chawla, Dalmeet (2017). "Umbral de 'talla única' para valores P bajo presión". Nature . doi :10.1038/nature.2017.22625.
^ Amrhein, Valentin; Greenland, Sander (2017). "Eliminar, en lugar de redefinir, la significación estadística". Nature Human Behaviour . 2 (1): 0224. doi :10.1038/s41562-017-0224-0. PMID 30980046. S2CID 46814177.
^ Vyse, Stuart (noviembre de 2017). "Moving Science's Statistical Goalposts" (Movimientos de los objetivos estadísticos de la ciencia). csicop.org . CSI . Consultado el 10 de julio de 2018 .
^ McShane, Blake; Greenland, Sander; Amrhein, Valentin (marzo de 2019). "Los científicos se alzan contra la significación estadística". Nature . 567 (7748): 305–307. Bibcode :2019Natur.567..305A. doi : 10.1038/d41586-019-00857-9 . PMID 30894741.
^ Wasserstein, Ronald L.; Schirm, Allen L.; Lazar, Nicole A. (20 de marzo de 2019). "Avanzando hacia un mundo más allá de "p < 0,05"". El estadístico estadounidense . 73 (sup1): 1–19. doi : 10.1080/00031305.2019.1583913 .
Lectura adicional
Lydia Denworth, "Un problema significativo: los métodos científicos estándar están bajo fuego. ¿Cambiará algo?", Scientific American , vol. 321, núm. 4 (octubre de 2019), pp. 62-67. "El uso de valores p durante casi un siglo [desde 1925] para determinar la significación estadística de los resultados experimentales ha contribuido a una ilusión de certeza y [a] crisis de reproducibilidad en muchos campos científicos . Existe una creciente determinación de reformar el análisis estadístico... Algunos [investigadores] sugieren cambiar los métodos estadísticos, mientras que otros eliminarían un umbral para definir resultados "significativos"". (p. 63.)
Ziliak, Stephen y Deirdre McCloskey (2008), The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives (El culto a la significación estadística: cómo el error estándar nos cuesta empleos, justicia y vidas), Ann Arbor, University of Michigan Press , 2009. ISBN 978-0-472-07007-7 . Reseñas y recepción: (recopilado por Ziliak)
Thompson, Bruce (2004). "La crisis de la "significación" en psicología y educación". Revista de Socioeconomía . 33 (5): 607–613. doi :10.1016/j.socec.2004.09.034.
Chow, Siu L., (1996). Significación estadística: fundamento, validez y utilidad Archivado el 3 de diciembre de 2013 en Wayback Machine , Volumen 1 de la serie Introducing Statistical Methods, Sage Publications Ltd, ISBN 978-0-7619-5205-3 – sostiene que la significación estadística es útil en determinadas circunstancias.
Kline, Rex, (2004). Más allá de las pruebas de significación: reforma de los métodos de análisis de datos en la investigación conductual Washington, DC: Asociación Estadounidense de Psicología.
Nuzzo, Regina (2014). Método científico: errores estadísticos. Nature Vol. 506, págs. 150-152 (acceso abierto). Destaca malentendidos comunes sobre el valor p.
Cohen, Joseph (1994). [1] Archivado el 13 de julio de 2017 en Wayback Machine . La Tierra es redonda (p<.05). American Psychologist. Vol 49, p. 997-1003. Revisa los problemas con las pruebas estadísticas de hipótesis nulas.
Amrhein, Valentin; Greenland, Sander; McShane, Blake (20 de marzo de 2019). "Los científicos se alzan contra la significación estadística". Nature . 567 (7748): 305–307. Bibcode :2019Natur.567..305A. doi : 10.1038/d41586-019-00857-9 . PMID 30894741.
Enlaces externos
Wikiversidad tiene recursos de aprendizaje sobre significación estadística
El artículo "Los primeros usos conocidos de algunas palabras de las matemáticas (S)" contiene una entrada sobre el significado que proporciona cierta información histórica.
"El concepto de prueba de significación estadística Archivado el 7 de septiembre de 2022 en Wayback Machine " (febrero de 1994): artículo de Bruce Thompon presentado por el ERIC Clearinghouse on Assessment and Evaluation, Washington, DC
"¿Qué significa que un resultado sea "estadísticamente significativo"?" (sin fecha): un artículo del Servicio de Evaluación Estadística de la Universidad George Mason, Washington, DC