Estadísticas de estimación

La estadística de estimación , o simplemente estimación , es un marco de análisis de datos que utiliza una combinación de tamaños de efectos , intervalos de confianza , planificación de precisión y metanálisis para planificar experimentos, analizar datos e interpretar resultados. ^[1] Complementa los enfoques de prueba de hipótesis, como la prueba de significancia de hipótesis nula (NHST), al ir más allá de la cuestión de si un efecto está presente o no, y proporciona información sobre qué tan grande es un efecto. ^[2]^[3] Las estadísticas de estimación a veces se denominan nuevas estadísticas . ^[3]^[4]^[5]

El objetivo principal de los métodos de estimación es informar el tamaño del efecto (una estimación puntual ) junto con su intervalo de confianza , el último de los cuales está relacionado con la precisión de la estimación. ^[6] El intervalo de confianza resume un rango de valores probables del efecto poblacional subyacente. Los defensores de la estimación consideran que informar un valor P es una distracción inútil de la importante tarea de informar el tamaño del efecto con sus intervalos de confianza ^[7] y creen que la estimación debería reemplazar las pruebas de significancia para el análisis de datos. ^[8]^[9]

Historia

A partir de 1929, el físico Raymond Thayer Birge publicó artículos de revisión ^[10] en los que utilizó métodos de promedios ponderados para calcular estimaciones de constantes físicas, un procedimiento que puede verse como el precursor del metanálisis moderno . ^[11]

En la década de 1960, las ciencias no físicas adoptaron la estadística de estimación con el desarrollo del tamaño del efecto estandarizado por Jacob Cohen .

En la década de 1970, Gene V. Glass fue pionero en la síntesis de la investigación moderna con la primera revisión sistemática y metanálisis de la psicoterapia. ^[12] Este trabajo pionero influyó posteriormente en la adopción de metanálisis para tratamientos médicos en general.

En las décadas de 1980 y 1990, los bioestadísticos, entre ellos Larry Hedges , Michael Borenstein, Doug Altman , Martin Gardner y muchos otros, ampliaron y perfeccionaron los métodos de estimación , con el desarrollo del metanálisis (médico) moderno.

A partir de la década de 1980, la revisión sistemática , utilizada junto con el metanálisis, se convirtió en una técnica ampliamente utilizada en la investigación médica. Hay más de 200.000 citas de "metanálisis" en PubMed .

En la década de 1990, el editor Kenneth Rothman prohibió el uso de valores p en la revista Epidemiology ; El cumplimiento fue alto entre los autores, pero esto no cambió sustancialmente su pensamiento analítico. ^[13]

En la década de 2010, Geoff Cumming publicó un libro de texto dedicado a las estadísticas de estimación, junto con un software en Excel diseñado para enseñar el pensamiento del tamaño del efecto, principalmente a psicólogos. ^[14] También en la década de 2010, los métodos de estimación se adoptaron cada vez más en la neurociencia. ^[15]^[16]

En 2013, el Manual de publicaciones de la Asociación Estadounidense de Psicología recomendó utilizar estimaciones además de las pruebas de hipótesis. ^[17] También en 2013, el documento Requisitos uniformes para manuscritos enviados a revistas biomédicas hizo una recomendación similar: "Evite confiar únicamente en pruebas de hipótesis estadísticas, como los valores P, que no transmiten información importante sobre el tamaño del efecto". ^[18]

En 2019, más de 800 científicos firmaron un comentario abierto pidiendo que se abandonara todo el concepto de significancia estadística. ^[19]

En 2019, la revista eNeuro de la Sociedad de Neurociencia instituyó una política que recomienda el uso de gráficos de estimación como método preferido para la presentación de datos. ^[20] Y en 2022, la Sociedad Internacional de Editores de Revistas de Fisioterapia recomendó el uso de métodos de estimación en lugar de pruebas estadísticas de hipótesis nulas. ^[21]

A pesar de la adopción generalizada del metanálisis para la investigación clínica y de las recomendaciones de varias instituciones editoriales importantes, el marco de estimación no se utiliza de forma rutinaria en la investigación biomédica primaria. ^[22]

Metodología

Muchas pruebas de significancia tienen una contraparte de estimación; ^[23] en casi todos los casos, el resultado de la prueba (o su valor p ) puede sustituirse simplemente por el tamaño del efecto y una estimación de precisión. Por ejemplo, en lugar de utilizar la prueba t de Student , el analista puede comparar dos grupos independientes calculando la diferencia de medias y su intervalo de confianza del 95% . Se pueden utilizar los métodos correspondientes para una prueba t pareada y comparaciones múltiples. De manera similar, para un análisis de regresión, un analista informaría el coeficiente de determinación (R ² ) y la ecuación del modelo en lugar del valor p del modelo.

Sin embargo, los defensores de las estadísticas de estimación advierten contra la presentación de sólo unas pocas cifras. Más bien, se recomienda analizar y presentar datos mediante visualización de datos. ^[2]^[5]^[6] Ejemplos de visualizaciones apropiadas incluyen el diagrama de dispersión para regresión y los diagramas de Gardner-Altman para dos grupos independientes. ^[24] Si bien los gráficos de grupos de datos históricos (gráficos de barras, diagramas de caja y diagramas de violín) no muestran la comparación, los gráficos de estimación agregan un segundo eje para visualizar explícitamente el tamaño del efecto. ^[25]

**La trama Gardner-Altman. Izquierda:** un gráfico de barras convencional, que utiliza asteriscos para mostrar que la diferencia es "estadísticamente significativa". **Derecha:** un gráfico de Gardner-Altman que muestra todos los puntos de datos, junto con la diferencia de medias y sus intervalos de confianza.

Trama de Gardner-Altman

El gráfico de diferencia de medias de Gardner-Altman fue descrito por primera vez por Martin Gardner y Doug Altman en 1986; ^[24] es un gráfico estadístico diseñado para mostrar datos de dos grupos independientes. ^[5] También existe una versión adecuada para datos emparejados. Las instrucciones clave para hacer este gráfico son las siguientes: (1) mostrar todos los valores observados para ambos grupos uno al lado del otro; (2) coloque un segundo eje a la derecha, desplazado para mostrar la escala de diferencia de medias; y (3) trazar la diferencia de medias con su intervalo de confianza como marcador con barras de error. ^[3] Los gráficos de Gardner-Altman se pueden generar con DABEST-Python o dabestr; Alternativamente, el analista puede utilizar un software GUI como la aplicación Estimation Stats.

complot de cumming

Para grupos múltiples, Geoff Cumming introdujo el uso de un panel secundario para trazar dos o más diferencias de medias y sus intervalos de confianza, colocados debajo del panel de valores observados; ^[3] esta disposición permite una fácil comparación de las diferencias medias ("deltas") en varios grupos de datos. Los gráficos acumulativos se pueden generar con el paquete ESCI, DABEST o la aplicación Estimation Stats.

Otras metodologías

Además de la diferencia de medias, existen muchos otros tipos de tamaño del efecto , todos con beneficios relativos. Los tipos principales incluyen tamaños del efecto en la clase d de métricas estandarizadas de Cohen y el coeficiente de determinación (R ² ) para el análisis de regresión . Para distribuciones no normales, existen varios tamaños de efecto más sólidos, incluido el delta de Cliff y la estadística de Kolmogorov-Smirnov .

Defectos en las pruebas de hipótesis

En las pruebas de hipótesis , el objetivo principal de los cálculos estadísticos es obtener un valor p , la probabilidad de ver un resultado obtenido, o un resultado más extremo, al asumir que la hipótesis nula es verdadera. Si el valor p es bajo (normalmente < 0,05), se anima al estadístico a rechazar la hipótesis nula. Los defensores de la estimación rechazan la validez de la prueba de hipótesis ^[3]^[6] por las siguientes razones, entre otras:

Los valores p se malinterpretan fácil y comúnmente. Por ejemplo, a menudo se piensa erróneamente que el valor p es "la probabilidad de que la hipótesis nula sea cierta".
La hipótesis nula siempre es errónea para cada conjunto de observaciones: siempre hay algún efecto, incluso si es minúsculo. ^[26]
La prueba de hipótesis produce respuestas dicotómicas de sí o no, al tiempo que descarta información importante sobre la magnitud. ^[27]
Cualquier valor p particular surge a través de la interacción del tamaño del efecto , el tamaño de la muestra (en igualdad de condiciones, un tamaño de muestra más grande produce un valor p más pequeño) y el error de muestreo. ^[28]
A baja potencia , la simulación revela que el error de muestreo hace que los valores p sean extremadamente volátiles. ^[29]

Beneficios de las estadísticas de estimación

Cuantificación

Mientras que los valores p se centran en respuestas de sí o no, la estimación dirige la atención del analista a la cuantificación.

Ventajas de los intervalos de confianza

Los intervalos de confianza se comportan de forma predecible. Por definición, los intervalos de confianza del 95% tienen un 95% de posibilidades de cubrir la media poblacional subyacente (μ). Esta característica permanece constante al aumentar el tamaño de la muestra; lo que cambia es que el intervalo se hace más pequeño. Además, los intervalos de confianza del 95% son también intervalos de predicción del 83%: un intervalo de confianza (preexperimental) tiene un 83% de posibilidades de cubrir la media de cualquier experimento futuro. ^[3] Como tal, conocer los intervalos de confianza del 95% de un solo experimento le da al analista un rango razonable para la media de la población. Sin embargo, las distribuciones de confianza y las distribuciones posteriores proporcionan mucha más información que una estimación puntual o intervalos, ^[30] lo que puede exacerbar el pensamiento dicotómico según el intervalo que cubre o no un valor de interés "nulo" (es decir, el comportamiento inductivo de Neyman frente al de Fisher ^[31] ).

Estadísticas basadas en evidencia

Los estudios psicológicos sobre la percepción de las estadísticas revelan que informar estimaciones de intervalo deja una percepción más precisa de los datos que informar valores p. ^[32]

Planificación de precisión

La precisión de una estimación se define formalmente como 1/ varianza y, al igual que la potencia, aumenta (mejora) al aumentar el tamaño de la muestra. Al igual que la potencia , un alto nivel de precisión es caro; Lo ideal sería que las solicitudes de subvenciones para investigación incluyeran análisis de precisión/costos. Los defensores de la estimación creen que la planificación de precisión debería reemplazar al poder, ya que el poder estadístico en sí está conceptualmente vinculado a las pruebas de significancia. ^[3] La planificación de precisión se puede realizar con la aplicación web ESCI.

Ver también

Referencias

^ Ellis, Pablo. "Preguntas frecuentes sobre el tamaño del efecto".
^ ab Cohen, Jacob. «La tierra es redonda (p<.05)» (PDF) . Archivado desde el original (PDF) el 11 de octubre de 2017 . Consultado el 22 de agosto de 2013 .
^ abcdefg Cumming, Geoff (2011). Comprensión de las nuevas estadísticas: tamaños de efectos, intervalos de confianza y metanálisis . Nueva York: Routledge. ISBN 978-0415879675.^{[ página necesaria ]}
^ Altman, Douglas (1991). Estadísticas prácticas para la investigación médica . Londres: Chapman y Hall.
^ a b C Douglas Altman, ed. (2000). Estadísticas con confianza . Londres: Wiley-Blackwell.^{[ página necesaria ]}
^ abc Cohen, Jacob (1990). "Cosas que he aprendido (hasta ahora)". Psicólogo americano . 45 (12): 1304-1312. doi :10.1037/0003-066x.45.12.1304.
^ Ellis, Paul (31 de mayo de 2010). "¿Por qué no puedo juzgar mi resultado simplemente mirando el valor p?" . Consultado el 5 de junio de 2013 .
^ Claridge-Chang, Adán; Assam, Pryseley N (2016). "Las estadísticas de estimación deberían reemplazar las pruebas de significancia". Métodos de la naturaleza . 13 (2): 108–109. doi :10.1038/nmeth.3729. PMID 26820542. S2CID 205424566.
^ Berner, Daniel; Amrhein, Valentín (2022). "Por qué y cómo deberíamos unirnos al cambio de las pruebas de significancia a la estimación". Revista de biología evolutiva . 35 (6): 777–787. doi :10.1111/jeb.14009. ISSN 1010-061X. PMC 9322409 . PMID 35582935. S2CID 247788899.
^ Birge, Raymond T. (1929). "Valores probables de las constantes físicas generales". Reseñas de Física Moderna . 1 (1): 1–73. Código Bib : 1929RvMP....1....1B. doi :10.1103/RevModPhys.1.1.
^ Setos, Larry (1987). "Qué dura es la ciencia dura, qué blanda es la ciencia blanda". Psicólogo americano . 42 (5): 443. CiteSeerX 10.1.1.408.2317 . doi :10.1037/0003-066x.42.5.443.
^ Caza, Morton (1997). Cómo hace balance la ciencia: la historia del metanálisis . Nueva York: Fundación Russell Sage. ISBN 978-0-87154-398-1.
^ Violinista, Fiona; Thomason, Neil; Cumming, Geoff; Pinzón, demandar; Leeman, Joanna (2004). "Los editores pueden llevar a los investigadores a intervalos de confianza, pero no pueden hacerlos pensar: lecciones de la medicina sobre reforma estadística". Ciencia psicológica . 15 (2): 119-126. doi :10.1111/j.0963-7214.2004.01502008.x. PMID 14738519. S2CID 21199094.
^ Cumming, Geoff. "ESCI (software exploratorio para intervalos de confianza)". Archivado desde el original el 29 de diciembre de 2013 . Consultado el 12 de mayo de 2013 .
^ Yildizoglu, Tugce; Weislogel, Jan-Marek; Mohammad, Farhan; Chan, Edwin S.-Y.; Assam, Pryseley N.; Claridge-Chang, Adam (2015). "Estimación del procesamiento de información en un sistema de memoria: la utilidad de los métodos metaanalíticos para la genética". PLOS Genética . 11 (12): e1005718. doi : 10.1371/journal.pgen.1005718 . PMC 4672901 . PMID 26647168.
^ Hentschke, Harald; Maik C. Stüttgen (2011). "Cálculo de medidas del tamaño del efecto para conjuntos de datos de neurociencia". Revista europea de neurociencia . 34 (12): 1887–1894. doi :10.1111/j.1460-9568.2011.07902.x. PMID 22082031. S2CID 12505606.
^ "Manual de publicación de la Asociación Estadounidense de Psicología, sexta edición". Archivado desde el original el 5 de marzo de 2013.
^ "Requisitos uniformes para manuscritos enviados a revistas biomédicas". Archivado desde el original el 15 de mayo de 2013.
^ Amrhein, Valentín; Groenlandia, Sander; McShane, Blake (2019). "Los científicos se levantan contra la significación estadística", Nature 567, 305-307.
^ Bernardo, Christophe (2019). "Cambiar la forma en que informamos, interpretamos y discutimos nuestros resultados para reconstruir la confianza en nuestra investigación". eNeuro . 6 (4). doi :10.1523/ENEURO.0259-19.2019. PMC 6709206 . PMID 31453315.
^ Elkins, marca; et al. (2022). "Inferencia estadística mediante estimación: recomendaciones de la Sociedad Internacional de Editores de Revistas de Fisioterapia", Journal of Physiotherapy, 68 (1), 1-4.
^ Halsey, Lewis G. (2019). "El reinado del valor p ha terminado: ¿qué análisis alternativos podríamos emplear para llenar el vacío de poder?". Cartas de biología . 15 (5): 20190174. doi :10.1098/rsbl.2019.0174. PMC 6548726 . PMID 31113309.
^ Cumming, Geoff; Calin-Jageman, Robert (2016). Introducción a las nuevas estadísticas: estimación, ciencia abierta y más . Rutledge. ISBN 978-1138825529.^{[ página necesaria ]}
^ ab Gardner, MJ; Altman, DG (1986). "Intervalos de confianza en lugar de valores de P: estimación en lugar de prueba de hipótesis". BMJ . 292 (6522): 746–750. doi :10.1136/bmj.292.6522.746. PMC 1339793 . PMID 3082422.
^ Hola, José; Tumkaya, Tayfun; Aryal, Sameer; Choi, Hyungwon; Claridge-Chang, Adam (2018). "Más allá de los valores P: análisis de datos cotidianos con gráficos de estimación". doi : 10.1101/377978 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Cohen, Jacob (1994). "La tierra es redonda (p < .05)". Psicólogo americano . 49 (12): 997–1003. doi :10.1037/0003-066X.49.12.997.
^ Ellis, Paul (2010). La guía esencial para los tamaños de los efectos: poder estadístico, metanálisis e interpretación de los resultados de la investigación . Cambridge: Prensa de la Universidad de Cambridge.^{[ página necesaria ]}
^ Denton E. Morrison, Ramón E. Henkel, ed. (2006). La controversia de la prueba de significancia: un lector . Transacción Aldina. ISBN 978-0202308791.^{[ página necesaria ]}
^ Cumming, Geoff. "Danza de los valores p". YouTube .
^ Xie, Min-ge; Singh, Kesar (2013). "Distribución de confianza, el estimador de distribución frecuentista de un parámetro: una revisión". Revista estadística internacional . 81 (1): 3–39. doi :10.1111/insr.12000. JSTOR 43298799. S2CID 3242459.
^ Halpin, Peter F.; Stam, Henderikus J. (2006). "Inferencia inductiva o comportamiento inductivo: Fisher y Neyman: enfoques de Pearson para las pruebas estadísticas en la investigación psicológica (1940-1960)". La Revista Estadounidense de Psicología . 119 (4): 625–653. doi :10.2307/20445367. JSTOR 20445367. PMID 17286092.
^ Beyth-Marom, Rut; Fidler, Fiona Margarita; Cumming, Geoffrey David (2008). "Cognición estadística: hacia una práctica basada en evidencia en estadística y educación estadística". Revista de investigación en educación estadística . 7 (2): 20–39. CiteSeerX 10.1.1.154.7648 . doi : 10.52041/serj.v7i2.468. S2CID 18902043.