La estadística de estimación , o simplemente estimación , es un marco de análisis de datos que utiliza una combinación de tamaños de efectos , intervalos de confianza , planificación de precisión y metanálisis para planificar experimentos, analizar datos e interpretar resultados. [1] Complementa los enfoques de prueba de hipótesis, como la prueba de significancia de hipótesis nula (NHST), al ir más allá de la cuestión de si un efecto está presente o no, y proporciona información sobre qué tan grande es un efecto. [2] [3] Las estadísticas de estimación a veces se denominan nuevas estadísticas . [3] [4] [5]
El objetivo principal de los métodos de estimación es informar el tamaño del efecto (una estimación puntual ) junto con su intervalo de confianza , el último de los cuales está relacionado con la precisión de la estimación. [6] El intervalo de confianza resume un rango de valores probables del efecto poblacional subyacente. Los defensores de la estimación consideran que informar un valor P es una distracción inútil de la importante tarea de informar el tamaño del efecto con sus intervalos de confianza [7] y creen que la estimación debería reemplazar las pruebas de significancia para el análisis de datos. [8] [9]
A partir de 1929, el físico Raymond Thayer Birge publicó artículos de revisión [10] en los que utilizó métodos de promedios ponderados para calcular estimaciones de constantes físicas, un procedimiento que puede verse como el precursor del metanálisis moderno . [11]
En la década de 1960, las ciencias no físicas adoptaron la estadística de estimación con el desarrollo del tamaño del efecto estandarizado por Jacob Cohen .
En la década de 1970, Gene V. Glass fue pionero en la síntesis de la investigación moderna con la primera revisión sistemática y metanálisis de la psicoterapia. [12] Este trabajo pionero influyó posteriormente en la adopción de metanálisis para tratamientos médicos en general.
En las décadas de 1980 y 1990, los bioestadísticos, entre ellos Larry Hedges , Michael Borenstein, Doug Altman , Martin Gardner y muchos otros, ampliaron y perfeccionaron los métodos de estimación , con el desarrollo del metanálisis (médico) moderno.
A partir de la década de 1980, la revisión sistemática , utilizada junto con el metanálisis, se convirtió en una técnica ampliamente utilizada en la investigación médica. Hay más de 200.000 citas de "metanálisis" en PubMed .
En la década de 1990, el editor Kenneth Rothman prohibió el uso de valores p en la revista Epidemiology ; El cumplimiento fue alto entre los autores, pero esto no cambió sustancialmente su pensamiento analítico. [13]
En la década de 2010, Geoff Cumming publicó un libro de texto dedicado a las estadísticas de estimación, junto con un software en Excel diseñado para enseñar el pensamiento del tamaño del efecto, principalmente a psicólogos. [14] También en la década de 2010, los métodos de estimación se adoptaron cada vez más en la neurociencia. [15] [16]
En 2013, el Manual de publicaciones de la Asociación Estadounidense de Psicología recomendó utilizar estimaciones además de las pruebas de hipótesis. [17] También en 2013, el documento Requisitos uniformes para manuscritos enviados a revistas biomédicas hizo una recomendación similar: "Evite confiar únicamente en pruebas de hipótesis estadísticas, como los valores P, que no transmiten información importante sobre el tamaño del efecto". [18]
En 2019, más de 800 científicos firmaron un comentario abierto pidiendo que se abandonara todo el concepto de significancia estadística. [19]
En 2019, la revista eNeuro de la Sociedad de Neurociencia instituyó una política que recomienda el uso de gráficos de estimación como método preferido para la presentación de datos. [20] Y en 2022, la Sociedad Internacional de Editores de Revistas de Fisioterapia recomendó el uso de métodos de estimación en lugar de pruebas estadísticas de hipótesis nulas. [21]
A pesar de la adopción generalizada del metanálisis para la investigación clínica y de las recomendaciones de varias instituciones editoriales importantes, el marco de estimación no se utiliza de forma rutinaria en la investigación biomédica primaria. [22]
Muchas pruebas de significancia tienen una contraparte de estimación; [23] en casi todos los casos, el resultado de la prueba (o su valor p ) puede sustituirse simplemente por el tamaño del efecto y una estimación de precisión. Por ejemplo, en lugar de utilizar la prueba t de Student , el analista puede comparar dos grupos independientes calculando la diferencia de medias y su intervalo de confianza del 95% . Se pueden utilizar los métodos correspondientes para una prueba t pareada y comparaciones múltiples. De manera similar, para un análisis de regresión, un analista informaría el coeficiente de determinación (R 2 ) y la ecuación del modelo en lugar del valor p del modelo.
Sin embargo, los defensores de las estadísticas de estimación advierten contra la presentación de sólo unas pocas cifras. Más bien, se recomienda analizar y presentar datos mediante visualización de datos. [2] [5] [6] Ejemplos de visualizaciones apropiadas incluyen el diagrama de dispersión para regresión y los diagramas de Gardner-Altman para dos grupos independientes. [24] Si bien los gráficos de grupos de datos históricos (gráficos de barras, diagramas de caja y diagramas de violín) no muestran la comparación, los gráficos de estimación agregan un segundo eje para visualizar explícitamente el tamaño del efecto. [25]
El gráfico de diferencia de medias de Gardner-Altman fue descrito por primera vez por Martin Gardner y Doug Altman en 1986; [24] es un gráfico estadístico diseñado para mostrar datos de dos grupos independientes. [5] También existe una versión adecuada para datos emparejados. Las instrucciones clave para hacer este gráfico son las siguientes: (1) mostrar todos los valores observados para ambos grupos uno al lado del otro; (2) coloque un segundo eje a la derecha, desplazado para mostrar la escala de diferencia de medias; y (3) trazar la diferencia de medias con su intervalo de confianza como marcador con barras de error. [3] Los gráficos de Gardner-Altman se pueden generar con DABEST-Python o dabestr; Alternativamente, el analista puede utilizar un software GUI como la aplicación Estimation Stats.
Para grupos múltiples, Geoff Cumming introdujo el uso de un panel secundario para trazar dos o más diferencias de medias y sus intervalos de confianza, colocados debajo del panel de valores observados; [3] esta disposición permite una fácil comparación de las diferencias medias ("deltas") en varios grupos de datos. Los gráficos acumulativos se pueden generar con el paquete ESCI, DABEST o la aplicación Estimation Stats.
Además de la diferencia de medias, existen muchos otros tipos de tamaño del efecto , todos con beneficios relativos. Los tipos principales incluyen tamaños del efecto en la clase d de métricas estandarizadas de Cohen y el coeficiente de determinación (R 2 ) para el análisis de regresión . Para distribuciones no normales, existen varios tamaños de efecto más sólidos, incluido el delta de Cliff y la estadística de Kolmogorov-Smirnov .
En las pruebas de hipótesis , el objetivo principal de los cálculos estadísticos es obtener un valor p , la probabilidad de ver un resultado obtenido, o un resultado más extremo, al asumir que la hipótesis nula es verdadera. Si el valor p es bajo (normalmente < 0,05), se anima al estadístico a rechazar la hipótesis nula. Los defensores de la estimación rechazan la validez de la prueba de hipótesis [3] [6] por las siguientes razones, entre otras:
Mientras que los valores p se centran en respuestas de sí o no, la estimación dirige la atención del analista a la cuantificación.
Los intervalos de confianza se comportan de forma predecible. Por definición, los intervalos de confianza del 95% tienen un 95% de posibilidades de cubrir la media poblacional subyacente (μ). Esta característica permanece constante al aumentar el tamaño de la muestra; lo que cambia es que el intervalo se hace más pequeño. Además, los intervalos de confianza del 95% son también intervalos de predicción del 83%: un intervalo de confianza (preexperimental) tiene un 83% de posibilidades de cubrir la media de cualquier experimento futuro. [3] Como tal, conocer los intervalos de confianza del 95% de un solo experimento le da al analista un rango razonable para la media de la población. Sin embargo, las distribuciones de confianza y las distribuciones posteriores proporcionan mucha más información que una estimación puntual o intervalos, [30] lo que puede exacerbar el pensamiento dicotómico según el intervalo que cubre o no un valor de interés "nulo" (es decir, el comportamiento inductivo de Neyman frente al de Fisher [31] ).
Los estudios psicológicos sobre la percepción de las estadísticas revelan que informar estimaciones de intervalo deja una percepción más precisa de los datos que informar valores p. [32]
La precisión de una estimación se define formalmente como 1/ varianza y, al igual que la potencia, aumenta (mejora) al aumentar el tamaño de la muestra. Al igual que la potencia , un alto nivel de precisión es caro; Lo ideal sería que las solicitudes de subvenciones para investigación incluyeran análisis de precisión/costos. Los defensores de la estimación creen que la planificación de precisión debería reemplazar al poder, ya que el poder estadístico en sí está conceptualmente vinculado a las pruebas de significancia. [3] La planificación de precisión se puede realizar con la aplicación web ESCI.
{{cite journal}}
: Citar diario requiere |journal=
( ayuda )