stringtranslate.com

poder de una prueba

En estadística , el poder de una prueba de hipótesis binaria es la probabilidad de que la prueba rechace correctamente la hipótesis nula ( ) cuando una hipótesis alternativa específica ( ) es verdadera. Comúnmente se denota por y representa las posibilidades de una detección positiva verdadera condicionada a la existencia real de un efecto a detectar. El poder estadístico varía de 0 a 1 y, a medida que aumenta el poder de una prueba, disminuye la probabilidad de cometer un error de tipo II al no rechazar erróneamente la hipótesis nula.

Notación

Este artículo utiliza la siguiente notación:

Descripción

Ilustración del poder y el nivel de significancia de una prueba estadística, dada la hipótesis nula (distribución muestral 1) y la hipótesis alternativa (distribución muestral 2).

Para una probabilidad de error tipo II de β , el poder estadístico correspondiente es 1 −  β . Por ejemplo, si el experimento E tiene un poder estadístico de 0,7 y el experimento F tiene un poder estadístico de 0,95, entonces existe una mayor probabilidad de que el experimento E haya tenido un error de tipo II que el experimento F. Esto reduce la sensibilidad del experimento E para detectar efectos significativos. . Sin embargo, el experimento E es, en consecuencia, más fiable que el experimento F debido a su menor probabilidad de cometer un error de tipo I. De manera equivalente, se puede considerar como la probabilidad de aceptar la hipótesis alternativa ( ) cuando es verdadera, es decir, la capacidad de una prueba para detectar un efecto específico, si ese efecto específico realmente existe. De este modo,

Si no es una igualdad sino simplemente la negación de (por ejemplo, para algún parámetro de población no observado tenemos simplemente ), entonces la potencia no se puede calcular a menos que se conozcan las probabilidades de todos los valores posibles del parámetro que violan la hipótesis nula. Por lo tanto, generalmente nos referimos al poder de una prueba frente a una hipótesis alternativa específica .

A medida que aumenta la potencia, hay una probabilidad decreciente de un error de tipo II, también llamado tasa de falsos negativos ( β ), ya que la potencia es igual a 1 −  β . Un concepto similar es la probabilidad de error tipo I , también conocida como tasa de falsos positivos o nivel de una prueba bajo la hipótesis nula.

En el contexto de la clasificación binaria , el poder de una prueba se denomina sensibilidad estadística , tasa de verdaderos positivos o probabilidad de detección .

Análisis de potencia

Un concepto relacionado es el "análisis de poder". El análisis de potencia se puede utilizar para calcular el tamaño mínimo de muestra requerido para que sea razonablemente probable detectar un efecto de un tamaño determinado . Por ejemplo: "¿Cuántas veces necesito lanzar una moneda para concluir que está manipulada en cierta cantidad?" [1] El análisis de potencia también se puede utilizar para calcular el tamaño mínimo del efecto que probablemente se detecte en un estudio utilizando un tamaño de muestra determinado. Además, el concepto de potencia se utiliza para hacer comparaciones entre diferentes procedimientos de prueba estadística: por ejemplo, entre una prueba paramétrica y una prueba no paramétrica de la misma hipótesis.

Regla de oro

La regla general (aproximadamente) de Lehr [2] [3] dice que el tamaño de la muestra (cada grupo) para una prueba t de dos muestras con potencia del 80% ( ) y nivel de significancia debe ser:

prueba t de una muestra,

En un sentido más general se obtiene: [4] , siendo el z-Score para el nivel de significancia . Por ejemplo, y , así como arriba

Fondo

Las pruebas estadísticas utilizan datos de muestras para evaluar o hacer inferencias sobre una población estadística . En el contexto concreto de una comparación de dos muestras, el objetivo es evaluar si los valores medios de algún atributo obtenidos para individuos en dos subpoblaciones difieren. Por ejemplo, para probar la hipótesis nula de que las puntuaciones medias de hombres y mujeres en una prueba no difieren, se extraen muestras de hombres y mujeres, se les administra la prueba y se compara la puntuación media de un grupo con la de el otro grupo utilizó una prueba estadística como la prueba z de dos muestras . El poder de la prueba es la probabilidad de que la prueba encuentre una diferencia estadísticamente significativa entre hombres y mujeres, en función del tamaño de la diferencia real entre esas dos poblaciones.

Factores que influyen en el poder.

El poder estadístico puede depender de varios factores. Algunos factores pueden ser específicos de una situación de prueba específica, pero como mínimo, la potencia casi siempre depende de los tres factores siguientes:

Un criterio de significancia es una declaración de qué tan improbable debe ser un resultado positivo, si la hipótesis nula de ningún efecto es verdadera, para que se rechace la hipótesis nula. Los criterios más utilizados son probabilidades de 0,05 (5%, 1 en 20), 0,01 (1%, 1 en 100) y 0,001 (0,1%, 1 en 1000). Si el criterio es 0,05, la probabilidad de que los datos impliquen un efecto al menos tan grande como el efecto observado cuando la hipótesis nula es verdadera debe ser menor que 0,05, para que se rechace la hipótesis nula de ningún efecto. Una forma sencilla de aumentar el poder de una prueba es realizar una prueba menos conservadora utilizando un criterio de significancia mayor, por ejemplo 0,10 en lugar de 0,05. Esto aumenta la posibilidad de rechazar la hipótesis nula (obtener un resultado estadísticamente significativo) cuando la hipótesis nula es falsa; es decir, reduce el riesgo de cometer un error tipo II (falso negativo respecto a si existe un efecto). Pero también aumenta el riesgo de obtener un resultado estadísticamente significativo (rechazando la hipótesis nula) cuando la hipótesis nula no es falsa; es decir, aumenta el riesgo de cometer un error tipo I (falso positivo).

La magnitud del efecto de interés en la población se puede cuantificar en términos de tamaño del efecto , donde hay mayor poder para detectar efectos mayores. Un tamaño del efecto puede ser un valor directo de la cantidad de interés o puede ser una medida estandarizada que también tenga en cuenta la variabilidad de la población. Por ejemplo, en un análisis que compara los resultados en una población tratada y de control, la diferencia de las medias de los resultados sería una estimación directa del tamaño del efecto, mientras que sería un tamaño del efecto estandarizado estimado, donde está la desviación estándar común de los resultados en la población tratada y de control. grupos tratados y control. Si se construye adecuadamente, un tamaño del efecto estandarizado, junto con el tamaño de la muestra, determinarán completamente el poder. Un tamaño del efecto no estandarizado (directo) rara vez es suficiente para determinar la potencia, ya que no contiene información sobre la variabilidad en las mediciones.

Un ejemplo de cómo el tamaño de la muestra afecta los niveles de potencia

El tamaño de la muestra determina la cantidad de error de muestreo inherente al resultado de una prueba. En igualdad de condiciones, los efectos son más difíciles de detectar en muestras más pequeñas. Aumentar el tamaño de la muestra suele ser la forma más sencilla de aumentar el poder estadístico de una prueba. La forma en que un mayor tamaño de muestra se traduce en una mayor potencia es una medida de la eficiencia de la prueba; por ejemplo, el tamaño de muestra requerido para una potencia determinada. [5]

La precisión con la que se miden los datos también influye en el poder estadístico. En consecuencia, la potencia a menudo se puede mejorar reduciendo el error de medición en los datos. Un concepto relacionado es mejorar la "confiabilidad" de la medida que se evalúa (como en la confiabilidad psicométrica ).

El diseño de un experimento o estudio observacional muchas veces influye en el poder. Por ejemplo, en una situación de prueba de dos muestras con un tamaño de muestra total dado n , es óptimo tener un número igual de observaciones de las dos poblaciones que se comparan (siempre que las varianzas en las dos poblaciones sean las mismas). En el análisis de regresión y el análisis de varianza , existen amplias teorías y estrategias prácticas para mejorar el poder basadas en establecer de manera óptima los valores de las variables independientes en el modelo.

Interpretación

Aunque no existen estándares formales para el poder (a veces denominados π [ cita necesaria ] ), la mayoría de los investigadores evalúan el poder de sus pruebas utilizando π  = 0,80 como estándar de adecuación. Esta convención implica una compensación de cuatro a uno entre el riesgo β y el riesgo α . ( β es la probabilidad de un error de tipo II y α es la probabilidad de un error de tipo I; 0,2 y 0,05 son valores convencionales para β y α ). Sin embargo, habrá ocasiones en que esta ponderación de 4 a 1 sea inapropiada. En medicina, por ejemplo, las pruebas suelen diseñarse de tal manera que no se produzcan falsos negativos (errores de tipo II). Pero esto inevitablemente aumenta el riesgo de obtener un falso positivo (un error de tipo I). La razón es que es mejor decirle a un paciente sano "es posible que hayamos encontrado algo; hagamos más pruebas", que decirle a un paciente enfermo "todo está bien". [6]

El análisis de poder es apropiado cuando la preocupación es el rechazo correcto de una hipótesis nula falsa. En muchos contextos, la cuestión no es tanto determinar si hay o no una diferencia sino más bien obtener una estimación más refinada del tamaño del efecto poblacional. Por ejemplo, si esperáramos una correlación poblacional entre la inteligencia y el desempeño laboral de alrededor de 0,50, un tamaño de muestra de 20 nos dará aproximadamente un 80% de poder ( α  = 0,05, dos colas) para rechazar la hipótesis nula de correlación cero. Sin embargo, al realizar este estudio probablemente estemos más interesados ​​en saber si la correlación es 0,30, 0,60 o 0,50. En este contexto, necesitaríamos un tamaño de muestra mucho mayor para reducir el intervalo de confianza de nuestra estimación a un rango que sea aceptable para nuestros propósitos. Se pueden utilizar técnicas similares a las empleadas en un análisis de potencia tradicional para determinar el tamaño de muestra requerido para que la amplitud de un intervalo de confianza sea menor que un valor determinado.

Muchos análisis estadísticos implican la estimación de varias cantidades desconocidas. En casos simples, todas menos una de estas cantidades son parámetros molestos . En este contexto, el único poder relevante corresponde a la cantidad única que se someterá a una inferencia estadística formal. En algunos entornos, particularmente si los objetivos son más "exploratorios", puede haber una serie de cantidades de interés en el análisis. Por ejemplo, en un análisis de regresión múltiple podemos incluir varias covariables de interés potencial. En situaciones como ésta, en las que se consideran varias hipótesis, es común que las potencias asociadas con las diferentes hipótesis difieran. Por ejemplo, en el análisis de regresión múltiple, el poder para detectar un efecto de un tamaño determinado está relacionado con la varianza de la covariable. Dado que diferentes covariables tendrán diferentes variaciones, sus poderes también serán diferentes.

Cualquier análisis estadístico que implique múltiples hipótesis está sujeto a una inflación de la tasa de error tipo I si no se toman las medidas adecuadas. Estas medidas suelen implicar la aplicación de un umbral más alto de rigor para rechazar una hipótesis a fin de compensar las múltiples comparaciones que se realizan ( por ejemplo , como en el método Bonferroni ). En esta situación, el análisis de potencia debe reflejar el enfoque de pruebas múltiples que se utilizará. Así, por ejemplo, un estudio determinado puede tener suficiente poder para detectar un determinado tamaño del efecto cuando solo se realiza una prueba, pero el mismo tamaño del efecto puede tener un poder mucho menor si se realizan varias pruebas.

También es importante considerar el poder estadístico de una prueba de hipótesis al interpretar sus resultados. La potencia de una prueba es la probabilidad de rechazar correctamente la hipótesis nula cuando es falsa; El poder de una prueba está influenciado por la elección del nivel de significancia de la prueba, el tamaño del efecto que se mide y la cantidad de datos disponibles. Una prueba de hipótesis puede no rechazar el resultado nulo, por ejemplo, si existe una diferencia verdadera entre dos poblaciones que se comparan mediante una prueba t , pero el efecto es pequeño y el tamaño de la muestra es demasiado pequeño para distinguir el efecto del azar. [7] Muchos ensayos clínicos , por ejemplo, tienen un poder estadístico bajo para detectar diferencias en los efectos adversos de los tratamientos, ya que dichos efectos pueden ser raros y el número de pacientes afectados es pequeño. [8]

Análisis a priori versus análisis post hoc

El análisis de poder se puede realizar antes ( análisis de poder a priori o prospectivo) o después ( análisis de poder post hoc o retrospectivo) de que se recopilen los datos. El análisis de potencia a priori se realiza antes del estudio de investigación y normalmente se utiliza para estimar tamaños de muestra suficientes para lograr una potencia adecuada. El análisis post hoc del "poder observado" se realiza después de que se ha completado un estudio y utiliza el tamaño de la muestra y el tamaño del efecto obtenidos para determinar cuál fue el poder en el estudio, asumiendo que el tamaño del efecto en la muestra es igual al tamaño del efecto. en la población. Mientras que la utilidad del análisis de poder prospectivo en el diseño experimental es universalmente aceptada, el análisis de poder post hoc es fundamentalmente defectuoso. [9] [10] Caer en la tentación de utilizar el análisis estadístico de los datos recopilados para estimar la potencia dará como resultado valores poco informativos y engañosos. En particular, se ha demostrado que el "poder observado" post-hoc es una función uno a uno del valor p alcanzado. [9] Esto se ha ampliado para mostrar que todos los análisis de poder post-hoc sufren de lo que se llama la "paradoja del enfoque de poder" (PAP), en la que se cree que un estudio con un resultado nulo muestra más evidencia de que la hipótesis nula es En realidad es cierto cuando el valor p es menor, ya que el poder aparente para detectar un efecto real sería mayor. [9] De hecho, se entiende correctamente que un valor p más pequeño hace que la hipótesis nula tenga relativamente menos probabilidades de ser cierta. [ cita necesaria ]

Solicitud

Las agencias de financiación, las juntas de ética y los paneles de revisión de investigaciones con frecuencia solicitan que un investigador realice un análisis de potencia, por ejemplo, para determinar el número mínimo de sujetos de experimentación con animales necesarios para que un experimento sea informativo. En las estadísticas frecuentistas , es poco probable que un estudio con poco poder estadístico permita elegir entre hipótesis con el nivel de significancia deseado. En la estadística bayesiana , no se realizan pruebas de hipótesis del tipo utilizado en el análisis de potencia clásico. En el marco bayesiano, uno actualiza sus creencias previas utilizando los datos obtenidos en un estudio determinado. En principio, un estudio que se consideraría poco potente desde la perspectiva de la prueba de hipótesis aún podría utilizarse en dicho proceso de actualización. Sin embargo, el poder sigue siendo una medida útil de cuánto se puede esperar que un determinado tamaño de experimento refine las propias creencias. Es poco probable que un estudio con bajo poder estadístico conduzca a un gran cambio en las creencias.

Ejemplo

El siguiente es un ejemplo que muestra cómo calcular la potencia para un experimento aleatorio: supongamos que el objetivo de un experimento es estudiar el efecto de un tratamiento sobre alguna cantidad y comparar sujetos de investigación midiendo la cantidad antes y después del tratamiento, analizando la datos utilizando una prueba t pareada . Sean y denoten las medidas previas y posteriores al tratamiento del sujeto , respectivamente. El posible efecto del tratamiento debería ser visible en las diferencias que se supone están distribuidas independientemente, todas con el mismo valor medio y varianza esperados.

El efecto del tratamiento se puede analizar mediante una prueba t unilateral. La hipótesis nula de ningún efecto será que la diferencia de medias será cero, es decir, en este caso, la hipótesis alternativa establece un efecto positivo, correspondiente a El estadístico de prueba es:

dónde

n es el tamaño de la muestra y es el error estándar. El estadístico de prueba bajo la hipótesis nula sigue una distribución t de Student con el supuesto adicional de que los datos están distribuidos de manera idéntica . Además, supongamos que la hipótesis nula será rechazada en el nivel de significancia de Dado que n es grande, se puede aproximar la distribución t mediante una distribución normal y calcular el valor crítico utilizando la función cuantil , la inversa de la función de distribución acumulativa de la distribución normal. Resulta que la hipótesis nula será rechazada si

Ahora supongamos que la hipótesis alternativa es verdadera y . Entonces, el poder es

Para n grande , sigue aproximadamente una distribución normal estándar cuando la hipótesis alternativa es verdadera, la potencia aproximada se puede calcular como

Según esta fórmula, la potencia aumenta con los valores del parámetro. Para un valor específico de una potencia mayor se puede obtener aumentando el tamaño de la muestra n .

No es posible garantizar una potencia suficientemente grande para todos los valores de, ya que puede estar muy cerca de 0. El valor mínimo ( ínfimo ) de la potencia es igual al nivel de confianza de la prueba, en este ejemplo 0,05. Sin embargo, no tiene importancia distinguir entre valores positivos pequeños. Si es deseable tener potencia suficiente, digamos al menos 0,90, para detectar valores del tamaño de muestra requerido, se pueden calcular aproximadamente:

de lo cual se deduce que

Por lo tanto, usando la función cuantil

¿ Dónde está el cuantil normal estándar? consulte el artículo de Probit para obtener una explicación de la relación entre los valores z y.

Extensión

poder bayesiano

En el contexto frecuentista , se supone que los parámetros tienen un valor específico que es poco probable que sea cierto. Este problema se puede solucionar suponiendo que el parámetro tiene una distribución. La potencia resultante a veces se denomina potencia bayesiana y se utiliza habitualmente en el diseño de ensayos clínicos .

Probabilidad predictiva de éxito

Tanto el poder frecuentista como el poder bayesiano utilizan la significación estadística como criterio de éxito. Sin embargo, la significancia estadística a menudo no es suficiente para definir el éxito. Para abordar esta cuestión, el concepto de poder puede ampliarse al concepto de probabilidad predictiva de éxito (PPOS). El criterio de éxito para PPOS no se limita a la significación estadística y se utiliza comúnmente en diseños de ensayos clínicos .

Software para cálculos de potencia y tamaño de muestra.

Hay numerosos programas gratuitos y/o de código abierto disponibles para realizar cálculos de potencia y tamaño de muestra. Éstas incluyen

Ver también

Referencias

  1. ^ "Poder estadístico y estadísticas con poca potencia: estadísticas hechas mal". www.estadísticasdonewrong.com . Consultado el 30 de septiembre de 2019 .
  2. ^ Robert Lehr (1992), "Dieciséis cuadrados sobre D cuadrados: una relación para estimaciones brutas del tamaño de la muestra", Statistics in Medicine (en alemán), vol. 11, núm. 8, págs. 1099–1102, doi :10.1002/sim.4780110811, ISSN  0277-6715
  3. ^ van Belle, Gerald (18 de agosto de 2008). Reglas generales estadísticas, segunda edición. Serie Wiley en probabilidad y estadística. Hoboken, Nueva Jersey, EE. UU.: John Wiley & Sons, Inc. ISBN 978-0-470-37796-3.
  4. ^ Estimación del tamaño de la muestra en investigaciones clínicas, desde ensayos controlados aleatorios hasta estudios observacionales, 2020, doi: 10.1016/j.chest.2020.03.010, Xiaofeng Wang, PhD; y Xinge Ji, MS pdf
  5. ^ Everitt, Brian S. (2002). El Diccionario de Estadística de Cambridge . Prensa de la Universidad de Cambridge. pag. 321.ISBN 0-521-81099-X.
  6. ^ Ellis, Paul D. (2010). La guía esencial sobre los tamaños de los efectos: una introducción al poder estadístico, el metanálisis y la interpretación de los resultados de la investigación . Reino Unido: Cambridge University Press.
  7. ^ Ellis, Paul (2010). La guía esencial sobre los tamaños de los efectos: poder estadístico, metanálisis e interpretación de los resultados de la investigación . Prensa de la Universidad de Cambridge. pag. 52.ISBN 978-0521142465.
  8. ^ Tsang, R.; Colley, L.; Lynd, LD (2009). "Poder estadístico inadecuado para detectar diferencias clínicamente significativas en las tasas de eventos adversos en ensayos controlados aleatorios". Revista de epidemiología clínica . 62 (6): 609–616. doi :10.1016/j.jclinepi.2008.08.005. PMID  19013761.
  9. ^ abcHoenig ; Heisey (2001). "El abuso de poder". El estadístico estadounidense . 55 (1): 19-24. doi :10.1198/000313001300339897.
  10. ^ Thomas, L. (1997). "Análisis de poder retrospectivo" (PDF) . Biología de la Conservación . 11 (1): 276–280.

Fuentes

enlaces externos