Probabilidad de cometer errores de tipo I al realizar pruebas de hipótesis múltiples
En estadística , la tasa de error familiar ( FWER ) es la probabilidad de cometer uno o más descubrimientos falsos, o errores tipo I, al realizar múltiples pruebas de hipótesis .
Tasas de error por familia y por experimento
John Tukey desarrolló en 1953 el concepto de tasa de error por familia como la probabilidad de cometer un error de tipo I entre un grupo específico, o "familia", de pruebas. [1] Ryan (1959) propuso el concepto relacionado de tasa de error por experimento , que es la probabilidad de cometer un error de tipo I en un experimento dado. [2] Por lo tanto, una tasa de error por experimento es una tasa de error por familia donde la familia incluye todas las pruebas que se realizan dentro de un experimento.
Como explicó Ryan (1959, nota al pie 3), un experimento puede contener dos o más familias de comparaciones múltiples, cada una de las cuales se relaciona con una inferencia estadística particular y cada una de las cuales tiene su propia tasa de error por familia. [2] Por lo tanto, las tasas de error por familia suelen basarse en colecciones teóricamente informativas de comparaciones múltiples. En cambio, una tasa de error por experimento puede basarse en una colección de comparaciones simultáneas que se refieren a una gama diversa de inferencias separadas. Algunos han argumentado que puede no ser útil controlar la tasa de error por experimento en tales casos. [3] De hecho, Tukey sugirió que el control por familia era preferible en tales casos (Tukey, 1956, comunicación personal, en Ryan, 1962, p. 302). [4]
Fondo
Dentro del marco estadístico existen varias definiciones del término “familia”:
- Hochberg y Tamhane (1987) definieron “familia” como “cualquier conjunto de inferencias para las cuales es significativo tener en cuenta alguna medida combinada de error”. [3]
- Según Cox (1982), un conjunto de inferencias debe considerarse una familia: [ cita requerida ]
- Para tener en cuenta el efecto de selección debido al dragado de datos
- Para garantizar la exactitud simultánea de un conjunto de inferencias a fin de garantizar una decisión global correcta
En resumen, una familia se podría definir mejor por la inferencia selectiva potencial a la que se enfrenta: una familia es el conjunto más pequeño de elementos de inferencia en un análisis, intercambiables en cuanto a su significado para el objetivo de la investigación, a partir del cual se podría hacer la selección de resultados para la acción, la presentación o el resaltado ( Yoav Benjamini ). [ cita requerida ]
Clasificación de pruebas de hipótesis múltiples
La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: H 1 , H 2 , ..., H m .
Mediante una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. Al sumar cada tipo de resultado sobre todos los H i, obtenemos las siguientes variables aleatorias:
En m pruebas de hipótesis de las cuales las hipótesis nulas son verdaderas, R es una variable aleatoria observable y S , T , U y V son variables aleatorias no observables .
Definición
La FWER es la probabilidad de cometer al menos un error tipo I en la familia,
o equivalentemente,
De esta manera, al asegurar , se controla en el nivel la probabilidad de cometer uno o más errores tipo I en la familia .
Un procedimiento controla la FWER en el sentido débil si el control de la FWER en el nivel está garantizado solo cuando todas las hipótesis nulas son verdaderas (es decir, cuando , es decir, la "hipótesis nula global" es verdadera). [5]
Un procedimiento controla la FWER en sentido fuerte si el control de la FWER a nivel está garantizado para cualquier configuración de hipótesis nulas verdaderas y no verdaderas (ya sea que la hipótesis nula global sea verdadera o no). [6]
Procedimientos de control
Existen algunas soluciones clásicas que garantizan un fuerte nivel de control FWER y algunas soluciones más nuevas.
El procedimiento de Bonferroni
- Denote por el valor p para la prueba
- rechazar si
El procedimiento Šidák
- Probar cada hipótesis a nivel es el procedimiento de pruebas múltiples de Sidak.
- Este procedimiento es más potente que el de Bonferroni pero la ganancia es pequeña.
- Este procedimiento puede fallar en el control del FWER cuando las pruebas son negativamente dependientes.
Procedimiento de Tukey
- El procedimiento de Tukey sólo es aplicable para comparaciones por pares.
- Supone la independencia de las observaciones que se prueban, así como una variación igual entre las observaciones ( homocedasticidad ).
- El procedimiento calcula para cada par la estadística de rango estudentizado : donde es la mayor de las dos medias que se comparan, es la menor y es el error estándar de los datos en cuestión. [ cita requerida ]
- La prueba de Tukey es esencialmente una prueba t de Student , excepto que corrige la tasa de error a nivel de familia . [ cita requerida ]
Procedimiento de reducción gradual de Holm (1979)
- Comience ordenando los valores p (del más bajo al más alto) y deje que las hipótesis asociadas sean
- Sea el índice mínimo tal que
- Rechace las hipótesis nulas . Si no se rechaza ninguna de las hipótesis. [ cita requerida ]
Este procedimiento es uniformemente más potente que el procedimiento de Bonferroni. [7]
La razón por la que este procedimiento controla la tasa de error por familia para todas las hipótesis m en el nivel α en el sentido fuerte es porque es un procedimiento de prueba cerrado . Como tal, cada intersección se prueba utilizando la prueba simple de Bonferroni. [ cita requerida ]
Procedimiento de ascenso de Hochberg
El procedimiento de aumento gradual de Hochberg (1988) se realiza utilizando los siguientes pasos: [8]
- Comience ordenando los valores p (del más bajo al más alto) y deje que las hipótesis asociadas sean
- Para un dado , sea el más grande tal que
- Rechazar las hipótesis nulas
El procedimiento de Hochberg es más potente que el de Holm. Sin embargo, mientras que el de Holm es un procedimiento de prueba cerrado (y por lo tanto, como el de Bonferroni, no tiene restricción en la distribución conjunta de las estadísticas de prueba), el de Hochberg se basa en la prueba de Simes, por lo que se cumple solo bajo dependencia no negativa. [ cita requerida ] La prueba de Simes se deriva bajo el supuesto de pruebas independientes; [9] es conservadora para pruebas que son positivamente dependientes en cierto sentido [10] [11] y es anticonservadora para ciertos casos de dependencia negativa. [12] [13] Sin embargo, se ha sugerido que una versión modificada del procedimiento de Hochberg sigue siendo válida bajo dependencia negativa general. [14]
Corrección de Dunnett
Charles Dunnett (1955, 1966) describió un ajuste de error alfa alternativo cuando se comparan grupos k con el mismo grupo de control. Este método, ahora conocido como prueba de Dunnett, es menos conservador que el ajuste de Bonferroni. [ cita requerida ]
El método de Scheffé
Procedimientos de remuestreo
Los procedimientos de Bonferroni y Holm controlan el FWER bajo cualquier estructura de dependencia de los valores p (o equivalentemente, las estadísticas de prueba individuales). Esencialmente, esto se logra al acomodar una estructura de dependencia del "peor caso" (que está cerca de la independencia para la mayoría de los propósitos prácticos). Pero tal enfoque es conservador si la dependencia es realmente positiva. Para dar un ejemplo extremo, bajo una dependencia positiva perfecta, efectivamente hay solo una prueba y, por lo tanto, el FWER no está inflado.
La consideración de la estructura de dependencia de los valores p (o de las estadísticas de prueba individuales) produce procedimientos más potentes. Esto se puede lograr aplicando métodos de remuestreo, como los métodos de bootstrap y permutaciones. El procedimiento de Westfall y Young (1993) requiere una determinada condición que no siempre se cumple en la práctica (a saber, la pivotalidad de los subconjuntos). [15] Los procedimientos de Romano y Wolf (2005a,b) prescinden de esta condición y, por lo tanto, son más válidos en general. [16] [17]
Media armónicapag-Procedimiento de valor
El procedimiento de valor p de media armónica (HMP) [18] [19] proporciona una prueba multinivel que mejora el poder de la corrección de Bonferroni al evaluar la significancia de grupos de hipótesis mientras se controla la tasa de error de sentido fuerte por familia. La significancia de cualquier subconjunto de las pruebas se evalúa calculando el HMP para el subconjunto, donde son pesos que suman uno (es decir, ). Un procedimiento aproximado que controla la tasa de error de sentido fuerte por familia en el nivel aproximadamente rechaza la hipótesis nula de que ninguno de los valores p en el subconjunto es significativo cuando [20] (donde ). Esta aproximación es razonable para pequeños (por ejemplo, ) y se vuelve arbitrariamente buena a medida que se acerca a cero. También está disponible una prueba asintóticamente exacta (ver artículo principal ).
Enfoques alternativos
El control FWER ejerce un control más estricto sobre los falsos descubrimientos en comparación con los procedimientos de tasa de falsos descubrimientos (FDR). El control FWER limita la probabilidad de al menos un falso descubrimiento, mientras que el control FDR limita (en un sentido amplio) la proporción esperada de falsos descubrimientos. Por lo tanto, los procedimientos FDR tienen mayor poder a costa de mayores tasas de errores de tipo I , es decir, rechazar hipótesis nulas que son realmente verdaderas. [21]
Por otra parte, el control FWER es menos estricto que el control de la tasa de error por familia, que limita el número esperado de errores por familia. Como el control FWER se ocupa de al menos un falso descubrimiento, a diferencia del control de la tasa de error por familia, no trata los falsos descubrimientos simultáneos múltiples como algo peor que un solo falso descubrimiento. La corrección de Bonferroni se considera a menudo como un simple control del FWER, pero de hecho también controla la tasa de error por familia. [22]
Referencias
- ^ Tukey, JW (1953). El problema de las comparaciones múltiples .Basado en Tukey (1953),
- ^ ab Ryan, Thomas A. (1959). "Comparación múltiple en la investigación psicológica". Psychological Bulletin . 56 (1). Asociación Estadounidense de Psicología (APA): 26–47. doi :10.1037/h0042478. ISSN 1939-1455. PMID 13623958.
- ^ ab Hochberg, Y.; Tamhane, AC (1987). Procedimientos de comparación múltiple . Nueva York: Wiley. p. 5. ISBN 978-0-471-82222-6.
- ^ Ryan, TA (1962). "El experimento como unidad para calcular tasas de error". Psychological Bulletin . 59 (4): 301–305. doi :10.1037/h0040562. PMID 14495585.
- ^ Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Problemas de pruebas múltiples en las estadísticas farmacéuticas (1.ª ed.). CRC Press. pág. 37. ISBN 9781584889847.
- ^ Dmitrienko, Alex; Tamhane, Ajit; Bretz, Frank (2009). Problemas de pruebas múltiples en las estadísticas farmacéuticas (1.ª ed.). CRC Press. pág. 37. ISBN 9781584889847.
- ^ Aickin, M; Gensler, H (1996). "Ajuste de pruebas múltiples al informar los resultados de una investigación: los métodos Bonferroni vs Holm". American Journal of Public Health . 86 (5): 726–728. doi :10.2105/ajph.86.5.726. PMC 1380484 . PMID 8629727.
- ^ Hochberg, Yosef (1988). "Un procedimiento Bonferroni más preciso para múltiples pruebas de significancia" (PDF) . Biometrika . 75 (4): 800–802. doi :10.1093/biomet/75.4.800.
- ^ Simes, RJ (1986). "Un procedimiento de Bonferroni mejorado para múltiples pruebas de significación". Biometrika . 73 (3): 751–754. doi :10.1093/biomet/73.3.751.
- ^ Sarkar, Sanat K.; Chang, Chung-Kuei (1997). "El método Simes para pruebas de hipótesis múltiples con estadísticas de prueba de dependencia positiva". Revista de la Asociación Estadounidense de Estadística . 92 (440): 1601–1608. doi :10.1080/01621459.1997.10473682.
- ^ Sarkar, Sanat K. (1998). "Algunas desigualdades de probabilidad para variables aleatorias MTP2 ordenadas: una prueba de la conjetura de Simes". Anales de Estadística . 26 (2): 494–504. doi :10.1214/aos/1028144846.
- ^ Samuel-Cahn, Ester (1996). "¿Es conservador el procedimiento de Bonferroni mejorado por Simes?". Biometrika . 83 (4): 928–933. doi :10.1093/biomet/83.4.928.
- ^ Block, Henry W.; Savits, Thomas H.; Wang, Jie (2008). "Dependencia negativa y la desigualdad de Simes". Revista de planificación e inferencia estadística . 138 (12): 4107–4110. doi :10.1016/j.jspi.2008.03.026.
- ^ Gou, Jiangtao; Tamhane, Ajit C. (2018). "Procedimiento de Hochberg bajo dependencia negativa" (PDF) . Statistica Sinica . 28 : 339–362. doi :10.5705/ss.202016.0306.
- ^ Westfall, PH; Young, SS (1993). Pruebas múltiples basadas en remuestreo: ejemplos y métodos para el ajuste del valor p . Nueva York: John Wiley. ISBN 978-0-471-55761-6.
- ^ Romano, JP; Wolf, M. (2005a). "Métodos de reducción exactos y aproximados para pruebas de hipótesis múltiples". Revista de la Asociación Estadounidense de Estadística . 100 (469): 94–108. doi :10.1198/016214504000000539. hdl : 10230/576 . S2CID : 219594470.
- ^ Romano, JP; Wolf, M. (2005b). "Pruebas múltiples por pasos como espionaje de datos formalizado". Econometrica . 73 (4): 1237–1282. CiteSeerX 10.1.1.198.2473 . doi :10.1111/j.1468-0262.2005.00615.x.
- ^ Good, IJ (1958). "Pruebas de significancia en paralelo y en serie". Revista de la Asociación Estadounidense de Estadística . 53 (284): 799–813. doi :10.1080/01621459.1958.10501480. JSTOR 2281953.
- ^ Wilson, DJ (2019). "El valor p de la media armónica para combinar pruebas dependientes". Actas de la Academia Nacional de Ciencias de Estados Unidos . 116 (4): 1195–1200. Bibcode :2019PNAS..116.1195W. doi : 10.1073/pnas.1814092116 . PMC 6347718 . PMID 30610179.
- ^ Ciencias, Academia Nacional de Ciencias (2019-10-22). "Corrección para Wilson, el valor p de la media armónica para combinar pruebas dependientes". Actas de la Academia Nacional de Ciencias . 116 (43): 21948. Bibcode :2019PNAS..11621948.. doi : 10.1073/pnas.1914128116 . PMC 6815184 . PMID 31591234.
- ^ Shaffer, JP (1995). "Prueba de hipótesis múltiples". Revista Anual de Psicología . 46 : 561–584. doi :10.1146/annurev.ps.46.020195.003021. hdl : 10338.dmlcz/142950 .
- ^ Frane, Andrew (2015). "¿Son relevantes las tasas de error de tipo I per famila en las ciencias sociales y del comportamiento?". Journal of Modern Applied Statistical Methods . 14 (1): 12–23. doi : 10.22237/jmasm/1430453040 (inactivo 2024-11-02).
{{cite journal}}
: CS1 maint: DOI inactive as of November 2024 (link)
Enlaces externos
- Comprender la tasa de error de Family Wise: publicación de blog que incluye su utilidad en relación con la tasa de descubrimientos falsos