Método estadístico para el manejo de comparaciones múltiples
En estadística , la tasa de falsos descubrimientos ( FDR ) es un método para conceptualizar la tasa de errores de tipo I en las pruebas de hipótesis nulas cuando se realizan comparaciones múltiples . Los procedimientos de control de FDR están diseñados para controlar la FDR, que es la proporción esperada de "descubrimientos" ( hipótesis nulas rechazadas ) que son falsas (rechazos incorrectos de la nula). [1] De manera equivalente, la FDR es la relación esperada entre el número de clasificaciones de falsos positivos (falsos descubrimientos) y el número total de clasificaciones positivas (rechazos de la nula). El número total de rechazos de la nula incluye tanto el número de falsos positivos (FP) como el de verdaderos positivos (TP). En pocas palabras, FDR = FP / (FP + TP). Los procedimientos de control de FDR proporcionan un control menos estricto de los errores de tipo I en comparación con los procedimientos de control de la tasa de error por familia (FWER) (como la corrección de Bonferroni ), que controlan la probabilidad de al menos un error de tipo I. Por lo tanto, los procedimientos de control FDR tienen mayor poder , a costa de un mayor número de errores de tipo I. [2]
Historia
Motivaciones tecnológicas
Se cree que el uso generalizado moderno del FDR se debe y está motivado por el desarrollo de tecnologías que permitieron la recopilación y el análisis de una gran cantidad de variables distintas en varios individuos (por ejemplo, el nivel de expresión de cada uno de 10 000 genes diferentes en 100 personas diferentes). [3] A fines de la década de 1980 y en la de 1990, el desarrollo de ciencias de "alto rendimiento", como la genómica , permitió la adquisición rápida de datos. Esto, junto con el crecimiento de la potencia informática, hizo posible realizar sin problemas una gran cantidad de pruebas estadísticas en un conjunto de datos determinado. La tecnología de microarrays fue un ejemplo prototípico, ya que permitió probar miles de genes simultáneamente para determinar su expresión diferencial entre dos condiciones biológicas. [4]
A medida que las tecnologías de alto rendimiento se hicieron comunes, las limitaciones tecnológicas y/o financieras llevaron a los investigadores a recopilar conjuntos de datos con tamaños de muestra relativamente pequeños (por ejemplo, pocos individuos sometidos a prueba) y grandes cantidades de variables medidas por muestra (por ejemplo, miles de niveles de expresión genética). En estos conjuntos de datos, muy pocas de las variables medidas mostraron significación estadística después de la corrección clásica para múltiples pruebas con procedimientos estándar de comparación múltiple . Esto creó una necesidad dentro de muchas comunidades científicas de abandonar FWER y las pruebas de hipótesis múltiples no ajustadas para otras formas de resaltar y clasificar en publicaciones aquellas variables que muestran efectos marcados en individuos o tratamientos que de otro modo se descartarían como no significativos después de la corrección estándar para múltiples pruebas. En respuesta a esto, se han propuesto una variedad de tasas de error (y se han vuelto de uso común en publicaciones) que son menos conservadoras que FWER para marcar observaciones posiblemente dignas de mención. El FDR es útil cuando los investigadores buscan "descubrimientos" que les proporcionarán trabajo de seguimiento (por ejemplo: detectar genes prometedores para estudios de seguimiento) y están interesados en controlar la proporción de "pistas falsas" que están dispuestos a aceptar.
Literatura
El concepto FDR fue descrito formalmente por Yoav Benjamini y Yosef Hochberg en 1995 [1] (procedimiento BH) como un enfoque menos conservador y posiblemente más apropiado para identificar los pocos efectos importantes de los muchos efectos triviales evaluados. El FDR ha sido particularmente influyente, ya que fue la primera alternativa al FWER en obtener una amplia aceptación en muchos campos científicos (especialmente en las ciencias de la vida, desde la genética hasta la bioquímica, la oncología y las ciencias vegetales). [3] En 2005, el artículo de Benjamini y Hochberg de 1995 fue identificado como uno de los 25 artículos estadísticos más citados. [5]
Antes de la introducción del concepto FDR en 1995, se habían considerado varias ideas precursoras en la literatura estadística. En 1979, Holm propuso el procedimiento Holm [6] , un algoritmo paso a paso para controlar el FWER que es al menos tan poderoso como el conocido ajuste de Bonferroni . Este algoritmo paso a paso ordena los valores p y rechaza secuencialmente las hipótesis comenzando por los valores p más pequeños .
Benjamini (2010) afirmó que la tasa de falsos descubrimientos, [3] y el artículo de Benjamini y Hochberg (1995), tuvo su origen en dos artículos relacionados con pruebas múltiples:
El primer artículo es de Schweder y Spjotvoll (1982) quienes sugirieron graficar los valores p ordenados y evaluar el número de hipótesis nulas verdaderas ( ) a través de una línea ajustada a ojo comenzando desde los valores p más grandes . [7] Los valores p que se desvían de esta línea recta deberían corresponder entonces a las hipótesis nulas falsas. Esta idea fue desarrollada posteriormente en un algoritmo e incorporó la estimación de en procedimientos como Bonferroni, Holm o Hochberg. [8] Esta idea está estrechamente relacionada con la interpretación gráfica del procedimiento BH.
El segundo artículo es de Branko Soric (1989), quien introdujo la terminología de "descubrimiento" en el contexto de las pruebas de hipótesis múltiples. [9] Soric utilizó el número esperado de descubrimientos falsos dividido por el número de descubrimientos como advertencia de que "una gran parte de los descubrimientos estadísticos pueden ser erróneos". Esto llevó a Benjamini y Hochberg a la idea de que una tasa de error similar, en lugar de ser simplemente una advertencia, puede servir como un objetivo digno de controlar.
En 1995, Benjamini y Hochberg demostraron que el procedimiento BH controlaba el FDR en pruebas independientes. [1] En 1986, RJ Simes propuso el mismo procedimiento que el "procedimiento Simes", con el fin de controlar el FWER en el sentido débil (bajo la hipótesis nula de intersección) cuando las estadísticas son independientes. [10]
Definiciones
Basándonos en las definiciones que aparecen a continuación, podemos definir Q como la proporción de descubrimientos falsos entre los descubrimientos (rechazos de la hipótesis nula):
donde es el número de descubrimientos falsos y es el número de descubrimientos verdaderos.
La tasa de falsos descubrimientos ( FDR ) es entonces simplemente: [1]
donde es el valor esperado de . El objetivo es mantener la FDR por debajo de un umbral dado q . Para evitar la división por cero , se define como 0 cuando . Formalmente, . [1]
Clasificación de pruebas de hipótesis múltiples
La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: H 1 , H 2 , ..., H m .
Mediante una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. Al sumar cada tipo de resultado sobre todos los H i, obtenemos las siguientes variables aleatorias:
m es el número total de hipótesis probadas
es el número de hipótesis nulas verdaderas , un parámetro desconocido
es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", ya sean verdaderas o falsas)
En m pruebas de hipótesis de las cuales las hipótesis nulas son verdaderas, R es una variable aleatoria observable y S , T , U y V son variables aleatorias no observables .
Procedimientos de control
La configuración de muchos procedimientos es tal que tenemos hipótesis nulas probadas y sus valores p correspondientes . Enumeramos estos valores p en orden ascendente y los denotamos por . Un procedimiento que va desde un estadístico de prueba pequeño a uno grande se llamará procedimiento de "paso ascendente". De manera similar, en un procedimiento de "paso descendente" pasamos de un estadístico de prueba grande correspondiente a uno más pequeño.
Procedimiento de Benjamini-Hochberg
El procedimiento Benjamini-Hochberg (procedimiento de aumento gradual de BH) controla el FDR en el nivel . [1] Funciona de la siguiente manera:
Para un dado , encuentre el k más grande tal que
Rechazar la hipótesis nula (es decir, declarar descubrimientos) para todos
Geométricamente, esto corresponde a graficar vs. k (en los ejes y y x respectivamente), trazar la línea a través del origen con pendiente y declarar descubrimientos para todos los puntos de la izquierda, hasta, e incluyendo, el último punto que no esté por encima de la línea.
El procedimiento BH es válido cuando las pruebas m son independientes y también en varios escenarios de dependencia, pero no es universalmente válido. [11] También satisface la desigualdad:
si se inserta un estimador de en el procedimiento BH, ya no se garantiza que se logre el control FDR en el nivel deseado. [3] Es posible que se necesiten ajustes en el estimador y se han propuesto varias modificaciones. [12] [13] [14] [15]
Tenga en cuenta que la media de estas pruebas m es , la Media(FDR ) o MFDR, ajustada para m pruebas independientes o correlacionadas positivamente (consulte AFDR a continuación). La expresión MFDR aquí es para un único valor recalculado de y no es parte del método de Benjamini y Hochberg.
Procedimiento de Benjamini-Yekutieli
El procedimiento Benjamini-Yekutieli controla la tasa de descubrimientos falsos bajo supuestos de dependencia arbitrarios. [11] Este refinamiento modifica el umbral y encuentra el k más grande tal que:
Si las pruebas son independientes o están correlacionadas positivamente (como en el procedimiento de Benjamini-Hochberg):
Usando MFDR y las fórmulas anteriores, un MFDR ajustado (o AFDR) es el mínimo de la media para m pruebas dependientes, es decir, .
Otra forma de abordar la dependencia es mediante el bootstrap y la realeatorización. [4] [16] [17]
El uso de un procedimiento de multiplicidad que controle el criterio FDR es adaptativo y escalable . Esto significa que el control del FDR puede ser muy permisivo (si los datos lo justifican) o conservador (actuando cerca del control de FWER para un problema disperso), todo dependiendo del número de hipótesis probadas y del nivel de significancia. [3]
El criterio FDR se adapta de modo que la misma cantidad de descubrimientos falsos (V) tendrá diferentes implicaciones, dependiendo de la cantidad total de descubrimientos (R). Esto contrasta con el criterio de tasa de error por familia . Por ejemplo, si se examinan 100 hipótesis (por ejemplo, 100 mutaciones genéticas o SNP para determinar su asociación con algún fenotipo en alguna población):
Si hacemos 4 descubrimientos (R), que 2 de ellos sean falsos (V) suele ser muy costoso.
Si hacemos 50 descubrimientos (R), que 2 de ellos sean descubrimientos falsos (V) no suele ser muy costoso.
El criterio FDR es escalable en el sentido de que la misma proporción de descubrimientos falsos respecto del número total de descubrimientos (Q) sigue siendo razonable para un número diferente de descubrimientos totales (R). Por ejemplo:
Si hacemos 100 descubrimientos (R), que 5 de ellos sean descubrimientos falsos ( ) puede no resultar muy costoso.
De manera similar, si hacemos 1000 descubrimientos (R), que 50 de ellos sean descubrimientos falsos (como antes, ) puede que aún no sea muy costoso.
Dependencia entre las estadísticas de prueba
El control del FDR mediante el procedimiento BH de aumento lineal, en el nivel q, tiene varias propiedades relacionadas con la estructura de dependencia entre las estadísticas de prueba de las m hipótesis nulas que se están corrigiendo. Si las estadísticas de prueba son:
Si todas las hipótesis nulas son verdaderas ( ), entonces controlar el FDR en el nivel q garantiza el control sobre el FWER (esto también se llama "control débil del FWER" ): , simplemente porque el evento de rechazar al menos una hipótesis nula verdadera es exactamente el evento , y el evento es exactamente el evento (cuando , por definición). [1] Pero si hay algunos descubrimientos verdaderos por hacer ( ) entonces FWER ≥ FDR . En ese caso habrá espacio para mejorar el poder de detección. También significa que cualquier procedimiento que controle el FWER también controlará el FDR.
Potencia media
La potencia media del procedimiento Benjamini-Hochberg se puede calcular analíticamente [18]
Conceptos relacionados
El descubrimiento del FDR fue precedido y seguido por muchos otros tipos de índices de error, entre ellos:
PCER ( tasa de error por comparación ) se define como: . Probar individualmente cada hipótesis en el nivel α garantiza que (esto es probar sin ninguna corrección por multiplicidad)
(La probabilidad de cola de la proporción de falsos descubrimientos), sugerida por Lehmann y Romano, van der Laan et al., [ cita requerida ] se define como: .
(también llamado FDR generalizado por Sarkar en 2007 [19] [20] ) se define como: .
es la proporción de descubrimientos falsos entre los descubrimientos", sugerida por Soric en 1989, [9] y se define como: . Esta es una mezcla de expectativas y realizaciones, y tiene el problema del control de . [1]
(o Fdr) fue utilizado por Benjamini y Hochberg, [3] y posteriormente llamado "Fdr" por Efron (2008) y antes. [21] Se define como: . Esta tasa de error no se puede controlar estrictamente porque es 1 cuando .
fue utilizado por Benjamini y Hochberg, [3] y posteriormente llamado "pFDR" por Storey (2002). [22] Se define como: . Esta tasa de error no se puede controlar estrictamente porque es 1 cuando . JD Storey promovió el uso del pFDR (un pariente cercano del FDR), y el valor q , que puede verse como la proporción de descubrimientos falsos que esperamos en una tabla ordenada de resultados, hasta la línea actual. [ cita requerida ] Storey también promovió la idea (también mencionada por BH) de que el número real de hipótesis nulas, , se puede estimar a partir de la forma de la curva de distribución de probabilidad . Por ejemplo, en un conjunto de datos donde todas las hipótesis nulas son verdaderas, el 50% de los resultados producirán probabilidades entre 0,5 y 1,0 (y el otro 50% producirá probabilidades entre 0,0 y 0,5). Por lo tanto, podemos realizar una estimación encontrando el número de resultados con y duplicándolo, y esto permite refinar nuestro cálculo del pFDR en cualquier punto de corte particular en el conjunto de datos. [22]
Tasa de excedencia falsa (la probabilidad de cola de FDP), definida como: [23]
(FDR ponderado). A cada hipótesis i se le asocia un peso , que captura la importancia/precio. El W-FDR se define como: .
Tasa de costo de descubrimiento falso ( FDCR ). Proviene del control estadístico de procesos : a cada hipótesis i se asocia un costo y a la hipótesis de intersección un costo . La motivación es que detener un proceso de producción puede generar un costo fijo. Se define como:
PFER (tasa de error por familia) se define como: .
La tasa de falsos no descubrimientos ( FNR ) de Sarkar; Genovese y Wasserman [ cita requerida ] se define como:
se define como:
El fdr local se define como:
Tasa de cobertura falsa
La tasa de cobertura falsa (FCR) es, en cierto sentido, el análogo de FDR al intervalo de confianza . FCR indica la tasa promedio de cobertura falsa, es decir, no cubrir los parámetros verdaderos, entre los intervalos seleccionados. La FCR proporciona una cobertura simultánea a un nivel para todos los parámetros considerados en el problema. Los intervalos con probabilidad de cobertura simultánea 1−q pueden controlar que la FCR esté limitada por q . Hay muchos procedimientos de FCR como: Bonferroni-Selected–Bonferroni-Adjusted, [ cita requerida ] Adjusted BH-Selected CIs (Benjamini y Yekutieli (2005)), [24] Bayes FCR (Yekutieli (2008)), [ cita requerida ] y otros métodos de Bayes. [25]
Enfoques bayesianos
Se han establecido conexiones entre los enfoques FDR y bayesianos (incluidos los métodos empíricos de Bayes), [21] [26] [27] estableciendo un umbral para los coeficientes wavelets y la selección del modelo , [28] [29] [30] [31] [32] y generalizando el intervalo de confianza en la tasa de declaraciones de cobertura falsa (FCR). [24]
^ abcdefghi Benjamini Y, Hochberg Y (1995). "Control de la tasa de descubrimientos falsos: un enfoque práctico y eficaz para las pruebas múltiples". Journal of the Royal Statistical Society, Serie B. 57 ( 1): 289–300. doi :10.1111/j.2517-6161.1995.tb02031.x. MR 1325392.
^ Shaffer, JP (enero de 1995). "Prueba de hipótesis múltiples". Revista anual de psicología . 46 (1): 561–584. doi :10.1146/annurev.ps.46.020195.003021. S2CID 7696063. Gale A16629837.
^ abcdefg Benjamini Y (2010). "Descubrimiento de la tasa de descubrimientos falsos". Revista de la Royal Statistical Society, Serie B . 72 (4): 405–416. doi : 10.1111/j.1467-9868.2010.00746.x .
^ ab Storey JD, Tibshirani R (agosto de 2003). "Significación estadística para estudios de todo el genoma". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (16): 9440–5. Bibcode :2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . PMC 170937 . PMID 12883005.
^ Ryan TP, Woodall WH (2005). "Los artículos estadísticos más citados". Journal of Applied Statistics . 32 (5): 461–474. Bibcode :2005JApSt..32..461R. doi :10.1080/02664760500079373. S2CID 109615204.
^ Holm S (1979). "Un procedimiento de prueba múltiple secuencialmente rechazante simple". Revista Escandinava de Estadística . 6 (2): 65–70. JSTOR 4615733. MR 0538597.
^ Schweder T, Spjøtvoll E (1982). "Gráficos de valores P para evaluar muchas pruebas simultáneamente". Biometrika . 69 (3): 493–502. doi :10.1093/biomet/69.3.493.
^ Hochberg Y, Benjamini Y (julio de 1990). "Procedimientos más potentes para pruebas de significación múltiple". Estadística en Medicina . 9 (7): 811–8. doi :10.1002/sim.4780090710. PMID 2218183.
^ ab Soric B (junio de 1989). "Descubrimientos estadísticos" y estimación del tamaño del efecto". Revista de la Asociación Estadounidense de Estadística . 84 (406): 608–610. doi :10.1080/01621459.1989.10478811. JSTOR 2289950.
^ Simes RJ (1986). "Un procedimiento de Bonferroni mejorado para múltiples pruebas de significación". Biometrika . 73 (3): 751–754. doi :10.1093/biomet/73.3.751.
^ abcde Benjamini Y, Yekutieli D (2001). "El control de la tasa de descubrimientos falsos en pruebas múltiples bajo dependencia". Anales de Estadística . 29 (4): 1165–1188. doi : 10.1214/aos/1013699998 . MR 1869245.
^ Storey JD, Taylor JE, Siegmund D (2004). "Control fuerte, estimación puntual conservadora y consistencia conservadora simultánea de tasas de descubrimientos falsos: un enfoque unificado". Journal of the Royal Statistical Society, Serie B . 66 : 187–205. doi : 10.1111/j.1467-9868.2004.00439.x . S2CID 12646251.
^ Benjamini Y, Krieger AM, Yekutieli D (2006). "Procedimientos adaptativos lineales de incremento que controlan la tasa de descubrimientos falsos". Biometrika . 93 (3): 491–507. doi :10.1093/biomet/93.3.491.
^ Gavrilov Y, Benjamini Y, Sarkar SK (2009). "Un procedimiento de reducción gradual adaptativo con control FDR probado bajo independencia". Anales de Estadística . 37 (2): 619. arXiv : 0903.5373 . doi :10.1214/07-AOS586. S2CID 16913244.
^ Blanchard G, Roquain E (2008). "Dos condiciones suficientes simples para el control de FDR". Revista electrónica de estadística . 2 : 963–992. arXiv : 0802.1406 . doi :10.1214/08-EJS180. S2CID 16662020.
^ Yekutieli D, Benjamini Y (1999). "Procedimiento de control de la tasa de descubrimientos falsos basado en remuestreo para estadísticas de prueba dependientes". J. Statist. Planng Inf . 82 (1–2): 171–196. doi :10.1016/S0378-3758(99)00041-5.
^ van der Laan MJ, Dudoit S (2007). Procedimientos de pruebas múltiples con aplicaciones a la genómica . Nueva York: Springer.
^ Glueck, Deborah H; Mandel, Jan; Karimpour-Fard, Anis; Hunter, Lawrence; Muller, Keith E (30 de enero de 2008). "Cálculos exactos de potencia media para el procedimiento Benjamini-Hochberg". The International Journal of Biostatistics . 4 (1): Artículo 11. doi :10.2202/1557-4679.1103. PMC 3020656 . PMID 21243075.
^ Sarkar SK (2007). "Procedimientos de aumento gradual que controlan FWER generalizado y FDR generalizado". Anales de estadística . 35 (6): 2405–20. arXiv : 0803.2934 . doi :10.1214/009053607000000398. S2CID 14784911.
^ Sarkar SK, Guo W (junio de 2009). "Sobre una tasa generalizada de falsos descubrimientos". Anales de Estadística . 37 (3): 1545–65. arXiv : 0906.3091 . doi :10.1214/08-AOS617. JSTOR 30243677. S2CID 15746841.
^ ab Efron B (2008). "Microarrays, Bayes empírico y el modelo de dos grupos". Statistical Science . 23 : 1–22. arXiv : 0808.0603 . doi :10.1214/07-STS236. S2CID 8417479.
^ Benjamini Y (diciembre de 2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Revista biométrica. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID 21154895. S2CID 8806192.
^ ab Benjamini Y, Yekutieli Y (2005). "Tasa de descubrimientos falsos que controla los intervalos de confianza para parámetros seleccionados". Revista de la Asociación Estadounidense de Estadística . 100 (469): 71–80. doi :10.1198/016214504000001907. S2CID 23202143.
^ Zhao Z, Gene Hwang JT (2012). "Tasa de cobertura falsa de Bayes empírico que controla los intervalos de confianza". Revista de la Royal Statistical Society, Serie B. 74 ( 5): 871–891. doi :10.1111/j.1467-9868.2012.01033.x. hdl : 10.1111/j.1467-9868.2012.01033.x . S2CID 111420152.
^ Storey JD (2003). "La tasa de falsos descubrimientos positivos: una interpretación bayesiana y el valor q". Anales de Estadística . 31 (6): 2013–2035. doi : 10.1214/aos/1074290335 .
^ Abramovich F, Benjamini Y, Donoho D, Johnstone IM (2006). "Adaptación a la escasez desconocida mediante el control de la tasa de descubrimientos falsos". Anales de estadística . 34 (2): 584–653. arXiv : math/0505374 . Bibcode :2005math......5374A. doi :10.1214/009053606000000074. S2CID 7581060.
^ Donoho D, Jin J (2006). "Minimidad asintótica del umbral de tasa de descubrimiento falso para datos exponenciales dispersos". Annals of Statistics . 34 (6): 2980–3018. arXiv : math/0602311 . Bibcode :2006math......2311D. doi :10.1214/009053606000000920. S2CID 9080115.
^ Benjamini Y, Gavrilov Y (2009). "Un procedimiento simple de selección hacia adelante basado en el control de la tasa de descubrimientos falsos". Annals of Applied Statistics . 3 (1): 179–198. arXiv : 0905.2819 . Código Bibliográfico :2009arXiv0905.2819B. doi :10.1214/08-AOAS194. S2CID 15719154.
^ Donoho D, Jin JS (2004). "Crítica superior para detectar mezclas heterogéneas dispersas". Anales de estadística . 32 (3): 962–994. arXiv : math/0410072 . Bibcode :2004math.....10072D. doi :10.1214/009053604000000265. S2CID 912325.
^ Stoica P, Babu P (2022). "Reglas de tasa de descubrimiento falso (FDR) y tasa de error por familia (FER) para la selección de modelos en aplicaciones de procesamiento de señales". IEEE Open Journal of Signal Processing . 3 (1): 403–416. doi :10.1109/OJSP.2022.3213128.
Enlaces externos
Análisis de la tasa de descubrimientos falsos en R: incluye enlaces a paquetes R populares
Análisis de la tasa de falsos descubrimientos en Python: implementaciones de Python de procedimientos de tasa de falsos descubrimientos
Tasa de falsos descubrimientos: valores P corregidos y ajustados: implementación de MATLAB / GNU Octave y discusión sobre la diferencia entre valores P de FDR corregidos y ajustados.
Comprender la tasa de descubrimientos falsos: artículo de blog
StatQuest: FDR y el método Benjamini-Hochberg explicados con claridad en YouTube
Comprensión de la tasa de falsos descubrimientos: incluye código VBA de Excel para implementarlo y un ejemplo de desarrollo de una línea celular