stringtranslate.com

Tasa de falso descubrimiento

En estadística , la tasa de descubrimiento falso ( FDR ) es un método para conceptualizar la tasa de errores de tipo I en pruebas de hipótesis nulas cuando se realizan comparaciones múltiples . Los procedimientos de control de FDR están diseñados para controlar el FDR, que es la proporción esperada de "descubrimientos" ( hipótesis nulas rechazadas ) que son falsos (rechazos incorrectos de la hipótesis nula). [1] De manera equivalente, el FDR es la relación esperada entre el número de clasificaciones falsas positivas (falsos descubrimientos) y el número total de clasificaciones positivas (rechazos de lo nulo). El número total de rechazos de la nula incluye tanto el número de falsos positivos (FP) como el de verdaderos positivos (TP). En pocas palabras, FDR = FP / (FP + TP). Los procedimientos de control FDR proporcionan un control menos estricto de los errores de Tipo I en comparación con los procedimientos de control de la tasa de error familiar (FWER) (como la corrección de Bonferroni ), que controlan la probabilidad de al menos un error de Tipo I. Por lo tanto, los procedimientos de control FDR tienen mayor poder , a costa de un mayor número de errores de Tipo I. [2]

Historia

Motivaciones tecnológicas

Se cree que el uso moderno y generalizado del FDR surge y está motivado por el desarrollo de tecnologías que permitieron la recopilación y el análisis de un gran número de variables distintas en varios individuos (por ejemplo, el nivel de expresión de cada uno de los 10.000 genes diferentes). en 100 personas diferentes). [3] A finales de los años 1980 y 1990, el desarrollo de ciencias de "alto rendimiento", como la genómica , permitió una rápida adquisición de datos. Esto, junto con el crecimiento de la potencia informática, hizo posible realizar sin problemas una gran cantidad de pruebas estadísticas en un conjunto de datos determinado. La tecnología de microarrays fue un ejemplo prototípico, ya que permitió probar simultáneamente miles de genes para determinar la expresión diferencial entre dos condiciones biológicas. [4]

A medida que las tecnologías de alto rendimiento se volvieron comunes, las limitaciones tecnológicas y/o financieras llevaron a los investigadores a recopilar conjuntos de datos con tamaños de muestra relativamente pequeños (por ejemplo, pocos individuos evaluados) y un gran número de variables medidas por muestra (por ejemplo, miles de niveles de expresión genética). En estos conjuntos de datos, muy pocas de las variables medidas mostraron significación estadística después de la corrección clásica para pruebas múltiples con procedimientos estándar de comparación múltiple . Esto creó una necesidad dentro de muchas comunidades científicas de abandonar FWER y las pruebas de hipótesis múltiples no ajustadas por otras formas de resaltar y clasificar en las publicaciones aquellas variables que muestran efectos marcados entre individuos o tratamientos que de otro modo se descartarían como no significativas después de la corrección estándar para múltiples pruebas. En respuesta a esto, se han propuesto una variedad de tasas de error (y se utilizan comúnmente en las publicaciones) que son menos conservadoras que FWER a la hora de señalar observaciones posiblemente dignas de mención. El FDR es útil cuando los investigadores buscan "descubrimientos" que les proporcionen trabajo de seguimiento (por ejemplo, detectar genes prometedores para estudios de seguimiento) y están interesados ​​en controlar la proporción de "pistas falsas" que están dispuestos a aceptar.

Literatura

El concepto de FDR fue descrito formalmente por Yoav Benjamini y Yosef Hochberg en 1995 [1] (procedimiento BH) como un enfoque menos conservador y posiblemente más apropiado para identificar los pocos efectos importantes de los muchos triviales probados. El FDR ha sido particularmente influyente, ya que fue la primera alternativa al FWER que obtuvo amplia aceptación en muchos campos científicos (especialmente en las ciencias de la vida, desde la genética hasta la bioquímica, la oncología y las ciencias vegetales). [3] En 2005, el artículo de Benjamini y Hochberg de 1995 fue identificado como uno de los 25 artículos estadísticos más citados. [5]

Antes de la introducción del concepto de FDR en 1995, se habían considerado varias ideas precursoras en la literatura estadística. En 1979, Holm propuso el procedimiento de Holm , [6] un algoritmo gradual para controlar el FWER que es al menos tan potente como el conocido ajuste de Bonferroni . Este algoritmo paso a paso ordena los valores p y rechaza secuencialmente las hipótesis comenzando desde los valores p más pequeños .

Benjamini (2010) dijo que la tasa de descubrimiento falso, [3] y el artículo de Benjamini y Hochberg (1995), tuvieron su origen en dos artículos relacionados con pruebas múltiples:

Benjamini y Hochberg demostraron que el procedimiento BH controla el FDR mediante pruebas independientes en 1995. [1] En 1986, RJ Simes ofreció el mismo procedimiento que el "procedimiento Simes", para controlar el FWER en el sentido débil (bajo la hipótesis nula de intersección) cuando las estadísticas son independientes. [10]

Definiciones

Con base en las definiciones a continuación, podemos definir Q como la proporción de descubrimientos falsos entre los descubrimientos (rechazos de la hipótesis nula):

La tasa de descubrimiento falso ( FDR ) es entonces simplemente: [1]

valor esperadoqla división por cero,. [1]

Clasificación de pruebas de hipótesis múltiples.

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: H 1H 2 , ...,  H m . Utilizando una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. La suma de cada tipo de resultado sobre todo H i   produce las siguientes variables aleatorias:

En m pruebas de hipótesis de las cuales son hipótesis nulas verdaderas, R es una variable aleatoria observable y S , T , U y V son variables aleatorias no observables .

Procedimientos de control

La configuración de muchos procedimientos es tal que tenemos hipótesis nulas probadas y sus correspondientes valores p . Enumeramos estos valores p en orden ascendente y los denotamos por . Un procedimiento que va de una estadística de prueba pequeña a una grande se denominará procedimiento incremental. De manera similar, en un procedimiento de "reducción" pasamos de un estadístico de prueba correspondiente grande a uno más pequeño.

Procedimiento de Benjamini-Hochberg

El procedimiento de Benjamini-Hochberg se aplicó a un conjunto de m = 20 valores p ordenados ascendentemente, con un nivel de control de descubrimiento falso α = 0,05. Los valores p de la hipótesis nula rechazada (es decir, los descubrimientos declarados) están coloreados en rojo. Tenga en cuenta que hay valores p rechazados que están por encima de la línea de rechazo (en azul), ya que se rechazan todas las hipótesis nulas de valores p que se clasifican antes del valor p de la última intersección. Las aproximaciones MFDR = 0,02625 y AFDR = 0,00730, aquí.

El procedimiento Benjamini-Hochberg (procedimiento incremental de BH) controla el FDR en el nivel . [1] Funciona de la siguiente manera:

  1. Para un dado , encuentre el k más grande tal que
  2. Rechazar la hipótesis nula (es decir, declarar descubrimientos) para todos por

Geométricamente, esto corresponde a trazar vs. k (en los ejes y y x respectivamente), dibujar la línea que pasa por el origen con pendiente y declarar descubrimientos para todos los puntos a la izquierda, hasta e incluyendo el último punto que no está arriba. la línea.

El procedimiento de BH es válido cuando las m pruebas son independientes , y también en diversos escenarios de dependencia, pero no es universalmente válido. [11] También satisface la desigualdad:

[3][12] [13] [14] [15]

Tenga en cuenta que la media de estas m pruebas es la Media (FDR ) o MFDR, ajustada para m pruebas independientes o correlacionadas positivamente (consulte AFDR a continuación). La expresión MFDR aquí es para un único valor recalculado y no forma parte del método de Benjamini y Hochberg.

Procedimiento de Benjamini-Yekutieli

El procedimiento Benjamini-Yekutieli controla la tasa de descubrimiento falso bajo supuestos de dependencia arbitraria. [11] Este refinamiento modifica el umbral y encuentra el k más grande tal que:

Usando MFDR y las fórmulas anteriores, un MFDR ajustado (o AFDR) es el mínimo de la media para m  pruebas dependientes, es decir, . Otra forma de abordar la dependencia es mediante el arranque y la realeatorización. [4] [16] [17]

Procedimiento Storey-Tibshirani

Representación esquemática del procedimiento Storey-Tibshirani para corregir pruebas de hipótesis múltiples, suponiendo valores p calculados correctamente. El eje y es la frecuencia.

En el procedimiento Storey-Tibshirani, los valores q se utilizan para controlar el FDR.

Propiedades

Adaptable y escalable

Utilizar un procedimiento de multiplicidad que controle el criterio FDR es adaptable y escalable . Lo que significa que controlar el FDR puede ser muy permisivo (si los datos lo justifican) o conservador (actuar cerca del control de FWER para problemas dispersos), todo dependiendo del número de hipótesis probadas y del nivel de significancia. [3]

El criterio FDR se adapta de modo que el mismo número de descubrimientos falsos (V) tendrá implicaciones diferentes, dependiendo del número total de descubrimientos (R). Esto contrasta con el criterio de tasa de error familiar . Por ejemplo, si se inspeccionan 100 hipótesis (digamos, 100 mutaciones genéticas o SNP en busca de asociación con algún fenotipo en alguna población):

El criterio de FDR es escalable en el sentido de que la misma proporción de descubrimientos falsos sobre el número total de descubrimientos (Q) sigue siendo sensata para un número diferente de descubrimientos totales (R). Por ejemplo:

Dependencia entre las estadísticas de prueba.

Controlar el FDR utilizando el procedimiento BH incremental lineal, en el nivel q, tiene varias propiedades relacionadas con la estructura de dependencia entre los estadísticos de prueba de las m hipótesis nulas que se están corrigiendo. Si las estadísticas de la prueba son:

Proporción de hipótesis verdaderas

Si todas las hipótesis nulas son verdaderas ( ), entonces controlar el FDR en el nivel q garantiza el control sobre el FWER (esto también se llama "control débil del FWER" ) : , simplemente porque se produce el evento de rechazar al menos una hipótesis nula verdadera es exactamente el evento , y el evento es exactamente el evento (cuando , por definición). [1] Pero si hay algunos descubrimientos verdaderos por hacer ( ) entonces FWER ≥ FDR . En ese caso, habrá margen para mejorar el poder de detección. También significa que cualquier procedimiento que controle el FWER también controlará el FDR.

Energía promedio

La potencia promedio del procedimiento de Benjamini-Hochberg se puede calcular analíticamente [18]

Conceptos relacionados

El descubrimiento del FDR fue precedido y seguido por muchos otros tipos de tasas de error. Éstas incluyen:

Tasa de cobertura falsa

La tasa de cobertura falsa (FCR) es, en cierto sentido, la FDR análoga al intervalo de confianza . FCR indica la tasa promedio de cobertura falsa, es decir, no cubrir los parámetros verdaderos, entre los intervalos seleccionados. El FCR da una cobertura simultánea a un nivel para todos los parámetros considerados en el problema. Los intervalos con probabilidad de cobertura simultánea 1−q pueden controlar que el FCR esté limitado por q . Existen muchos procedimientos de FCR, como: Bonferroni-Selected – Bonferroni-Adjusted, [ cita necesaria ] IC ajustados seleccionados por BH (Benjamini y Yekutieli (2005)), [24] Bayes FCR (Yekutieli (2008)), [ cita necesaria ] y otros métodos de Bayes. [25]

Enfoques bayesianos

Se han establecido conexiones entre los enfoques FDR y bayesiano (incluidos los métodos empíricos de Bayes), [21] [26] [27] umbralización de coeficientes de wavelets y selección de modelos , [28] [29] [30] [31] [32] y generalización. el intervalo de confianza en la tasa de declaración de cobertura falsa (FCR). [24]

Ver también

Referencias

  1. ^ abcdefghi Benjamini Y, Hochberg Y (1995). "Controlar la tasa de descubrimientos falsos: un enfoque práctico y poderoso para pruebas múltiples". Revista de la Royal Statistical Society, Serie B. 57 (1): 289–300. SEÑOR  1325392.
  2. ^ Shaffer, JP (enero de 1995). "Prueba de hipótesis múltiples". Revista Anual de Psicología . 46 (1): 561–584. doi : 10.1146/annurev.ps.46.020195.003021. S2CID  7696063. Vendaval  A16629837.
  3. ^ abcdefg Benjamini Y (2010). "Descubriendo la tasa de descubrimientos falsos". Revista de la Royal Statistical Society, Serie B. 72 (4): 405–416. doi : 10.1111/j.1467-9868.2010.00746.x .
  4. ^ ab Storey JD, Tibshirani R (agosto de 2003). "Importancia estadística para estudios de todo el genoma". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (16): 9440–5. Código Bib : 2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . PMC 170937 . PMID  12883005. 
  5. ^ Ryan TP, Woodall WH (2005). "Los artículos estadísticos más citados". Revista de Estadística Aplicada . 32 (5): 461–474. Código Bib : 2005JApSt..32..461R. doi :10.1080/02664760500079373. S2CID  109615204.
  6. ^ Holm S (1979). "Un procedimiento de prueba múltiple secuencialmente rechazable simple". Revista escandinava de estadística . 6 (2): 65–70. JSTOR  4615733. SEÑOR  0538597.
  7. ^ Schweder T, Spjøtvoll E (1982). "Gráficos de valores P para evaluar muchas pruebas simultáneamente". Biometrika . 69 (3): 493–502. doi :10.1093/biomet/69.3.493.
  8. ^ Hochberg Y, Benjamini Y (julio de 1990). "Procedimientos más potentes para pruebas de significación múltiple". Estadística en Medicina . 9 (7): 811–8. doi :10.1002/sim.4780090710. PMID  2218183.
  9. ^ ab Soric B (junio de 1989). "Descubrimientos" estadísticos y estimación del tamaño del efecto. Revista de la Asociación Estadounidense de Estadística . 84 (406): 608–610. doi :10.1080/01621459.1989.10478811. JSTOR  2289950.
  10. ^ Simes RJ (1986). "Un procedimiento de Bonferroni mejorado para múltiples pruebas de significancia". Biometrika . 73 (3): 751–754. doi :10.1093/biomet/73.3.751.
  11. ^ abcde Benjamini Y, Yekutieli D (2001). "El control de la tasa de descubrimiento falso en pruebas múltiples bajo dependencia". Anales de Estadística . 29 (4): 1165–1188. doi : 10.1214/aos/1013699998 . SEÑOR  1869245.
  12. ^ Pisos JD, Taylor JE, Siegmund D (2004). "Fuerte control, estimación puntual conservadora y coherencia conservadora simultánea de tasas de descubrimiento falso: un enfoque unificado". Revista de la Royal Statistical Society, Serie B. 66 : 187-205. doi : 10.1111/j.1467-9868.2004.00439.x . S2CID  12646251.
  13. ^ Benjamini Y, Krieger AM, Yekutieli D (2006). "Procedimientos incrementales lineales adaptativos que controlan la tasa de descubrimiento falso". Biometrika . 93 (3): 491–507. doi :10.1093/biomet/93.3.491.
  14. ^ Gavrilov Y, Benjamini Y, Sarkar SK (2009). "Un procedimiento de reducción adaptativo con control comprobado de FDR bajo independencia". Los anales de la estadística . 37 (2): 619. arXiv : 0903.5373 . doi :10.1214/07-AOS586. S2CID  16913244.
  15. ^ Blanchard G, Roquain E (2008). "Dos condiciones suficientes y simples para el control de FDR". Revista Electrónica de Estadística . 2 : 963–992. arXiv : 0802.1406 . doi :10.1214/08-EJS180. S2CID  16662020.
  16. ^ Yekutieli D, Benjamini Y (1999). "Procedimiento de control de tasa de descubrimiento falso basado en remuestreo para estadísticas de prueba dependientes". J. Estatista. Planificación Inf . 82 (1–2): 171–196. doi :10.1016/S0378-3758(99)00041-5.
  17. ^ van der Laan MJ, Dudoit S (2007). Múltiples procedimientos de prueba con aplicaciones a la genómica . Nueva York: Springer.
  18. ^ Glueck, Deborah H; Mandel, enero; Karimpour-Fard, Anis; Cazador, Lawrence; Muller, Keith E (30 de enero de 2008). "Cálculos exactos de la potencia media para el procedimiento Benjamini-Hochberg". La Revista Internacional de Bioestadística . 4 (1): Artículo 11. doi :10.2202/1557-4679.1103. PMC 3020656 . PMID  21243075. 
  19. ^ Sarkar SK (2007). "Procedimientos intensificados que controlan FWER generalizado y FDR generalizado". Los anales de la estadística . 35 (6): 2405–20. arXiv : 0803.2934 . doi :10.1214/009053607000000398. S2CID  14784911.
  20. ^ Sarkar SK, Guo W (junio de 2009). "Sobre una tasa generalizada de descubrimientos falsos". Los anales de la estadística . 37 (3): 1545–65. arXiv : 0906.3091 . doi :10.1214/08-AOS617. JSTOR  30243677. S2CID  15746841.
  21. ^ ab Efron B (2008). "Microarrays, Bayes empírico y el modelo de dos grupos". Ciencia estadística . 23 : 1–22. arXiv : 0808.0603 . doi :10.1214/07-STS236. S2CID  8417479.
  22. ^ ab Pisos JD (2002). "Un enfoque directo a las tasas de descubrimiento falso" (PDF) . Revista de la Royal Statistical Society, Serie B. 64 (3): 479–498. CiteSeerX 10.1.1.320.7131 . doi :10.1111/1467-9868.00346. S2CID  122987911. 
  23. ^ Benjamini Y (diciembre de 2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Revista biométrica. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID  21154895. S2CID  8806192.
  24. ^ ab Benjamini Y, Yekutieli Y (2005). "Tasa de descubrimiento falso que controla los intervalos de confianza para parámetros seleccionados". Revista de la Asociación Estadounidense de Estadística . 100 (469): 71–80. doi :10.1198/016214504000001907. S2CID  23202143.
  25. ^ Zhao Z, Gene Hwang JT (2012). "Tasa de cobertura falsa empírica de Bayes que controla los intervalos de confianza". Revista de la Royal Statistical Society, Serie B. 74 (5): 871–891. doi :10.1111/j.1467-9868.2012.01033.x. hdl : 10.1111/j.1467-9868.2012.01033.x . S2CID  111420152.
  26. ^ Piso JD (2003). "La tasa de descubrimiento falso positivo: una interpretación bayesiana y el valor q". Anales de Estadística . 31 (6): 2013-2035. doi : 10.1214/aos/1074290335 .
  27. ^ Efron B (2010). Inferencia a gran escala . Prensa de la Universidad de Cambridge . ISBN 978-0-521-19249-1.
  28. ^ Abramovich F, Benjamini Y, Donoho D, Johnstone IM (2006). "Adaptarse a la escasez desconocida controlando la tasa de descubrimientos falsos". Anales de Estadística . 34 (2): 584–653. arXiv : matemáticas/0505374 . Código Bib : 2005 matemáticas ...... 5374A. doi :10.1214/009053606000000074. S2CID  7581060.
  29. ^ Donoho D, Jin J (2006). "Minimaxidad asintótica del umbral de tasa de descubrimiento falso para datos exponenciales escasos". Anales de Estadística . 34 (6): 2980–3018. arXiv : matemáticas/0602311 . Código Bib : 2006 matemáticas ...... 2311D. doi :10.1214/009053606000000920. S2CID  9080115.
  30. ^ Benjamini Y, Gavrilov Y (2009). "Un procedimiento de selección directa simple basado en el control de la tasa de descubrimiento falso". Anales de Estadística Aplicada . 3 (1): 179–198. arXiv : 0905.2819 . Código Bib : 2009arXiv0905.2819B. doi :10.1214/08-AOAS194. S2CID  15719154.
  31. ^ Donoho D, Jin JS (2004). "Mayor crítica por detectar mezclas heterogéneas escasas". Anales de Estadística . 32 (3): 962–994. arXiv : matemáticas/0410072 . Código Bib : 2004 matemáticas..... 10072D. doi :10.1214/009053604000000265. S2CID  912325.
  32. ^ Stoica P, Babu P (2022). "Reglas de tasa de descubrimiento falso (FDR) y tasa de error familiar (FER) para la selección de modelos en aplicaciones de procesamiento de señales". Revista abierta de procesamiento de señales del IEEE . 3 (1): 403–416. doi :10.1109/OJSP.2022.3213128.

enlaces externos