Tasa de falsos descubrimientos

En estadística , la tasa de falsos descubrimientos ( FDR ) es un método para conceptualizar la tasa de errores de tipo I en las pruebas de hipótesis nulas cuando se realizan comparaciones múltiples . Los procedimientos de control de FDR están diseñados para controlar la FDR, que es la proporción esperada de "descubrimientos" ( hipótesis nulas rechazadas ) que son falsas (rechazos incorrectos de la nula). ^[1] De manera equivalente, la FDR es la relación esperada entre el número de clasificaciones de falsos positivos (falsos descubrimientos) y el número total de clasificaciones positivas (rechazos de la nula). El número total de rechazos de la nula incluye tanto el número de falsos positivos (FP) como el de verdaderos positivos (TP). En pocas palabras, FDR = FP / (FP + TP). Los procedimientos de control de FDR proporcionan un control menos estricto de los errores de tipo I en comparación con los procedimientos de control de la tasa de error por familia (FWER) (como la corrección de Bonferroni ), que controlan la probabilidad de al menos un error de tipo I. Por lo tanto, los procedimientos de control FDR tienen mayor poder , a costa de un mayor número de errores de tipo I. ^[2]

Historia

Motivaciones tecnológicas

Se cree que el uso generalizado moderno del FDR se debe y está motivado por el desarrollo de tecnologías que permitieron la recopilación y el análisis de una gran cantidad de variables distintas en varios individuos (por ejemplo, el nivel de expresión de cada uno de 10 000 genes diferentes en 100 personas diferentes). ^[3] A fines de la década de 1980 y durante la de 1990, el desarrollo de ciencias de "alto rendimiento", como la genómica , permitió la adquisición rápida de datos. Esto, junto con el crecimiento de la potencia informática, hizo posible realizar sin problemas una gran cantidad de pruebas estadísticas en un conjunto de datos determinado. La tecnología de microarrays fue un ejemplo prototípico, ya que permitió probar miles de genes simultáneamente para determinar su expresión diferencial entre dos condiciones biológicas. ^[4]

A medida que las tecnologías de alto rendimiento se hicieron comunes, las limitaciones tecnológicas y/o financieras llevaron a los investigadores a recopilar conjuntos de datos con tamaños de muestra relativamente pequeños (por ejemplo, pocos individuos sometidos a pruebas) y grandes cantidades de variables medidas por muestra (por ejemplo, miles de niveles de expresión genética). En estos conjuntos de datos, muy pocas de las variables medidas mostraron significación estadística después de la corrección clásica para múltiples pruebas con procedimientos estándar de comparación múltiple . Esto creó una necesidad dentro de muchas comunidades científicas de abandonar FWER y las pruebas de hipótesis múltiples no ajustadas para otras formas de resaltar y clasificar en publicaciones aquellas variables que muestran efectos marcados en individuos o tratamientos que de otro modo se descartarían como no significativos después de la corrección estándar para múltiples pruebas. En respuesta a esto, se han propuesto una variedad de tasas de error (y se han vuelto de uso común en publicaciones) que son menos conservadoras que FWER para marcar observaciones posiblemente dignas de mención. El FDR es útil cuando los investigadores buscan "descubrimientos" que les proporcionarán trabajo de seguimiento (por ejemplo: detectar genes prometedores para estudios de seguimiento) y están interesados en controlar la proporción de "pistas falsas" que están dispuestos a aceptar.

Literatura

El concepto FDR fue descrito formalmente por Yoav Benjamini y Yosef Hochberg en 1995 ^[1] (procedimiento BH) como un enfoque menos conservador y posiblemente más apropiado para identificar los pocos efectos importantes de los muchos efectos triviales evaluados. El FDR ha sido particularmente influyente, ya que fue la primera alternativa al FWER en obtener una amplia aceptación en muchos campos científicos (especialmente en las ciencias de la vida, desde la genética hasta la bioquímica, la oncología y las ciencias vegetales). ^[3] En 2005, el artículo de Benjamini y Hochberg de 1995 fue identificado como uno de los 25 artículos estadísticos más citados. ^[5]

Antes de la introducción del concepto FDR en 1995, se habían considerado varias ideas precursoras en la literatura estadística. En 1979, Holm propuso el procedimiento Holm ^[6] , un algoritmo paso a paso para controlar el FWER que es al menos tan poderoso como el conocido ajuste de Bonferroni . Este algoritmo paso a paso ordena los valores p y rechaza secuencialmente las hipótesis comenzando por los valores p más pequeños .

Benjamini (2010) afirmó que la tasa de falsos descubrimientos, ^[3] y el artículo de Benjamini y Hochberg (1995), tuvo su origen en dos artículos relacionados con pruebas múltiples:

El primer artículo es de Schweder y Spjotvoll (1982) quienes sugirieron graficar los valores p ordenados y evaluar el número de hipótesis nulas verdaderas ( ) a través de una línea ajustada a ojo comenzando desde los valores p más grandes . ^[7] Los valores p que se desvían de esta línea recta deberían corresponder entonces a las hipótesis nulas falsas. Esta idea fue desarrollada posteriormente en un algoritmo e incorporó la estimación de en procedimientos como Bonferroni, Holm o Hochberg. ^[8] Esta idea está estrechamente relacionada con la interpretación gráfica del procedimiento BH. $estilo de visualización m_{0}}$ $estilo de visualización m_{0}}$
El segundo artículo es de Branko Soric (1989), quien introdujo la terminología de "descubrimiento" en el contexto de las pruebas de hipótesis múltiples. ^[9] Soric utilizó el número esperado de descubrimientos falsos dividido por el número de descubrimientos como advertencia de que "una gran parte de los descubrimientos estadísticos pueden ser erróneos". Esto llevó a Benjamini y Hochberg a la idea de que una tasa de error similar, en lugar de ser simplemente una advertencia, puede servir como un objetivo digno de controlar. $\left(E[V]/R\right)$

En 1995, Benjamini y Hochberg demostraron que el procedimiento BH controlaba el FDR en pruebas independientes. ^[1] En 1986, RJ Simes propuso el mismo procedimiento que el "procedimiento Simes", para controlar el FWER en sentido débil (bajo la hipótesis nula de intersección) cuando las estadísticas son independientes. ^[10]

Definiciones

Basándonos en las definiciones que aparecen a continuación, podemos definir $Q$ como la proporción de descubrimientos falsos entre los descubrimientos (rechazos de la hipótesis nula): donde es el número de descubrimientos falsos y es el número de descubrimientos verdaderos. $Q={\frac {V}{R}}={\frac {V}{V+S}}.$ ${\estilo de visualización V}$ ${\estilo de visualización S}$

La tasa de falsos descubrimientos ( FDR ) es entonces simplemente: ^[1] donde es el valor esperado de . El objetivo es mantener la FDR por debajo de un umbral dado q . Para evitar la división por cero , se define como 0 cuando . Formalmente, . ^[1] $\mathrm {FDR} =Q_{e}=\mathrm {E} \!\left[Q\right]=1-{\text{precisión}},$ $\mathrm {E} \!\left[Q\right]$ ${\estilo de visualización Q}$ ${\estilo de visualización Q}$ $R=0$ $\mathrm {FDR} =\mathrm {E} \!\left[V/R|R>0\right]\cdot \mathrm {P} \!\left(R>0\right)$

Clasificación de pruebas de hipótesis múltiples

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: $H 1, H 2, ..., H m .$ Mediante una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. Al sumar cada tipo de resultado sobre todos los H _i, obtenemos las siguientes variables aleatorias:

$m$ es el número total de hipótesis probadas
$estilo de visualización m_{0}}$ es el número de hipótesis nulas verdaderas , un parámetro desconocido
$m-m_{0}$ es el número de hipótesis alternativas verdaderas
$V$ es el número de falsos positivos (error tipo I) (también llamados "falsos descubrimientos")
$S$ es el número de verdaderos positivos (también llamados "descubrimientos verdaderos")
$T$ es el número de falsos negativos (error tipo II)
$U$ es el número de verdaderos negativos
$R=V+S$ es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", ya sean verdaderas o falsas)

En $m$ pruebas de hipótesis de las cuales las hipótesis nulas son verdaderas, $R$ es una variable aleatoria observable y $S$ , $T$ , $U$ y $V$ son variables aleatorias no observables . $estilo de visualización m_{0}}$

Procedimientos de control

La configuración de muchos procedimientos es tal que tenemos hipótesis nulas probadas y sus valores p correspondientes . Enumeramos estos valores p en orden ascendente y los denotamos por . Un procedimiento que va desde un estadístico de prueba pequeño a uno grande se llamará procedimiento de "paso ascendente". De manera similar, en un procedimiento de "paso descendente" pasamos de un estadístico de prueba correspondiente grande a uno más pequeño. $H_{1}\ldots H_{m}$ $P_{1}\ldots P_{m}$ $P_{(1)}\ldots P_{(m)}$

Procedimiento de Benjamini-Hochberg

El procedimiento Benjamini-Hochberg aplicado a un conjunto de m = 20 valores p ordenados de forma ascendente, con un nivel de control de falsos descubrimientos α = 0,05. Los valores p de la hipótesis nula rechazada (es decir, los descubrimientos declarados) están coloreados en rojo. Nótese que hay valores p rechazados que están por encima de la línea de rechazo (en azul) ya que se rechazan todas las hipótesis nulas de valores p que se clasifican antes del valor p de la última intersección. Las aproximaciones MFDR = 0,02625 y AFDR = 0,00730, aquí.

El procedimiento Benjamini-Hochberg (procedimiento de aumento gradual de BH) controla el FDR en el nivel . ^[1] Funciona de la siguiente manera: ${\estilo de visualización \alpha}$

Para un dado , encuentre el $k$ más grande tal que ${\estilo de visualización \alpha}$ $P_{(k)}\leq {\frac {k}{m}}\alpha$
Rechazar la hipótesis nula (es decir, declarar descubrimientos) para todos $Estilo de visualización H_{(i)}}$ $i=1,\lpuntos ,k$

Geométricamente, esto corresponde a graficar vs. $k$ (en los ejes $y$ y $x$ respectivamente), trazar la línea a través del origen con pendiente y declarar descubrimientos para todos los puntos de la izquierda, hasta, e incluyendo, el último punto que no esté por encima de la línea. $Estilo de visualización P_{(k)}}$ ${\frac {\alpha }{m}}$

El procedimiento BH es válido cuando las pruebas $m son$ independientes y también en varios escenarios de dependencia, pero no es universalmente válido. ^[11] También satisface la desigualdad: si se inserta un estimador de en el procedimiento BH, ya no se garantiza que se logre el control FDR en el nivel deseado. ^[3] Es posible que se necesiten ajustes en el estimador y se han propuesto varias modificaciones. ^[12]^[13]^[14]^[15] $E(Q)\leq {\frac {m_{0}}{m}}\alpha \leq \alpha$ $estilo de visualización m_{0}}$

Tenga en cuenta que la media de estas pruebas $m es$ , la Media(FDR ) o MFDR, ajustada para $m$ pruebas independientes o correlacionadas positivamente (consulte AFDR a continuación). La expresión MFDR aquí es para un único valor recalculado de y no es parte del método de Benjamini y Hochberg. ${\estilo de visualización \alpha}$ ${\frac {\alpha(m+1)}{2m}}$ ${\estilo de visualización \alpha}$ ${\estilo de visualización \alpha}$ ${\estilo de visualización \alpha}$

Procedimiento de Benjamini-Yekutieli

El procedimiento Benjamini-Yekutieli controla la tasa de descubrimientos falsos bajo supuestos de dependencia arbitrarios. ^[11] Este refinamiento modifica el umbral y encuentra el $k$ más grande tal que: $P_{(k)}\leq {\frac {k}{m\cdot c(m)}}\alpha$

Si las pruebas son independientes o están correlacionadas positivamente (como en el procedimiento de Benjamini-Hochberg): $c(m)=1$
Bajo dependencia arbitraria (incluido el caso de correlación negativa), c(m) es el número armónico : . $c(m)=\sum _{i=1}^{m}{\frac {1}{i}}$
Nótese que se puede aproximar utilizando la expansión de la serie de Taylor y la constante de Euler-Mascheroni ( ): ${\estilo de visualización c(m)}$ $\gamma =0,57721...$ $\sum_{i=1}^{m}{\frac {1}{i}}\approx \ln(m)+\gamma +{\frac {1}{2m}}.$

Usando MFDR y las fórmulas anteriores, un MFDR ajustado (o AFDR) es el mínimo de la media para $m$ pruebas dependientes, es decir, . Otra forma de abordar la dependencia es mediante el bootstrap y la realeatorización. ^[4]^[16]^[17] ${\estilo de visualización \alpha}$ ${\frac {\mathrm {MFDR}}{c(m)}}={\frac {\alpha (m+1)}{2m[\ln(m)+\gamma ]+1}}$

Procedimiento de Storey-Tibshirani

En el procedimiento Storey-Tibshirani, se utilizan valores q para controlar el FDR.

Propiedades

Adaptable y escalable

El uso de un procedimiento de multiplicidad que controle el criterio FDR es adaptativo y escalable . Esto significa que el control del FDR puede ser muy permisivo (si los datos lo justifican) o conservador (actuando cerca del control de FWER para un problema disperso), todo dependiendo del número de hipótesis probadas y del nivel de significancia. ^[3]

El criterio FDR se adapta de modo que la misma cantidad de descubrimientos falsos (V) tendrá diferentes implicaciones, dependiendo de la cantidad total de descubrimientos (R). Esto contrasta con el criterio de tasa de error por familia . Por ejemplo, si se examinan 100 hipótesis (por ejemplo, 100 mutaciones genéticas o SNP para determinar su asociación con algún fenotipo en alguna población):

Si hacemos 4 descubrimientos (R), que 2 de ellos sean falsos (V) suele ser muy costoso.
Si hacemos 50 descubrimientos (R), que 2 de ellos sean descubrimientos falsos (V) no suele ser muy costoso.

El criterio FDR es escalable en el sentido de que la misma proporción de descubrimientos falsos respecto del número total de descubrimientos (Q) sigue siendo razonable para un número diferente de descubrimientos totales (R). Por ejemplo:

Si hacemos 100 descubrimientos (R), que 5 de ellos sean descubrimientos falsos ( ) puede no resultar muy costoso. $q=5\%$
De manera similar, si hacemos 1000 descubrimientos (R), que 50 de ellos sean descubrimientos falsos (como antes, ) puede que aún no sea muy costoso. $q=5\%$

Dependencia entre las estadísticas de prueba

El control del FDR mediante el procedimiento BH de aumento lineal, en el nivel q, tiene varias propiedades relacionadas con la estructura de dependencia entre las estadísticas de prueba de las $m$ hipótesis nulas que se están corrigiendo. Si las estadísticas de prueba son:

Independiente: ^[11] $\mathrm {FDR} \leq {\frac {m_{0}}{m}}q$
Independiente y continua: ^[1] $\mathrm {FDR} ={\frac {m_{0}}{m}}q$
Dependiente positivo: ^[11] $\mathrm {FDR} \leq {\frac {m_{0}}{m}}q$
En el caso general: ^[11] donde es la constante de Euler-Mascheroni . $\mathrm {FDR} \leq {\frac {m_{0}}{m}}{\frac {q}{1+{\frac {1}{2}}+{\frac {1}{3}}+\cdots +{\frac {1}{m}}}}\approx {\frac {m_{0}}{m}}{\frac {q}{\ln(m)+\gamma +{\frac {1}{2m}}}},$ ${\estilo de visualización \gamma}$

Proporción de hipótesis verdaderas

Si todas las hipótesis nulas son verdaderas ( ), entonces controlar el FDR en el nivel $q$ garantiza el control sobre el FWER (esto también se llama "control débil del FWER" ): , simplemente porque el evento de rechazar al menos una hipótesis nula verdadera es exactamente el evento , y el evento es exactamente el evento (cuando , por definición). ^[1] Pero si hay algunos descubrimientos verdaderos por hacer ( ) entonces $FWER \geq FDR$ . En ese caso habrá espacio para mejorar el poder de detección. También significa que cualquier procedimiento que controle el FWER también controlará el FDR. $m_{0}=m$ $\mathrm {FWER} = P\left(V\geq 1\right)=E\left({\frac {V}{R}}\right)=\mathrm {FDR} \leq q$ $\{V\geq 1\}$ $\{V/R=1\}$ ${\estilo de visualización \{V=0\}}$ $\{V/R=0\}$ $V=R=0$ $V/R=0$ $m_{0}<m$

Potencia media

La potencia media del procedimiento Benjamini-Hochberg se puede calcular analíticamente ^[18]

Conceptos relacionados

El descubrimiento del FDR fue precedido y seguido por muchos otros tipos de índices de error, entre ellos:

$PCER$ ( tasa de error por comparación ) se define como: . Probar individualmente cada hipótesis en el nivel $α$ garantiza que (esto es probar sin ninguna corrección por multiplicidad) $\mathrm {PCER} = E\left[{\frac {V}{m}}\right]$ $\mathrm {PCER} \leq \alpha$
La tasa de error por familia ( $FWER$ ) se define como: Existen numerosos procedimientos que controlan la FWER . $\mathrm {FWER} = P(V\geq 1)$
$k{\text{-FWER}}$ (La probabilidad de cola de la proporción de falsos descubrimientos), sugerida por Lehmann y Romano, van der Laan et al., ^{[ cita requerida ]} se define como: . $k{\text{-FWER}}=P(V\geq k)\leq q$
$k{\text{-FDR}}$ (también llamado FDR generalizado por Sarkar en 2007 ^[19]^[20] ) se define como: . $k{\text{-FDR}}=E\left({\frac {V}{R}}I_{(V>k)}\right)\leq q$
$Q'$ es la proporción de descubrimientos falsos entre los descubrimientos", sugerida por Soric en 1989, ^[9] y se define como: . Esta es una mezcla de expectativas y realizaciones, y tiene el problema del control de . ^[1] $Q'={\frac {E[V]}{R}}$ $m_{0}=m$
$\mathrm {FDR} _{-1}$ (o Fdr) fue utilizado por Benjamini y Hochberg, ^[3] y posteriormente llamado "Fdr" por Efron (2008) y antes. ^[21] Se define como: . Esta tasa de error no se puede controlar estrictamente porque es 1 cuando . $\mathrm {FDR} _{-1}=Fdr={\frac {E[V]}{E[R]}}$ $m=m_{0}$
$\mathrm {FDR} _{+1}$ fue utilizado por Benjamini y Hochberg, ^[3] y posteriormente llamado "pFDR" por Storey (2002). ^[22] Se define como: . Esta tasa de error no se puede controlar estrictamente porque es 1 cuando . JD Storey promovió el uso del pFDR (un pariente cercano del FDR), y el valor q , que puede verse como la proporción de descubrimientos falsos que esperamos en una tabla ordenada de resultados, hasta la línea actual. ^[^{cita requerida}^] Storey también promovió la idea (también mencionada por BH) de que el número real de hipótesis nulas, , se puede estimar a partir de la forma de la curva de distribución de probabilidad . Por ejemplo, en un conjunto de datos donde todas las hipótesis nulas son verdaderas, el 50% de los resultados producirán probabilidades entre 0,5 y 1,0 (y el otro 50% producirá probabilidades entre 0,0 y 0,5). Por lo tanto, podemos realizar una estimación encontrando el número de resultados con y duplicándolo, y esto permite refinar nuestro cálculo del pFDR en cualquier punto de corte particular en el conjunto de datos. ^[22] $\mathrm {FDR} _{+1}=pFDR=E\left[\left.{\frac {V}{R}}\right|R>0\right]$ $m=m_{0}$ $m_{0}$ $m_{0}$ $P>0.5$
Tasa de excedencia falsa (la probabilidad de cola de FDP), definida como: ^[23] $\mathrm {P} \left({\frac {V}{R}}>q\right)$
$W{\text{-FDR}}$ (FDR ponderado). A cada hipótesis i se le asocia un peso , que refleja la importancia/precio. El W-FDR se define como: . $w_{i}\geq 0$ $W{\text{-FDR}}=E\left({\frac {\sum w_{i}V_{i}}{\sum w_{i}R_{i}}}\right)$
Tasa de costo de descubrimiento falso ( $FDCR ). Proviene del$ control estadístico de procesos : a cada hipótesis i se asocia un costo y a la hipótesis de intersección un costo . La motivación es que detener un proceso de producción puede generar un costo fijo. Se define como: $\mathrm {c} _{i}$ $H_{00}$ $c_{0}$ $\mathrm {FDCR} =E\left(c_{0}V_{0}+{\frac {\sum c_{i}V_{i}}{c_{0}R_{0}+\sum c_{i}R_{i}}}\right)$
$PFER$ (tasa de error por familia) se define como: . $\mathrm {PFER} =E(V)$
La tasa de falsos no descubrimientos ( $FNR ) de Sarkar; Genovese y Wasserman$ ^{[ cita requerida ]} se define como: $\mathrm {FNR} =E\left({\frac {T}{m-R}}\right)=E\left({\frac {m-m_{0}-(R-V)}{m-R}}\right)$
$\mathrm {FDR} (z)$ se define como: $\mathrm {FDR} (z)={\frac {p_{0}F_{0}(z)}{F(z)}}$
$\mathrm {FDR}$ El fdr local se define como: $\mathrm {FDR} ={\frac {p_{0}f_{0}(z)}{f(z)}}$

Tasa de cobertura falsa

La tasa de cobertura falsa (FCR) es, en cierto sentido, el análogo de FDR al intervalo de confianza . FCR indica la tasa promedio de cobertura falsa, es decir, no cubrir los parámetros verdaderos, entre los intervalos seleccionados. La FCR proporciona una cobertura simultánea a un nivel para todos los parámetros considerados en el problema. Los intervalos con probabilidad de cobertura simultánea 1−q pueden controlar que la FCR esté limitada por q . Hay muchos procedimientos de FCR como: Bonferroni-Selected–Bonferroni-Adjusted, ^[^{cita requerida}^] Adjusted BH-Selected CIs (Benjamini y Yekutieli (2005)), ^[24] Bayes FCR (Yekutieli (2008)), ^[^{cita requerida}^] y otros métodos de Bayes. ^[25] $1-\alpha$

Enfoques bayesianos

Se han establecido conexiones entre los enfoques FDR y bayesianos (incluidos los métodos empíricos de Bayes), ^[21]^[26]^[27] estableciendo un umbral para los coeficientes wavelets y la selección del modelo , ^[28]^[29]^[30]^[31]^[32] y generalizando el intervalo de confianza en la tasa de declaraciones de cobertura falsa (FCR). ^[24]

Véase también

Valor predictivo positivo

Referencias

^ abcdefghi Benjamini Y, Hochberg Y (1995). "Control de la tasa de descubrimientos falsos: un enfoque práctico y eficaz para las pruebas múltiples". Journal of the Royal Statistical Society, Serie B . 57 (1): 289–300. MR 1325392.
^ Shaffer, JP (enero de 1995). "Prueba de hipótesis múltiples". Revista anual de psicología . 46 (1): 561–584. doi :10.1146/annurev.ps.46.020195.003021. S2CID 7696063. Gale A16629837.
^ abcdefg Benjamini Y (2010). "Descubrimiento de la tasa de descubrimientos falsos". Revista de la Royal Statistical Society, Serie B . 72 (4): 405–416. doi : 10.1111/j.1467-9868.2010.00746.x .
^ ab Storey JD, Tibshirani R (agosto de 2003). "Significación estadística para estudios de todo el genoma". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (16): 9440–5. Bibcode :2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . PMC 170937 . PMID 12883005.
^ Ryan TP, Woodall WH (2005). "Los artículos estadísticos más citados". Journal of Applied Statistics . 32 (5): 461–474. Bibcode :2005JApSt..32..461R. doi :10.1080/02664760500079373. S2CID 109615204.
^ Holm S (1979). "Un procedimiento de prueba múltiple secuencialmente rechazante simple". Revista Escandinava de Estadística . 6 (2): 65–70. JSTOR 4615733. MR 0538597.
^ Schweder T, Spjøtvoll E (1982). "Gráficos de valores P para evaluar muchas pruebas simultáneamente". Biometrika . 69 (3): 493–502. doi :10.1093/biomet/69.3.493.
^ Hochberg Y, Benjamini Y (julio de 1990). "Procedimientos más potentes para pruebas de significación múltiple". Estadística en Medicina . 9 (7): 811–8. doi :10.1002/sim.4780090710. PMID 2218183.
^ ab Soric B (junio de 1989). "Descubrimientos estadísticos" y estimación del tamaño del efecto". Revista de la Asociación Estadounidense de Estadística . 84 (406): 608–610. doi :10.1080/01621459.1989.10478811. JSTOR 2289950.
^ Simes RJ (1986). "Un procedimiento de Bonferroni mejorado para múltiples pruebas de significación". Biometrika . 73 (3): 751–754. doi :10.1093/biomet/73.3.751.
^ abcde Benjamini Y, Yekutieli D (2001). "El control de la tasa de descubrimientos falsos en pruebas múltiples bajo dependencia". Anales de Estadística . 29 (4): 1165–1188. doi : 10.1214/aos/1013699998 . MR 1869245.
^ Storey JD, Taylor JE, Siegmund D (2004). "Control fuerte, estimación puntual conservadora y consistencia conservadora simultánea de tasas de descubrimientos falsos: un enfoque unificado". Journal of the Royal Statistical Society, Serie B . 66 : 187–205. doi : 10.1111/j.1467-9868.2004.00439.x . S2CID 12646251.
^ Benjamini Y, Krieger AM, Yekutieli D (2006). "Procedimientos adaptativos lineales de incremento que controlan la tasa de descubrimientos falsos". Biometrika . 93 (3): 491–507. doi :10.1093/biomet/93.3.491.
^ Gavrilov Y, Benjamini Y, Sarkar SK (2009). "Un procedimiento de reducción gradual adaptativo con control FDR probado bajo independencia". Anales de Estadística . 37 (2): 619. arXiv : 0903.5373 . doi :10.1214/07-AOS586. S2CID 16913244.
^ Blanchard G, Roquain E (2008). "Dos condiciones suficientes simples para el control de FDR". Revista electrónica de estadística . 2 : 963–992. arXiv : 0802.1406 . doi :10.1214/08-EJS180. S2CID 16662020.
^ Yekutieli D, Benjamini Y (1999). "Procedimiento de control de la tasa de descubrimientos falsos basado en remuestreo para estadísticas de prueba dependientes". J. Statist. Planng Inf . 82 (1–2): 171–196. doi :10.1016/S0378-3758(99)00041-5.
^ van der Laan MJ, Dudoit S (2007). Procedimientos de pruebas múltiples con aplicaciones a la genómica . Nueva York: Springer.
^ Glueck, Deborah H; Mandel, Jan; Karimpour-Fard, Anis; Hunter, Lawrence; Muller, Keith E (30 de enero de 2008). "Cálculos exactos de potencia media para el procedimiento Benjamini-Hochberg". The International Journal of Biostatistics . 4 (1): Artículo 11. doi :10.2202/1557-4679.1103. PMC 3020656 . PMID 21243075.
^ Sarkar SK (2007). "Procedimientos de aumento gradual que controlan FWER generalizado y FDR generalizado". Anales de estadística . 35 (6): 2405–20. arXiv : 0803.2934 . doi :10.1214/009053607000000398. S2CID 14784911.
^ Sarkar SK, Guo W (junio de 2009). "Sobre una tasa generalizada de falsos descubrimientos". Anales de Estadística . 37 (3): 1545–65. arXiv : 0906.3091 . doi :10.1214/08-AOS617. JSTOR 30243677. S2CID 15746841.
^ ab Efron B (2008). "Microarrays, Bayes empírico y el modelo de dos grupos". Statistical Science . 23 : 1–22. arXiv : 0808.0603 . doi :10.1214/07-STS236. S2CID 8417479.
^ ab Storey JD (2002). "Un enfoque directo a las tasas de descubrimientos falsos" (PDF) . Revista de la Royal Statistical Society, Serie B. 64 ( 3): 479–498. CiteSeerX 10.1.1.320.7131 . doi :10.1111/1467-9868.00346. S2CID 122987911.
^ Benjamini Y (diciembre de 2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Revista biométrica. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID 21154895. S2CID 8806192.
^ ab Benjamini Y, Yekutieli Y (2005). "Tasa de descubrimientos falsos que controla los intervalos de confianza para parámetros seleccionados". Revista de la Asociación Estadounidense de Estadística . 100 (469): 71–80. doi :10.1198/016214504000001907. S2CID 23202143.
^ Zhao Z, Gene Hwang JT (2012). "Tasa de cobertura falsa de Bayes empírico que controla los intervalos de confianza". Journal of the Royal Statistical Society, Serie B. 74 ( 5): 871–891. doi :10.1111/j.1467-9868.2012.01033.x. hdl : 10.1111/j.1467-9868.2012.01033.x . S2CID 111420152.
^ Storey JD (2003). "La tasa de falsos descubrimientos positivos: una interpretación bayesiana y el valor q". Anales de Estadística . 31 (6): 2013–2035. doi : 10.1214/aos/1074290335 .
^ Efron B (2010). Inferencia a gran escala . Cambridge University Press . ISBN 978-0-521-19249-1.
^ Abramovich F, Benjamini Y, Donoho D, Johnstone IM (2006). "Adaptación a la escasez desconocida mediante el control de la tasa de descubrimientos falsos". Anales de estadística . 34 (2): 584–653. arXiv : math/0505374 . Bibcode :2005math......5374A. doi :10.1214/009053606000000074. S2CID 7581060.
^ Donoho D, Jin J (2006). "Minimidad asintótica del umbral de tasa de descubrimiento falso para datos exponenciales dispersos". Annals of Statistics . 34 (6): 2980–3018. arXiv : math/0602311 . Bibcode :2006math......2311D. doi :10.1214/009053606000000920. S2CID 9080115.
^ Benjamini Y, Gavrilov Y (2009). "Un procedimiento simple de selección hacia adelante basado en el control de la tasa de descubrimientos falsos". Annals of Applied Statistics . 3 (1): 179–198. arXiv : 0905.2819 . Código Bibliográfico :2009arXiv0905.2819B. doi :10.1214/08-AOAS194. S2CID 15719154.
^ Donoho D, Jin JS (2004). "Crítica superior para detectar mezclas heterogéneas dispersas". Anales de estadística . 32 (3): 962–994. arXiv : math/0410072 . Bibcode :2004math.....10072D. doi :10.1214/009053604000000265. S2CID 912325.
^ Stoica P, Babu P (2022). "Reglas de tasa de falsos descubrimientos (FDR) y tasa de error por familia (FER) para la selección de modelos en aplicaciones de procesamiento de señales". IEEE Open Journal of Signal Processing . 3 (1): 403–416. doi :10.1109/OJSP.2022.3213128.

Enlaces externos

Análisis de la tasa de descubrimientos falsos en R: incluye enlaces a paquetes R populares
Análisis de la tasa de falsos descubrimientos en Python: implementaciones de Python de procedimientos de tasa de falsos descubrimientos
Tasa de falsos descubrimientos: valores P corregidos y ajustados: implementación de MATLAB / GNU Octave y discusión sobre la diferencia entre valores P de FDR corregidos y ajustados.
Comprender la tasa de descubrimientos falsos: artículo de blog
StatQuest: FDR y el método Benjamini-Hochberg explicados con claridad en YouTube
Comprensión de la tasa de falsos descubrimientos: incluye código VBA de Excel para implementarlo y un ejemplo de desarrollo de una línea celular