Tasa de falso descubrimiento

En estadística , la tasa de descubrimiento falso ( FDR ) es un método para conceptualizar la tasa de errores de tipo I en pruebas de hipótesis nulas cuando se realizan comparaciones múltiples . Los procedimientos de control de FDR están diseñados para controlar el FDR, que es la proporción esperada de "descubrimientos" ( hipótesis nulas rechazadas ) que son falsos (rechazos incorrectos de la hipótesis nula). ^[1] De manera equivalente, el FDR es la relación esperada entre el número de clasificaciones falsas positivas (falsos descubrimientos) y el número total de clasificaciones positivas (rechazos de lo nulo). El número total de rechazos de la nula incluye tanto el número de falsos positivos (FP) como el de verdaderos positivos (TP). En pocas palabras, FDR = FP / (FP + TP). Los procedimientos de control FDR proporcionan un control menos estricto de los errores de Tipo I en comparación con los procedimientos de control de la tasa de error familiar (FWER) (como la corrección de Bonferroni ), que controlan la probabilidad de al menos un error de Tipo I. Por lo tanto, los procedimientos de control FDR tienen mayor poder , a costa de un mayor número de errores de Tipo I. ^[2]

Historia

Motivaciones tecnológicas

Se cree que el uso moderno y generalizado del FDR surge y está motivado por el desarrollo de tecnologías que permitieron la recopilación y el análisis de un gran número de variables distintas en varios individuos (por ejemplo, el nivel de expresión de cada uno de los 10.000 genes diferentes). en 100 personas diferentes). ^[3] A finales de los años 1980 y 1990, el desarrollo de ciencias de "alto rendimiento", como la genómica , permitió una rápida adquisición de datos. Esto, junto con el crecimiento de la potencia informática, hizo posible realizar sin problemas una gran cantidad de pruebas estadísticas en un conjunto de datos determinado. La tecnología de microarrays fue un ejemplo prototípico, ya que permitió probar simultáneamente miles de genes para determinar la expresión diferencial entre dos condiciones biológicas. ^[4]

A medida que las tecnologías de alto rendimiento se volvieron comunes, las limitaciones tecnológicas y/o financieras llevaron a los investigadores a recopilar conjuntos de datos con tamaños de muestra relativamente pequeños (por ejemplo, pocos individuos evaluados) y un gran número de variables medidas por muestra (por ejemplo, miles de niveles de expresión genética). En estos conjuntos de datos, muy pocas de las variables medidas mostraron significación estadística después de la corrección clásica para pruebas múltiples con procedimientos estándar de comparación múltiple . Esto creó una necesidad dentro de muchas comunidades científicas de abandonar FWER y las pruebas de hipótesis múltiples no ajustadas por otras formas de resaltar y clasificar en las publicaciones aquellas variables que muestran efectos marcados entre individuos o tratamientos que de otro modo se descartarían como no significativas después de la corrección estándar para múltiples pruebas. En respuesta a esto, se han propuesto una variedad de tasas de error (y se utilizan comúnmente en las publicaciones) que son menos conservadoras que FWER a la hora de señalar observaciones posiblemente dignas de mención. El FDR es útil cuando los investigadores buscan "descubrimientos" que les proporcionen trabajo de seguimiento (por ejemplo, detectar genes prometedores para estudios de seguimiento) y están interesados en controlar la proporción de "pistas falsas" que están dispuestos a aceptar.

Literatura

El concepto de FDR fue descrito formalmente por Yoav Benjamini y Yosef Hochberg en 1995 ^[1] (procedimiento BH) como un enfoque menos conservador y posiblemente más apropiado para identificar los pocos efectos importantes de los muchos triviales probados. El FDR ha sido particularmente influyente, ya que fue la primera alternativa al FWER que obtuvo amplia aceptación en muchos campos científicos (especialmente en las ciencias de la vida, desde la genética hasta la bioquímica, la oncología y las ciencias vegetales). ^[3] En 2005, el artículo de Benjamini y Hochberg de 1995 fue identificado como uno de los 25 artículos estadísticos más citados. ^[5]

Antes de la introducción del concepto de FDR en 1995, se habían considerado varias ideas precursoras en la literatura estadística. En 1979, Holm propuso el procedimiento de Holm , ^[6] un algoritmo gradual para controlar el FWER que es al menos tan potente como el conocido ajuste de Bonferroni . Este algoritmo paso a paso ordena los valores p y rechaza secuencialmente las hipótesis comenzando desde los valores p más pequeños .

Benjamini (2010) dijo que la tasa de descubrimiento falso, ^[3] y el artículo de Benjamini y Hochberg (1995), tuvieron su origen en dos artículos relacionados con pruebas múltiples:

El primer artículo es de Schweder y Spjotvoll (1982), quienes sugirieron trazar los valores p clasificados y evaluar el número de hipótesis nulas verdaderas ( ) mediante una línea ajustada a los ojos comenzando desde los valores p más grandes . ^[7] Los valores p que se desvían de esta línea recta deberían corresponder a las hipótesis nulas falsas. Esta idea se desarrolló posteriormente en un algoritmo e incorporó la estimación de en procedimientos como Bonferroni, Holm o Hochberg. ^[8] Esta idea está estrechamente relacionada con la interpretación gráfica del procedimiento BH. ${\ Displaystyle m_ {0}}$ ${\ Displaystyle m_ {0}}$
El segundo artículo es de Branko Soric (1989), que introdujo la terminología de "descubrimiento" en el contexto de la prueba de hipótesis múltiples. ^[9] Soric utilizó el número esperado de descubrimientos falsos dividido por el número de descubrimientos como una advertencia de que "una gran parte de los descubrimientos estadísticos pueden estar equivocados". Esto llevó a Benjamini y Hochberg a la idea de que una tasa de error similar, en lugar de ser simplemente una advertencia, puede servir como un objetivo digno de controlar. $\left(E[V]/R\right)$

Benjamini y Hochberg demostraron que el procedimiento BH controla el FDR mediante pruebas independientes en 1995. ^[1] En 1986, RJ Simes ofreció el mismo procedimiento que el "procedimiento Simes", para controlar el FWER en el sentido débil (bajo la hipótesis nula de intersección) cuando las estadísticas son independientes. ^[10]

Definiciones

Con base en las definiciones a continuación, podemos definir $Q$ como la proporción de descubrimientos falsos entre los descubrimientos (rechazos de la hipótesis nula):

Q={\frac {V}{R}}={\frac {V}{V+S}}.

V

S

La tasa de descubrimiento falso ( FDR ) es entonces simplemente: ^[1]

\mathrm {FDR} =Q_{e}=\mathrm {E} \!\left[Q\right]=1-{\text{precisión}},

valor esperadoqla división por cero,. ^[1]

\mathrm {E} \!\left[Q\right]

Q

Q

R=0

\mathrm {FDR} =\mathrm {E} \!\left[V/R|R>0\right]\cdot \mathrm {P} \!\left(R>0\right)

Clasificación de pruebas de hipótesis múltiples.

La siguiente tabla define los posibles resultados al probar múltiples hipótesis nulas. Supongamos que tenemos un número m de hipótesis nulas, denotadas por: $H 1, H 2, ..., H m .$ Utilizando una prueba estadística , rechazamos la hipótesis nula si la prueba se declara significativa. No rechazamos la hipótesis nula si la prueba no es significativa. La suma de cada tipo de resultado sobre todo H _i produce las siguientes variables aleatorias:

$m$ es el número total de hipótesis probadas
${\ Displaystyle m_ {0}}$ es el número de hipótesis nulas verdaderas , un parámetro desconocido
${\ Displaystyle mm_ {0}}$ es el número de hipótesis alternativas verdaderas
$V$ es el número de falsos positivos (error tipo I) (también llamados "falsos descubrimientos")
$S$ es el número de verdaderos positivos (también llamados "verdaderos descubrimientos")
$T$ es el número de falsos negativos (error tipo II)
$U$ es el número de verdaderos negativos.
$R=V+S$ es el número de hipótesis nulas rechazadas (también llamadas "descubrimientos", ya sean verdaderas o falsas)

En $m$ pruebas de hipótesis de las cuales son hipótesis nulas verdaderas, $R$ es una variable aleatoria observable y $S$ , $T$ , $U$ y $V$ son variables aleatorias no observables . ${\ Displaystyle m_ {0}}$

Procedimientos de control

La configuración de muchos procedimientos es tal que tenemos hipótesis nulas probadas y sus correspondientes valores p . Enumeramos estos valores p en orden ascendente y los denotamos por . Un procedimiento que va de una estadística de prueba pequeña a una grande se denominará procedimiento incremental. De manera similar, en un procedimiento de "reducción" pasamos de un estadístico de prueba correspondiente grande a uno más pequeño. $H_{1}\ldots H_{m}$ $P_{1}\ldots P_{m}$ $P_{(1)}\ldots P_{(m)}$

Procedimiento de Benjamini-Hochberg

El procedimiento Benjamini-Hochberg (procedimiento incremental de BH) controla el FDR en el nivel . ^[1] Funciona de la siguiente manera: $\alpha$

Para un dado , encuentre el $k$ más grande tal que $\alpha$ $P_{(k)}\leq {\frac {k}{m}}\alpha$
Rechazar la hipótesis nula (es decir, declarar descubrimientos) para todos por $H_{(i)}$ $i=1,\ldots,k$

Geométricamente, esto corresponde a trazar vs. $k$ (en los ejes $y$ y $x$ respectivamente), dibujar la línea que pasa por el origen con pendiente y declarar descubrimientos para todos los puntos a la izquierda, hasta e incluyendo el último punto que no está arriba. la línea. $P_{(k)}$ ${\frac {\alpha }{m}}$

El procedimiento de BH es válido cuando las $m$ pruebas son independientes , y también en diversos escenarios de dependencia, pero no es universalmente válido. ^[11] También satisface la desigualdad:

E(Q)\leq {\frac {m_{0}}{m}}\alpha \leq \alpha

^[3]^[12]^[13]^[14]^[15]

{\ Displaystyle m_ {0}}

Tenga en cuenta que la media de estas $m$ pruebas es la Media (FDR ) o MFDR, ajustada para $m$ pruebas independientes o correlacionadas positivamente (consulte AFDR a continuación). La expresión MFDR aquí es para un único valor recalculado y no forma parte del método de Benjamini y Hochberg. $\alpha$ ${\frac {\alpha (m+1)}{2m}}$ $\alpha$ $\alpha$ $\alpha$

Procedimiento de Benjamini-Yekutieli

El procedimiento Benjamini-Yekutieli controla la tasa de descubrimiento falso bajo supuestos de dependencia arbitraria. ^[11] Este refinamiento modifica el umbral y encuentra el $k$ más grande tal que:

P_{(k)}\leq {\frac {k}{m\cdot c(m)}}\alpha

Si las pruebas son independientes o están correlacionadas positivamente (como en el procedimiento de Benjamini-Hochberg): $c(m)=1$
Bajo dependencia arbitraria (incluido el caso de correlación negativa), c(m) es el número armónico : . $c(m)=\sum _{i=1}^{m}{\frac {1}{i}}$
Tenga en cuenta que se puede aproximar utilizando la expansión de la serie de Taylor y la constante de Euler-Mascheroni ( ): $c(m)$ $\gamma =0,57721...$ $\sum _{i=1}^{m}{\frac {1}{i}}\approx \ln(m)+\gamma +{\frac {1}{2m}}.$

Usando MFDR y las fórmulas anteriores, un MFDR ajustado (o AFDR) es el mínimo de la media para $m$ pruebas dependientes, es decir, . Otra forma de abordar la dependencia es mediante el arranque y la realeatorización. ^[4]^[16]^[17] $\alpha$ ${\frac {\mathrm {MFDR} }{c(m)}}={\frac {\alpha (m+1)}{2m[\ln(m)+\gamma ]+1}}$

Procedimiento Storey-Tibshirani

En el procedimiento Storey-Tibshirani, los valores q se utilizan para controlar el FDR.

Propiedades

Adaptable y escalable

Utilizar un procedimiento de multiplicidad que controle el criterio FDR es adaptable y escalable . Lo que significa que controlar el FDR puede ser muy permisivo (si los datos lo justifican) o conservador (actuar cerca del control de FWER para problemas dispersos), todo dependiendo del número de hipótesis probadas y del nivel de significancia. ^[3]

El criterio FDR se adapta de modo que el mismo número de descubrimientos falsos (V) tendrá implicaciones diferentes, dependiendo del número total de descubrimientos (R). Esto contrasta con el criterio de tasa de error familiar . Por ejemplo, si se inspeccionan 100 hipótesis (digamos, 100 mutaciones genéticas o SNP en busca de asociación con algún fenotipo en alguna población):

Si hacemos 4 descubrimientos (R), que 2 de ellos sean descubrimientos falsos (V) suele resultar muy costoso. Mientras que,
Si hacemos 50 descubrimientos (R), que 2 de ellos sean falsos (V) no suele ser muy costoso.

El criterio de FDR es escalable en el sentido de que la misma proporción de descubrimientos falsos sobre el número total de descubrimientos (Q) sigue siendo sensata para un número diferente de descubrimientos totales (R). Por ejemplo:

Si hacemos 100 descubrimientos (R), que 5 de ellos sean descubrimientos falsos ( ) puede no ser muy costoso. $q=5\%$
De manera similar, si hacemos 1000 descubrimientos (R), el hecho de que 50 de ellos sean descubrimientos falsos (como antes ) aún puede no ser muy costoso. $q=5\%$

Dependencia entre las estadísticas de prueba.

Controlar el FDR utilizando el procedimiento BH incremental lineal, en el nivel q, tiene varias propiedades relacionadas con la estructura de dependencia entre los estadísticos de prueba de las $m$ hipótesis nulas que se están corrigiendo. Si las estadísticas de la prueba son:

Independiente: ^[11] $\mathrm {FDR} \leq {\frac {m_{0}}{m}}q$
Independiente y continuo: ^[1] $\mathrm {FDR} ={\frac {m_{0}}{m}}q$
Dependiente positivo: ^[11] $\mathrm {FDR} \leq {\frac {m_{0}}{m}}q$
En el caso general: ^[11] $\mathrm {FDR} \leq {\frac {m_{0}}{m}}{\frac {q}{1+{\frac {1}{2}}+{\frac {1}{ 3}}+\cdots +{\frac {1}{m}}}}\approx {\frac {m_{0}}{m}}{\frac {q}{\ln(m)+\gamma + {\frac {1}{2m}}}},$ ¿Dónde está la constante de Euler-Mascheroni ? $\gamma$

Proporción de hipótesis verdaderas

Si todas las hipótesis nulas son verdaderas ( ), entonces controlar el FDR en el nivel $q$ garantiza el control sobre el FWER (esto también se llama "control débil del FWER" ) : , simplemente porque se produce el evento de rechazar al menos una hipótesis nula verdadera es exactamente el evento , y el evento es exactamente el evento (cuando , por definición). ^[1] Pero si hay algunos descubrimientos verdaderos por hacer ( ) entonces $FWER \geq FDR$ . En ese caso, habrá margen para mejorar el poder de detección. También significa que cualquier procedimiento que controle el FWER también controlará el FDR. $m_{0}=m$ $\mathrm {FWER} =P\left(V\geq 1\right)=E\left({\frac {V}{R}}\right)=\mathrm {FDR} \leq q$ $\{V\geq 1\}$ $\{V/R=1\}$ $\{V=0\}$ $\{V/R=0\}$ $V=R=0$ $V/R=0$ $m_{0}<m$

Energía promedio

La potencia promedio del procedimiento de Benjamini-Hochberg se puede calcular analíticamente ^[18]

Conceptos relacionados

El descubrimiento del FDR fue precedido y seguido por muchos otros tipos de tasas de error. Éstas incluyen:

$PCER$ ( tasa de error por comparación ) se define como: . Probar individualmente cada hipótesis en el nivel $α$ garantiza que (esto es probar sin ninguna corrección por multiplicidad) $\mathrm {PCER} =E\left[{\frac {V}{m}}\right]$ $\mathrm {PCER} \leq \alpha$
$FWER$ (la tasa de error familiar ) se define como: . Existen numerosos procedimientos que controlan el FWER . $\mathrm {FWER} =P(V\geq 1)$
$k{\text{-FWER}}$ (La probabilidad de cola de la proporción de descubrimiento falso), sugerida por Lehmann y Romano, van der Laan et al, ^{[ cita necesaria ]} se define como: . $k{\text{-FWER}}=P(V\geq k)\leq q$
$k{\text{-FDR}}$ (también llamado FDR generalizado por Sarkar en 2007 ^[19]^[20] ) se define como: . $k{\text{-FDR}}=E\left({\frac {V}{R}}I_{(V>k)}\right)\leq q$
$Q'$ es la proporción de falsos descubrimientos entre los descubrimientos", sugerida por Soric en 1989, ^[9] y se define como: . Es una mezcla de expectativas y realizaciones, y tiene el problema de control de . ^[1] $Q'={\frac {E[V]}{R}}$ $m_{0}=m$
$\mathrm {FDR} _{-1}$ (o Fdr) fue utilizado por Benjamini y Hochberg, ^[3] y más tarde llamado "Fdr" por Efron (2008) y antes. ^[21] Se define como: . Esta tasa de error no se puede controlar estrictamente porque es 1 cuando . $\mathrm {FDR} _{-1}=Fdr={\frac {E[V]}{E[R]}}$ $m=m_{0}$
$\mathrm {FDR} _{+1}$ fue utilizado por Benjamini y Hochberg, ^[3] y posteriormente llamado "pFDR" por Storey (2002). ^[22] Se define como: . Esta tasa de error no se puede controlar estrictamente porque es 1 cuando . JD Storey promovió el uso del pFDR (un pariente cercano del FDR) y el valor q , que puede verse como la proporción de descubrimientos falsos que esperamos en una tabla ordenada de resultados, hasta la línea actual. ^[^{cita necesaria}^] Storey también promovió la idea (también mencionada por BH) de que el número real de hipótesis nulas, puede estimarse a partir de la forma de la curva de distribución de probabilidad . Por ejemplo, en un conjunto de datos donde todas las hipótesis nulas son verdaderas, el 50% de los resultados arrojará probabilidades entre 0,5 y 1,0 (y el otro 50% arrojará probabilidades entre 0,0 y 0,5). Por lo tanto, podemos estimar encontrando el número de resultados y duplicándolo, y esto permite refinar nuestro cálculo del pFDR en cualquier corte particular en el conjunto de datos. ^[22] $\mathrm {FDR} _{+1}=pFDR=E\left[\left.{\frac {V}{R}}\right|R>0\right]$ $m=m_{0}$ $m_{0}$ $m_{0}$ $P>0.5$
Tasa de falsa excedencia (la probabilidad de cola de FDP), definida como: ^[23] $\mathrm {P} \left({\frac {V}{R}}>q\right)$
$W{\text{-FDR}}$ (FDR ponderado). Asociado con cada hipótesis i hay un peso , los pesos capturan importancia/precio. El W-FDR se define como: . $w_{i}\geq 0$ $W{\text{-FDR}}=E\left({\frac {\sum w_{i}V_{i}}{\sum w_{i}R_{i}}}\right)$
$FDCR$ (tasa de costo de descubrimiento falso). Derivado del control estadístico de procesos : asociado a cada hipótesis i hay un costo y a la hipótesis de intersección un costo . La motivación es que detener un proceso de producción puede generar un costo fijo. Se define como: $\mathrm {c} _{i}$ $H_{00}$ $c_{0}$ $\mathrm {FDCR} =E\left(c_{0}V_{0}+{\frac {\sum c_{i}V_{i}}{c_{0}R_{0}+\sum c_{i}R_{i}}}\right)$
$PFER$ (tasa de error por familia) se define como: . $\mathrm {PFER} =E(V)$
$FNR$ (Tasas falsas de no descubrimiento) por Sarkar; Genovese y Wasserman ^{[ cita necesaria ]} se define como: $\mathrm {FNR} =E\left({\frac {T}{m-R}}\right)=E\left({\frac {m-m_{0}-(R-V)}{m-R}}\right)$
$\mathrm {FDR} (z)$ Se define como: $\mathrm {FDR} (z)={\frac {p_{0}F_{0}(z)}{F(z)}}$
$\mathrm {FDR}$ El fdr local se define como: $\mathrm {FDR} ={\frac {p_{0}f_{0}(z)}{f(z)}}$

Tasa de cobertura falsa

La tasa de cobertura falsa (FCR) es, en cierto sentido, la FDR análoga al intervalo de confianza . FCR indica la tasa promedio de cobertura falsa, es decir, no cubrir los parámetros verdaderos, entre los intervalos seleccionados. El FCR da una cobertura simultánea a un nivel para todos los parámetros considerados en el problema. Los intervalos con probabilidad de cobertura simultánea 1−q pueden controlar que el FCR esté limitado por q . Existen muchos procedimientos de FCR, como: Bonferroni-Selected – Bonferroni-Adjusted, ^[^{cita necesaria}^] IC ajustados seleccionados por BH (Benjamini y Yekutieli (2005)), ^[24] Bayes FCR (Yekutieli (2008)), ^[^{cita necesaria}^] y otros métodos de Bayes. ^[25] $1-\alpha$

Enfoques bayesianos

Se han establecido conexiones entre los enfoques FDR y bayesiano (incluidos los métodos empíricos de Bayes), ^[21]^[26]^[27] umbralización de coeficientes de wavelets y selección de modelos , ^[28]^[29]^[30]^[31]^[32] y generalización. el intervalo de confianza en la tasa de declaración de cobertura falsa (FCR). ^[24]

Ver también

Valor predictivo positivo

Referencias

^ abcdefghi Benjamini Y, Hochberg Y (1995). "Controlar la tasa de descubrimientos falsos: un enfoque práctico y poderoso para pruebas múltiples". Revista de la Royal Statistical Society, Serie B. 57 (1): 289–300. SEÑOR 1325392.
^ Shaffer, JP (enero de 1995). "Prueba de hipótesis múltiples". Revista Anual de Psicología . 46 (1): 561–584. doi : 10.1146/annurev.ps.46.020195.003021. S2CID 7696063. Vendaval A16629837.
^ abcdefg Benjamini Y (2010). "Descubriendo la tasa de descubrimientos falsos". Revista de la Royal Statistical Society, Serie B. 72 (4): 405–416. doi : 10.1111/j.1467-9868.2010.00746.x .
^ ab Storey JD, Tibshirani R (agosto de 2003). "Importancia estadística para estudios de todo el genoma". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (16): 9440–5. Código Bib : 2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . PMC 170937 . PMID 12883005.
^ Ryan TP, Woodall WH (2005). "Los artículos estadísticos más citados". Revista de Estadística Aplicada . 32 (5): 461–474. Código Bib : 2005JApSt..32..461R. doi :10.1080/02664760500079373. S2CID 109615204.
^ Holm S (1979). "Un procedimiento de prueba múltiple secuencialmente rechazable simple". Revista escandinava de estadística . 6 (2): 65–70. JSTOR 4615733. SEÑOR 0538597.
^ Schweder T, Spjøtvoll E (1982). "Gráficos de valores P para evaluar muchas pruebas simultáneamente". Biometrika . 69 (3): 493–502. doi :10.1093/biomet/69.3.493.
^ Hochberg Y, Benjamini Y (julio de 1990). "Procedimientos más potentes para pruebas de significación múltiple". Estadística en Medicina . 9 (7): 811–8. doi :10.1002/sim.4780090710. PMID 2218183.
^ ab Soric B (junio de 1989). "Descubrimientos" estadísticos y estimación del tamaño del efecto. Revista de la Asociación Estadounidense de Estadística . 84 (406): 608–610. doi :10.1080/01621459.1989.10478811. JSTOR 2289950.
^ Simes RJ (1986). "Un procedimiento de Bonferroni mejorado para múltiples pruebas de significancia". Biometrika . 73 (3): 751–754. doi :10.1093/biomet/73.3.751.
^ abcde Benjamini Y, Yekutieli D (2001). "El control de la tasa de descubrimiento falso en pruebas múltiples bajo dependencia". Anales de Estadística . 29 (4): 1165–1188. doi : 10.1214/aos/1013699998 . SEÑOR 1869245.
^ Pisos JD, Taylor JE, Siegmund D (2004). "Fuerte control, estimación puntual conservadora y coherencia conservadora simultánea de tasas de descubrimiento falso: un enfoque unificado". Revista de la Royal Statistical Society, Serie B. 66 : 187-205. doi : 10.1111/j.1467-9868.2004.00439.x . S2CID 12646251.
^ Benjamini Y, Krieger AM, Yekutieli D (2006). "Procedimientos incrementales lineales adaptativos que controlan la tasa de descubrimiento falso". Biometrika . 93 (3): 491–507. doi :10.1093/biomet/93.3.491.
^ Gavrilov Y, Benjamini Y, Sarkar SK (2009). "Un procedimiento de reducción adaptativo con control comprobado de FDR bajo independencia". Los anales de la estadística . 37 (2): 619. arXiv : 0903.5373 . doi :10.1214/07-AOS586. S2CID 16913244.
^ Blanchard G, Roquain E (2008). "Dos condiciones suficientes y simples para el control de FDR". Revista Electrónica de Estadística . 2 : 963–992. arXiv : 0802.1406 . doi :10.1214/08-EJS180. S2CID 16662020.
^ Yekutieli D, Benjamini Y (1999). "Procedimiento de control de tasa de descubrimiento falso basado en remuestreo para estadísticas de prueba dependientes". J. Estatista. Planificación Inf . 82 (1–2): 171–196. doi :10.1016/S0378-3758(99)00041-5.
^ van der Laan MJ, Dudoit S (2007). Múltiples procedimientos de prueba con aplicaciones a la genómica . Nueva York: Springer.
^ Glueck, Deborah H; Mandel, enero; Karimpour-Fard, Anis; Cazador, Lawrence; Muller, Keith E (30 de enero de 2008). "Cálculos exactos de la potencia media para el procedimiento Benjamini-Hochberg". La Revista Internacional de Bioestadística . 4 (1): Artículo 11. doi :10.2202/1557-4679.1103. PMC 3020656 . PMID 21243075.
^ Sarkar SK (2007). "Procedimientos intensificados que controlan FWER generalizado y FDR generalizado". Los anales de la estadística . 35 (6): 2405–20. arXiv : 0803.2934 . doi :10.1214/009053607000000398. S2CID 14784911.
^ Sarkar SK, Guo W (junio de 2009). "Sobre una tasa generalizada de descubrimientos falsos". Los anales de la estadística . 37 (3): 1545–65. arXiv : 0906.3091 . doi :10.1214/08-AOS617. JSTOR 30243677. S2CID 15746841.
^ ab Efron B (2008). "Microarrays, Bayes empírico y el modelo de dos grupos". Ciencia estadística . 23 : 1–22. arXiv : 0808.0603 . doi :10.1214/07-STS236. S2CID 8417479.
^ ab Pisos JD (2002). "Un enfoque directo a las tasas de descubrimiento falso" (PDF) . Revista de la Royal Statistical Society, Serie B. 64 (3): 479–498. CiteSeerX 10.1.1.320.7131 . doi :10.1111/1467-9868.00346. S2CID 122987911.
^ Benjamini Y (diciembre de 2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Revista biométrica. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID 21154895. S2CID 8806192.
^ ab Benjamini Y, Yekutieli Y (2005). "Tasa de descubrimiento falso que controla los intervalos de confianza para parámetros seleccionados". Revista de la Asociación Estadounidense de Estadística . 100 (469): 71–80. doi :10.1198/016214504000001907. S2CID 23202143.
^ Zhao Z, Gene Hwang JT (2012). "Tasa de cobertura falsa empírica de Bayes que controla los intervalos de confianza". Revista de la Royal Statistical Society, Serie B. 74 (5): 871–891. doi :10.1111/j.1467-9868.2012.01033.x. hdl : 10.1111/j.1467-9868.2012.01033.x . S2CID 111420152.
^ Piso JD (2003). "La tasa de descubrimiento falso positivo: una interpretación bayesiana y el valor q". Anales de Estadística . 31 (6): 2013-2035. doi : 10.1214/aos/1074290335 .
^ Efron B (2010). Inferencia a gran escala . Prensa de la Universidad de Cambridge . ISBN 978-0-521-19249-1.
^ Abramovich F, Benjamini Y, Donoho D, Johnstone IM (2006). "Adaptarse a la escasez desconocida controlando la tasa de descubrimientos falsos". Anales de Estadística . 34 (2): 584–653. arXiv : matemáticas/0505374 . Código Bib : 2005 matemáticas ...... 5374A. doi :10.1214/009053606000000074. S2CID 7581060.
^ Donoho D, Jin J (2006). "Minimaxidad asintótica del umbral de tasa de descubrimiento falso para datos exponenciales escasos". Anales de Estadística . 34 (6): 2980–3018. arXiv : matemáticas/0602311 . Código Bib : 2006 matemáticas ...... 2311D. doi :10.1214/009053606000000920. S2CID 9080115.
^ Benjamini Y, Gavrilov Y (2009). "Un procedimiento de selección directa simple basado en el control de la tasa de descubrimiento falso". Anales de Estadística Aplicada . 3 (1): 179–198. arXiv : 0905.2819 . Código Bib : 2009arXiv0905.2819B. doi :10.1214/08-AOAS194. S2CID 15719154.
^ Donoho D, Jin JS (2004). "Mayor crítica por detectar mezclas heterogéneas escasas". Anales de Estadística . 32 (3): 962–994. arXiv : matemáticas/0410072 . Código Bib : 2004 matemáticas..... 10072D. doi :10.1214/009053604000000265. S2CID 912325.
^ Stoica P, Babu P (2022). "Reglas de tasa de descubrimiento falso (FDR) y tasa de error familiar (FER) para la selección de modelos en aplicaciones de procesamiento de señales". Revista abierta de procesamiento de señales del IEEE . 3 (1): 403–416. doi :10.1109/OJSP.2022.3213128.

enlaces externos

Análisis de tasa de descubrimiento falso en R: enumera enlaces con paquetes populares de R
Análisis de tasa de descubrimiento falso en Python: implementaciones en Python de procedimientos de tasa de descubrimiento falso
Tasa de descubrimiento falso: valores P corregidos y ajustados: implementación de MATLAB / GNU Octave y discusión sobre la diferencia entre los valores p de FDR corregidos y ajustados.
Comprender la tasa de descubrimiento falso: entrada de blog
StatQuest: FDR y el método Benjamini-Hochberg claramente explicados en YouTube
Comprensión de la tasa de descubrimiento falso: incluye código Excel VBA para implementarlo y un ejemplo en el desarrollo de líneas celulares