John D. Storey es profesor de Genómica William R. Harman '63 y Mary-Love Harman en la Universidad de Princeton . [1] Su investigación se centra en la inferencia estadística de datos de alta dimensión, en particular datos genómicos. Storey fue el director fundador del Centro de Estadística y Aprendizaje Automático de la Universidad de Princeton. [2]
Las primeras investigaciones de Storey se centraron en la tasa de falsos descubrimientos . En ese momento, la tasa de falsos descubrimientos solo se había estudiado en el contexto de los métodos de valor p secuencial y aún no se usaba ampliamente. Sin embargo, Storey demostró que las tasas de falsos descubrimientos se pueden abordar mediante estimación puntual [3], abriendo esta rama muy activa de la estadística a las tasas de falsos descubrimientos. Simultáneamente, demostró un resultado que muestra que la tasa de falsos descubrimientos positivos (pFDR) es exactamente igual a una probabilidad posterior bayesiana, proporcionando así la primera conexión directa entre las tasas de falsos descubrimientos y la teoría bayesiana. [4] En estos trabajos, también inventó el valor q , que es un análogo de la tasa de falsos descubrimientos del valor p . Luego, Storey introdujo las tasas de falsos descubrimientos y los valores q como medidas ampliamente aplicables de significación estadística en genómica, cambiando el enfoque del control de falsos positivos al control de la tasa de falsos descubrimientos. [5] Con Jeff Leek , Storey descubrió que la "heterogeneidad de expresión", o fuentes no modeladas de variación sistemática en los datos de expresión génica, son muy frecuentes y necesitan ser modeladas y corregidas al analizar datos de expresión génica de todo el genoma. [6] Leek y Storey introdujeron el "análisis de variable sustituta", que es un modelo de regresión de alta dimensión que incluye covariables conocidas y desconocidas. Ha desarrollado varios métodos para estimar este modelo. Recientemente, Storey ha cambiado su enfoque a la genómica de poblaciones, donde ha introducido modelos de todo el genoma de frecuencias de alelos , equilibrio de Hardy-Weinberg y estadísticas F que se mantienen bajo estructuras poblacionales arbitrarias.