John D. Storey es profesor de genómica William R. Harman '63 y Mary-Love Harman en la Universidad de Princeton . [1] Su investigación se centra en la inferencia estadística de datos de alta dimensión, particularmente datos genómicos. Storey fue el director fundador del Centro de Estadística y Aprendizaje Automático de la Universidad de Princeton. [2]
Las primeras investigaciones de Storey se centraron en la tasa de descubrimientos falsos . En aquel momento, la tasa de descubrimientos falsos sólo se había estudiado en el contexto de métodos secuenciales de valor p y aún no se utilizaba de forma generalizada. Sin embargo, Storey demostró que las tasas de descubrimiento falso se pueden aproximar mediante la estimación puntual [3], abriendo esta rama muy activa de la estadística a tasas de descubrimiento falso. Simultáneamente demostró un resultado que muestra que la tasa de descubrimiento falso positivo (pFDR) es exactamente igual a una probabilidad posterior bayesiana, proporcionando así la primera conexión directa entre las tasas de descubrimiento falso y la teoría bayesiana. [4] En estos trabajos, también inventó el valor q , que es un falso análogo de la tasa de descubrimiento del valor p . Luego, Storey introdujo tasas de descubrimiento falso y valores q como medidas de significación estadística ampliamente aplicables en genómica, cambiando el enfoque del control de falsos positivos al control de la tasa de descubrimiento falso. [5] Con Jeff Leek , Storey descubrió que la "heterogeneidad de expresión", o fuentes no modeladas de variación sistemática en los datos de expresión genética, son muy frecuentes y necesitan ser modeladas y corregidas al analizar datos de expresión genética de todo el genoma. [6] Leek y Storey introdujeron el "análisis de variables sustitutas", que es un modelo de regresión de alta dimensión que incluye covariables conocidas y desconocidas. Ha desarrollado varios métodos para estimar este modelo. Recientemente, Storey ha cambiado su enfoque a la genómica de poblaciones, donde ha introducido modelos de frecuencias alélicas de todo el genoma , equilibrio de Hardy-Weinberg y estadísticas F que se mantienen bajo estructuras de población arbitrarias.