stringtranslate.com

Gráfica de volcanes (estadísticas)

Gráfico de volcanes que muestra datos metabolómicos . Las flechas rojas indican puntos de interés que muestran cambios de magnitud grandes (eje x) y alta significación estadística (-log 10 del valor p, eje y). La línea roja discontinua muestra dónde p = 0,05, con puntos por encima de la línea que tienen p < 0,05 y puntos por debajo de la línea que tienen p > 0,05. Este gráfico está coloreado de tal manera que aquellos puntos que tienen un cambio de magnitud menor a 2 (log 2 = 1) se muestran en gris.

En estadística, un gráfico de volcán es un tipo de gráfico de dispersión que se utiliza para identificar rápidamente cambios en grandes conjuntos de datos compuestos por datos replicados. [1] [2] Traza la significancia versus el cambio en los ejes y y x, respectivamente. Estos gráficos son cada vez más comunes en experimentos ómicos como la genómica , la proteómica y la metabolómica, donde a menudo se tiene una lista de muchos miles de puntos de datos replicados entre dos condiciones y se desea identificar rápidamente los cambios más significativos. Un gráfico de volcán combina una medida de significancia estadística de una prueba estadística (por ejemplo, un valor p de un modelo ANOVA ) con la magnitud del cambio, lo que permite una rápida identificación visual de aquellos puntos de datos (genes, etc.) que muestran cambios de gran magnitud que también son estadísticamente significativos .

Un gráfico de volcán se construye trazando el logaritmo negativo del valor p en el eje y (normalmente base 10). Esto da como resultado que los puntos de datos con valores p bajos (altamente significativos) aparezcan hacia la parte superior del gráfico. El eje x es el logaritmo del cambio de pliegue entre las dos condiciones. El logaritmo del cambio de pliegue se utiliza para que los cambios en ambas direcciones aparezcan equidistantes del centro. Trazar los puntos de esta manera da como resultado dos regiones de interés en el gráfico: aquellos puntos que se encuentran hacia la parte superior del gráfico que están lejos del lado izquierdo o derecho. Estos representan valores que muestran cambios de pliegue de gran magnitud (por lo tanto, están a la izquierda o a la derecha del centro), así como una alta significación estadística (por lo tanto, están hacia la parte superior).

Se puede añadir información adicional coloreando los puntos según una tercera dimensión de los datos (como la intensidad de la señal), pero esto no se emplea de manera uniforme. Los gráficos de volcanes también se utilizan para mostrar gráficamente un criterio de selección de genes de análisis de significancia de microarrays (SAM), un ejemplo de regularización . [3]

El concepto de gráfico de volcán se puede generalizar a otras aplicaciones, donde el eje x está relacionado con una medida de la fuerza de una señal estadística, y el eje y está relacionado con una medida de la significación estadística de la señal. Por ejemplo, en un estudio de casos y controles de asociación genética , como un estudio de asociación de todo el genoma , un punto en un gráfico de volcán representa un polimorfismo de un solo nucleótido . Su valor x puede ser el logaritmo de la razón de probabilidades y su valor y puede ser -log 10 del valor p de una prueba de Chi-cuadrado o una estadística de prueba de Chi-cuadrado . [4]

Los gráficos de volcanes muestran una forma característica de dos brazos hacia arriba porque el eje x, es decir, los cambios de pliegues logarítmicos subyacentes , son generalmente una distribución normal , mientras que el eje y, los valores de p logarítmicos 10 , tienden hacia una mayor significación para los cambios de pliegues que se desvían más fuertemente de cero. La densidad de la distribución normal toma la forma

.

Así que el de eso es

y lo negativo es

que es una parábola cuyos brazos se extienden hacia arriba en los lados izquierdo y derecho. El límite superior de los datos es una parábola y el límite inferior es otra parábola.

Referencias

  1. ^ Jin, W; Riley, RM; Wolfinger, RD; White, KP; Passador-Gurgel, G; Gibson, G (2001). "Contribuciones del sexo, el genotipo y la edad a la varianza transcripcional en Drosophila melanogaster". Nature Genetics . 29 (4): 389–395. doi :10.1038/ng766. PMID  11726925. S2CID  16841881.
  2. ^ Cui, X.; Churchill, GA (2003). "Pruebas estadísticas para expresión diferencial en experimentos de microarrays de ADNc". Genome Biology . 4 (4): 210. doi : 10.1186/gb-2003-4-4-210 . PMC 154570 . PMID  12702200. 
  3. ^ Li, W. (2012). "Gráficos de volcanes en el análisis de expresiones diferenciales con microarreglos de ARNm". Revista de bioinformática y biología computacional . 10 (6): 1231003. arXiv : 1103.3434 . doi :10.1142/S0219720012310038. PMID  23075208. S2CID  204899379.
  4. ^ Li, W. ; Freudenberg, J.; Suh, YJ; Yang, Y. (2014). "Uso de gráficos de volcanes y estadísticas de chi regularizadas en estudios de asociación genética". Biología computacional y química . 48 : 77–83. arXiv : 1308.6245 . doi :10.1016/j.compbiolchem.2013.02.003. PMID  23602812. S2CID  12399345.

Enlaces externos