stringtranslate.com

Análisis de red de correlación ponderada.

El análisis de redes de correlación ponderada , también conocido como análisis de redes de coexpresión de genes ponderados (WGCNA), es un método de extracción de datos ampliamente utilizado , especialmente para estudiar redes biológicas basadas en correlaciones por pares entre variables. Si bien se puede aplicar a la mayoría de conjuntos de datos de alta dimensión , se ha utilizado más ampliamente en aplicaciones genómicas . Permite definir módulos (clústeres), concentradores intramodulares y nodos de red con respecto a la membresía del módulo, estudiar las relaciones entre módulos de coexpresión y comparar la topología de red de diferentes redes (análisis de red diferencial). WGCNA se puede utilizar como técnica de reducción de datos (relacionada con el análisis factorial oblicuo ), como método de agrupamiento (agrupamiento difuso), como método de selección de características (por ejemplo, como método de detección de genes), como marco para integrar datos complementarios (genómicos) ( basado en correlaciones ponderadas entre variables cuantitativas), y como técnica de exploración de datos . [1] Aunque WGCNA incorpora técnicas tradicionales de exploración de datos, su lenguaje de red intuitivo y su marco de análisis trascienden cualquier técnica de análisis estándar. Dado que utiliza una metodología de red y es muy adecuado para integrar conjuntos de datos genómicos complementarios, puede interpretarse como un método de análisis de datos de sistemas biológicos o genéticos de sistemas. Al seleccionar centros intramodulares en módulos de consenso, WGCNA también da lugar a técnicas de metaanálisis basadas en redes . [2]

Historia

El método WGCNA fue desarrollado por Steve Horvath , profesor de genética humana en la Facultad de Medicina David Geffen de la UCLA y de bioestadística en la Escuela de Salud Pública Fielding de la UCLA y sus colegas de la UCLA, y (ex) miembros del laboratorio (en particular, Peter Langfelder, Bin Zhang, Jun Dong). Gran parte del trabajo surgió de colaboraciones con investigadores aplicados. En particular, se desarrollaron redes de correlación ponderada en discusiones conjuntas con los investigadores del cáncer Paul Mischel , Stanley F. Nelson y los neurocientíficos Daniel H. Geschwind , Michael C. Oldham (según la sección de reconocimiento en [1] ). Existe una amplia literatura sobre redes de dependencia, redes libres de escala y redes de coexpresión. [ cita necesaria ]

Comparación entre redes de correlación ponderadas y no ponderadas.

Una red de correlación ponderada puede interpretarse como un caso especial de red ponderada , red de dependencia o red de correlación. El análisis de redes de correlación ponderada puede resultar atractivo por los siguientes motivos:

Método

Primero, se define una medida de similitud de coexpresión genética que se utiliza para definir la red. Denotamos la medida de similitud de coexpresión genética de un par de genes i y j por . Muchos estudios de coexpresión utilizan el valor absoluto de la correlación como medida de similitud de coexpresión sin signo,

donde los perfiles de expresión genética y consisten en la expresión de los genes i y j en múltiples muestras. Sin embargo, el uso del valor absoluto de la correlación puede confundir la información biológicamente relevante, ya que no se hace distinción entre represión y activación genética. Por el contrario, en redes firmadas la similitud entre genes refleja el signo de la correlación de sus perfiles de expresión. Para definir una medida de coexpresión con signo entre los perfiles de expresión génica y , se puede utilizar una transformación simple de la correlación:

Como medida sin signo , la similitud con signo toma un valor entre 0 y 1. Tenga en cuenta que la similitud sin signo entre dos genes expresados ​​de manera opuesta ( ) es igual a 1, mientras que es igual a 0 para la similitud con signo. De manera similar, mientras que la medida de coexpresión sin signo de dos genes con correlación cero sigue siendo cero, la similitud con signo es igual a 0,5.

A continuación, se utiliza una matriz de adyacencia (red) , para cuantificar la fuerza con la que los genes están conectados entre sí. se define poniendo un umbral en la matriz de similitud de coexpresión . El umbral "duro" (dicotomización) de la medida de similitud da como resultado una red de coexpresión genética no ponderada. Específicamente, una adyacencia de red no ponderada se define como 1 si y 0 en caso contrario. Debido a que el umbral estricto codifica las conexiones genéticas de forma binaria, puede ser sensible a la elección del umbral y provocar la pérdida de información de coexpresión. [3] La naturaleza continua de la información de coexpresión se puede preservar empleando un umbral suave, lo que da como resultado una red ponderada. Específicamente, WGCNA utiliza la siguiente función de potencia para evaluar la fuerza de su conexión:

,

donde la potencia es el parámetro de umbral suave. Los valores predeterminados y se utilizan para redes firmadas y sin firmar, respectivamente. Alternativamente, se puede elegir utilizando el criterio de topología libre de escala , que equivale a elegir el valor más pequeño de tal que se alcance una topología libre de escala aproximada. [3]

Dado que , la adyacencia de la red ponderada está relacionada linealmente con la similitud de coexpresión en una escala logarítmica. Tenga en cuenta que una potencia alta transforma las similitudes altas en adyacencias altas, mientras empuja las similitudes bajas hacia 0. Dado que este procedimiento de umbral suave aplicado a una matriz de correlación por pares conduce a una matriz de adyacencia ponderada, el análisis resultante se conoce como red de coexpresión genética ponderada. análisis.

Un paso importante en el análisis centrado en módulos es agrupar genes en módulos de red utilizando una medida de proximidad de red. En términos generales, un par de genes tiene una alta proximidad si están estrechamente interconectados. Por convención, la proximidad máxima entre dos genes es 1 y la proximidad mínima es 0. Normalmente, WGCNA utiliza la medida de superposición topológica (TOM) como proximidad. [9] [10] que también se puede definir para redes ponderadas. [3] El TOM combina la adyacencia de dos genes y las fortalezas de conexión que estos dos genes comparten con otros genes de "terceros". El TOM es una medida muy sólida de la interconexión (proximidad) de la red. Esta proximidad se utiliza como entrada de agrupación jerárquica de enlace promedio. Los módulos se definen como ramas del árbol del grupo resultante utilizando el enfoque de corte dinámico de ramas. [11] A continuación, los genes dentro de un módulo determinado se resumen con el gen propio del módulo, que puede considerarse como el mejor resumen de los datos de expresión del módulo estandarizado. [4] El gen propio del módulo de un módulo determinado se define como el primer componente principal de los perfiles de expresión estandarizados. Los genes propios definen biomarcadores robustos [12] y pueden usarse como características en modelos complejos de aprendizaje automático , como las redes bayesianas . [13] Para encontrar módulos que se relacionen con un rasgo clínico de interés, los genes propios del módulo se correlacionan con el rasgo clínico de interés, lo que da lugar a una medida de significación del gen propio. Los genes propios se pueden utilizar como características en modelos predictivos más complejos, incluidos árboles de decisión y redes bayesianas. [12] También se pueden construir redes de coexpresión entre genes propios de módulos (redes de genes propios), es decir, redes cuyos nodos son módulos. [14] Para identificar genes centrales intramodulares dentro de un módulo determinado, se pueden utilizar dos tipos de medidas de conectividad. El primero, denominado , se define en función de la correlación de cada gen con el gen propio del módulo respectivo. El segundo, denominado kIN, se define como una suma de adyacencias con respecto a los genes del módulo. En la práctica, estas dos medidas son equivalentes. [4] Para comprobar si un módulo se conserva en otro conjunto de datos, se pueden utilizar varias estadísticas de red, por ejemplo . [6]

Aplicaciones

WGCNA se ha utilizado ampliamente para analizar datos de expresión génica (es decir, datos transcripcionales), por ejemplo, para encontrar genes centrales intramodulares. [2] [15] Por ejemplo, el estudio WGCNA revela que nuevos factores de transcripción están asociados con la dosis-respuesta de bisfenol A (BPA) . [dieciséis]

A menudo se utiliza como paso de reducción de datos en aplicaciones genéticas de sistemas donde los módulos están representados por "genes propios de módulo", por ejemplo, [17] [18] Los genes propios de módulo se pueden utilizar para correlacionar módulos con rasgos clínicos. Las redes de genes propios son redes de coexpresión entre genes propios de módulos (es decir, redes cuyos nodos son módulos). WGCNA se usa ampliamente en aplicaciones neurocientíficas, por ejemplo, [19] [20] y para analizar datos genómicos, incluidos datos de microarrays , [21] datos de RNA-Seq de células individuales [22] [23] datos de metilación de ADN , [24] datos de miRNA, péptidos. recuentos [25] y datos de microbiota (secuenciación del gen 16S rRNA). [26] Otras aplicaciones incluyen datos de imágenes cerebrales, por ejemplo, datos de resonancia magnética funcional . [27]

paquete de software R

El paquete de software WGCNA R [28] proporciona funciones para llevar a cabo todos los aspectos del análisis de redes ponderadas (construcción de módulos, selección de genes centrales, estadísticas de preservación de módulos, análisis diferencial de redes, estadísticas de redes). El paquete WGCNA está disponible en Comprehensive R Archive Network (CRAN), el repositorio estándar para paquetes complementarios de R.

Referencias

  1. ^ abc Horvath S (2011). Análisis de redes ponderadas: aplicación en genómica y biología de sistemas . Nueva York, Nueva York: Springer. ISBN 978-1-4419-8818-8.
  2. ^ ab Langfelder P, Mischel PS, Horvath S, Ravasi T (17 de abril de 2013). "¿Cuándo es mejor la selección de genes centrales que el metanálisis estándar?". MÁS UNO . 8 (4): e61505. Código Bib : 2013PLoSO...861505L. doi : 10.1371/journal.pone.0061505 . PMC 3629234 . PMID  23613865. 
  3. ^ abcde Zhang B, Horvath S (2005). "Un marco general para el análisis de redes de coexpresión de genes ponderados" (PDF) . Aplicaciones estadísticas en genética y biología molecular . 4 : 17. CiteSeerX 10.1.1.471.9599 . doi :10.2202/1544-6115.1128. PMID  16646834. S2CID  7756201. Archivado desde el original (PDF) el 28 de septiembre de 2020 . Consultado el 29 de noviembre de 2013 . 
  4. ^ abcde Horvath S, Dong J (2008). "Interpretación geométrica del análisis de redes de coexpresión genética". PLOS Biología Computacional . 4 (8): e1000117. Código Bib : 2008PLSCB...4E0117H. doi : 10.1371/journal.pcbi.1000117 . PMC 2446438 . PMID  18704157. 
  5. ^ Oldham MC, Langfelder P, Horvath S (12 de junio de 2012). "Métodos de red para describir relaciones de muestras en conjuntos de datos genómicos: aplicación a la enfermedad de Huntington". Biología de sistemas BMC . 6 : 63. doi : 10.1186/1752-0509-6-63 . PMC 3441531 . PMID  22691535. 
  6. ^ ab Langfelder P, Luo R, Oldham MC, Horvath S (20 de enero de 2011). "¿Mi módulo de red se conserva y es reproducible?". PLOS Biología Computacional . 7 (1): e1001057. Código Bib : 2011PLSCB...7E1057L. doi : 10.1371/journal.pcbi.1001057 . PMC 3024255 . PMID  21283776. 
  7. ^ Dong J, Horvath S (4 de junio de 2007). "Comprensión de conceptos de red en módulos". Biología de sistemas BMC . 1 : 24. doi : 10.1186/1752-0509-1-24 . PMC 3238286 . PMID  17547772. 
  8. ^ Ranola JM, Langfelder P, Lange K, Horvath S (14 de marzo de 2013). "Aproximación de una red basada en clústeres y propensiones". Biología de sistemas BMC . 7 : 21. doi : 10.1186/1752-0509-7-21 . PMC 3663730 . PMID  23497424. 
  9. ^ Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL (2002). "Organización jerárquica de modularidad en redes metabólicas". Ciencia . 297 (5586): 1551-1555. arXiv : cond-mat/0209244 . Código bibliográfico : 2002 Ciencia... 297.1551R. doi : 10.1126/ciencia.1073374. PMID  12202830. S2CID  14452443.
  10. ^ Yip AM, Horvath S (24 de enero de 2007). "Interconexión de redes genéticas y medida de superposición topológica generalizada". Bioinformática BMC . 8 : 22. doi : 10.1186/1471-2105-8-22 . PMC 1797055 . PMID  17250769. 
  11. ^ Langfelder P, Zhang B, Horvath S (2007). "Definición de clústeres a partir de un árbol de clústeres jerárquico: la biblioteca Dynamic Tree Cut para R". Bioinformática . 24 (5): 719–20. doi : 10.1093/bioinformática/btm563. PMID  18024473. S2CID  1095190.
  12. ^ ab Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (16 de marzo de 2017). "El análisis de redes genéticas a gran escala revela la importancia de la vía de la matriz extracelular y los genes homeobox en la leucemia mieloide aguda: una introducción al paquete Pigengene y sus aplicaciones". Genómica médica BMC . 10 (1): 16. doi : 10.1186/s12920-017-0253-6 . PMC 5353782 . PMID  28298217. 
  13. ^ Agrahari, Rupesh; Foroushani, Amir; Atraque, T. Roderick; Chang, Linda; Duns, Gerben; Hudoba, Mónica; Karsan, Aly; Zare, Habil (3 de mayo de 2018). "Aplicaciones de modelos de redes bayesianas en la predicción de tipos de neoplasias hematológicas". Informes científicos . 8 (1): 6951. Código bibliográfico : 2018NatSR...8.6951A. doi :10.1038/s41598-018-24758-5. ISSN  2045-2322. PMC 5934387 . PMID  29725024. 
  14. ^ Langfelder P, Horvath S (2007). "Redes propias de genes para estudiar las relaciones entre módulos de coexpresión". Biología de sistemas BMC . 2007 (1): 54. doi : 10.1186/1752-0509-1-54 . PMC 2267703 . PMID  18031580. 
  15. ^ Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF , Nelson SF, Mischel PS (2006). "El análisis de redes de señalización oncogénica en glioblastoma identifica a ASPM como un nuevo objetivo molecular". PNAS . 103 (46): 17402–17407. Código bibliográfico : 2006PNAS..10317402H. doi : 10.1073/pnas.0608396103 . PMC 1635024 . PMID  17090670. 
  16. ^ Hartung, Thomas; Kleensang, André; Tran, Vy; Maertens, Alexandra (2018). "El análisis de red de correlación genética ponderada (WGCNA) revela nuevos factores de transcripción asociados con la dosis-respuesta de bisfenol A". Fronteras en genética . 9 : 508. doi : 10.3389/fgene.2018.00508 . ISSN  1664-8021. PMC 6240694 . PMID  30483308. 
  17. ^ Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE (27 de marzo de 2008). "Las variaciones en el ADN aclaran las redes moleculares que causan enfermedades". Naturaleza . 452 (7186): 429–35. Código Bib :2008Natur.452..429C. doi : 10.1038/naturaleza06757. PMC 2841398 . PMID  18344982. 
  18. ^ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P, Storey JD (11 de septiembre de 2009). "Un enfoque de genética de sistemas implica USF1, FADS3 y otros genes candidatos causales para la hiperlipidemia familiar combinada". PLOS Genética . 5 (9): e1000642. doi : 10.1371/journal.pgen.1000642 . PMC 2730565 . PMID  19750004. 
  19. ^ Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor RM, Blencowe BJ, Geschwind DH (25 de mayo de 2011). "El análisis transcriptómico del cerebro autista revela patología molecular convergente". Naturaleza . 474 (7351): 380–4. doi : 10.1038/naturaleza10110. PMC 3607626 . PMID  21614001. 
  20. ^ Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, David Daly B, Dang C, Datta S, Dee N, Dolbeare TA, Faber V, Feng D, Fowler DR, Goldy J, Gregor BW, Haradon Z, Haynor DR, Hohmann JG, Horvath S, Howard RE, Jeromin A, Jochim JM, Kinnunen M, Lau C, Lazarz ET, Lee C, Lemon TA, Li L, Li Y, Morris JA, Overly CC, Parker PD, Parry SE, Reding M, Royall JJ, Schulkin J, Sequeira PA, Slaughterbeck CR, Smith SC, Sodt AJ, Sunkin SM, Swanson BE, Vawter MP, Williams D, Wohnoutka P, Zielke HR, Geschwind DH, Hof PR, Smith SM, Koch C , Grant S, Jones AR (20 de septiembre de 2012). "Un atlas anatómicamente completo del transcriptoma del cerebro humano adulto". Naturaleza . 489 (7416): 391–399. Código Bib :2012Natur.489..391H. doi : 10.1038/naturaleza11405. PMC 4243026 . PMID  22996553. 
  21. ^ Kadarmideen HN, Watson-Haigh NS, Andrónicos NM (2011). "Biología de sistemas de resistencia a parásitos intestinales ovinos: módulos de genes de enfermedades y biomarcadores". Biosistemas moleculares . 7 (1): 235–246. doi :10.1039/C0MB00190B. PMID  21072409.
  22. ^ Kogelman LJ, Cirera S, Zhernakova DV, Fredholm M, Franke L, Kadarmideen HN (30 de septiembre de 2014). "Identificación de redes de genes de coexpresión, genes reguladores y vías de obesidad basadas en secuenciación de ARN de tejido adiposo en un modelo porcino". Genómica médica BMC . 7 (1): 57. doi : 10.1186/1755-8794-7-57 . PMC 4183073 . PMID  25270054. 
  23. ^ Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G (29 de agosto de 2013). "Programas genéticos en embriones tempranos humanos y de ratón revelados mediante secuenciación de ARN unicelular". Naturaleza . 500 (7464): 593–7. Código Bib :2013Natur.500..593X. doi : 10.1038/naturaleza12364. PMC 4950944 . PMID  23892778. 
  24. ^ Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA (3 de octubre de 2012). "Efectos del envejecimiento sobre los módulos de metilación del ADN en el cerebro y el tejido sanguíneo humanos". Biología del genoma . 13 (10): R97. doi : 10.1186/gb-2012-13-10-r97 . PMC 4053733 . PMID  23034122. 
  25. ^ Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW (12 de julio de 2012). "Organización de la red del interactoma proteómico de lahuntina en el cerebro de los mamíferos". Neurona . 75 (1): 41–57. doi :10.1016/j.neuron.2012.05.024. PMC 3432264 . PMID  22794259. 
  26. ^ Pinzas, Maomeng; Li, Xiaoxiao; Wegener Parfrey, Laura; Roth, Bennett; Ippoliti, Andrés; Wei, Bo; Borneman, James; McGovern, Dermot PB; Frank, Daniel N.; Li, Elena; Horvath, Steve; Caballero, Rob; Braun, Jonathan (2013). "Una organización modular de la microbiota de la mucosa intestinal humana y su asociación con la enfermedad inflamatoria intestinal". MÁS UNO . 8 (11): e80702. doi : 10.1371/JOURNAL.PONE.0080702 . PMC 3834335 . PMID  24260458. 
  27. ^ Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (1 de octubre de 2010). "Detección de módulos de red en series temporales de fMRI: un enfoque de análisis de red ponderado". NeuroImagen . 52 (4): 1465–76. doi : 10.1016/j.neuroimage.2010.05.047. PMC 3632300 . PMID  20553896. 
  28. ^ Langfelder P, Horvath S (29 de diciembre de 2008). "WGCNA: un paquete R para análisis de redes de correlación ponderada". Bioinformática BMC . 9 : 559. doi : 10.1186/1471-2105-9-559 . PMC 2631488 . PMID  19114008.