Análisis de redes de correlación ponderada

El análisis de redes de correlación ponderada , también conocido como análisis de redes de coexpresión génica ponderadas (WGCNA), es un método de minería de datos ampliamente utilizado, especialmente para estudiar redes biológicas basadas en correlaciones por pares entre variables. Si bien se puede aplicar a la mayoría de los conjuntos de datos de alta dimensión , se ha utilizado más ampliamente en aplicaciones genómicas . Permite definir módulos (grupos), centros intramodulares y nodos de red con respecto a la membresía del módulo, para estudiar las relaciones entre módulos de coexpresión y para comparar la topología de red de diferentes redes (análisis de red diferencial). WGCNA se puede utilizar como una técnica de reducción de datos (relacionada con el análisis factorial oblicuo ), como un método de agrupamiento (agrupamiento difuso), como un método de selección de características (por ejemplo, como método de cribado genético), como un marco para integrar datos complementarios (genómicos) (basados en correlaciones ponderadas entre variables cuantitativas), y como una técnica de exploración de datos . ^[1] Aunque WGCNA incorpora técnicas tradicionales de exploración de datos, su lenguaje de red intuitivo y su marco de análisis trascienden cualquier técnica de análisis estándar. Dado que utiliza una metodología de redes y es muy adecuada para integrar conjuntos de datos genómicos complementarios, se puede interpretar como un método de análisis de datos genéticos o biológicos de sistemas. Al seleccionar centros intramodulares en módulos de consenso, WGCNA también da lugar a técnicas de metaanálisis basadas en redes . ^[2]

Historia

El método WGCNA fue desarrollado por Steve Horvath , profesor de genética humana en la Escuela de Medicina David Geffen de la UCLA y de bioestadística en la Escuela de Salud Pública Fielding de la UCLA , y sus colegas de la UCLA y (ex) miembros del laboratorio (en particular Peter Langfelder, Bin Zhang, Jun Dong). Gran parte del trabajo surgió de colaboraciones con investigadores aplicados. En particular, las redes de correlación ponderada se desarrollaron en discusiones conjuntas con los investigadores del cáncer Paul Mischel , Stanley F. Nelson y los neurocientíficos Daniel H. Geschwind y Michael C. Oldham, según la sección de agradecimientos en. ^[1]

Comparación entre redes de correlación ponderadas y no ponderadas

Una red de correlación ponderada puede interpretarse como un caso especial de red ponderada , red de dependencia o red de correlación. El análisis de redes de correlación ponderada puede resultar atractivo por las siguientes razones:

La construcción de la red (basada en la aplicación de un umbral suave al coeficiente de correlación ) preserva la naturaleza continua de la información de correlación subyacente. Por ejemplo, las redes de correlación ponderada que se construyen sobre la base de correlaciones entre variables numéricas no requieren la elección de un umbral estricto. La dicotomización de la información y la aplicación de un umbral (duro) pueden provocar la pérdida de información. ^[3]
La construcción de la red proporciona resultados muy robustos con respecto a diferentes opciones de umbral suave. ^[3] Por el contrario, los resultados basados en redes no ponderadas, construidas mediante la umbralización de una medida de asociación por pares, a menudo dependen en gran medida del umbral.
Las redes de correlación ponderada facilitan una interpretación geométrica basada en la interpretación angular de la correlación, capítulo 6 en. ^[4]
Las estadísticas de red resultantes se pueden utilizar para mejorar los métodos estándar de minería de datos, como el análisis de conglomerados, ya que las medidas de (dis)similitud a menudo se pueden transformar en redes ponderadas; ^[5] consulte el capítulo 6 en ^{[4] .}
WGCNA proporciona estadísticas de conservación de módulos muy potentes que pueden utilizarse para cuantificar la similitud con otra condición. Además, las estadísticas de conservación de módulos permiten estudiar las diferencias entre la estructura modular de las redes. ^[6]
Las redes ponderadas y las redes de correlación a menudo se pueden aproximar mediante redes "factorizables". ^[4]^[7] Estas aproximaciones suelen ser difíciles de lograr para redes dispersas y no ponderadas. Por lo tanto, las redes ponderadas (de correlación) permiten una parametrización parsimoniosa (en términos de módulos y pertenencia a módulos) (capítulos 2, 6 en ^[1] ) y. ^[8]

Método

En primer lugar, se define una medida de similitud de coexpresión génica que se utiliza para definir la red. Denotamos la medida de similitud de coexpresión génica de un par de genes i y j por . Muchos estudios de coexpresión utilizan el valor absoluto de la correlación como una medida de similitud de coexpresión sin signo, $estilo de visualización s_{ij}$

$s_{ij}^{sin signo}=|cor(x_{i},x_{j})|$

donde los perfiles de expresión génica y consisten en la expresión de los genes i y j en múltiples muestras. Sin embargo, el uso del valor absoluto de la correlación puede ofuscar información biológicamente relevante, ya que no se hace distinción entre la represión y la activación génica. Por el contrario, en las redes con signo, la similitud entre genes refleja el signo de la correlación de sus perfiles de expresión. Para definir una medida de coexpresión con signo entre los perfiles de expresión génica y , se puede utilizar una transformación simple de la correlación: $Estilo de visualización x_{i}}$ $estilo de visualización x_{j}}$ $Estilo de visualización x_{i}}$ $estilo de visualización x_{j}}$

$s_{ij}^{con signo}=0,5+0,5cor(x_{i},x_{j})$

Como medida sin signo , la similitud con signo toma un valor entre 0 y 1. Nótese que la similitud sin signo entre dos genes expresados de manera opuesta ( ) es igual a 1, mientras que es igual a 0 para la similitud con signo. De manera similar, mientras que la medida de coexpresión sin signo de dos genes con correlación cero sigue siendo cero, la similitud con signo es igual a 0,5. $s_{ij}^{sin signo}$ $s_{ij}^{con signo}$ $cor(x_{i},x_{j})=-1$

A continuación, se utiliza una matriz de adyacencia (red), , para cuantificar la fuerza con la que los genes están conectados entre sí. se define mediante la umbralización de la matriz de similitud de coexpresión . La umbralización "dura" (dicotomización) de la medida de similitud da como resultado una red de coexpresión génica no ponderada. Específicamente, una adyacencia de red no ponderada se define como 1 si y 0 en caso contrario. Debido a que la umbralización dura codifica las conexiones génicas de manera binaria, puede ser sensible a la elección del umbral y dar como resultado la pérdida de información de coexpresión. ^[3] La naturaleza continua de la información de coexpresión se puede preservar mediante el empleo de umbralización suave, que da como resultado una red ponderada. Específicamente, WGCNA utiliza la siguiente función de potencia para evaluar la fuerza de su conexión: $A=[a_{ij}]$ ${\estilo de visualización A}$ $S=[s_{ij}]$ ${\estilo de visualización S}$ $s_{ij}>\tau$

${\textstyle a_{ij}=(s_{ij})^{\beta }}$ ,

donde la potencia es el parámetro de umbral suave. Los valores predeterminados y se utilizan para redes con y sin signo, respectivamente. Alternativamente, se puede elegir utilizando el criterio de topología sin escala , que equivale a elegir el valor más pequeño de tal manera que se alcance una topología sin escala aproximada. ^[3] ${\estilo de visualización \beta}$ $\beta = 6$ $\beta = 12$ ${\estilo de visualización \beta}$ ${\estilo de visualización \beta}$

Dado que , la adyacencia de la red ponderada está relacionada linealmente con la similitud de coexpresión en una escala logarítmica. Nótese que una potencia alta transforma las similitudes altas en adyacencias altas, mientras que empuja las similitudes bajas hacia 0. Dado que este procedimiento de umbral suave aplicado a una matriz de correlación por pares conduce a una matriz de adyacencia ponderada, el análisis resultante se conoce como análisis de red de coexpresión génica ponderada. $log(a_{ij})=\beta log(s_{ij})$ ${\estilo de visualización \beta}$

Un paso importante en el análisis centrado en módulos es agrupar genes en módulos de red utilizando una medida de proximidad de red. En términos generales, un par de genes tiene una proximidad alta si está estrechamente interconectado. Por convención, la proximidad máxima entre dos genes es 1 y la proximidad mínima es 0. Normalmente, WGCNA utiliza la medida de superposición topológica (TOM) como proximidad. ^[9]^[10] que también se puede definir para redes ponderadas. ^[3] La TOM combina la adyacencia de dos genes y las fortalezas de conexión que estos dos genes comparten con otros genes "de terceros". La TOM es una medida muy robusta de la interconexión de la red (proximidad). Esta proximidad se utiliza como entrada de la agrupación jerárquica de ligamiento promedio. Los módulos se definen como ramas del árbol de agrupamiento resultante utilizando el enfoque de corte de rama dinámico. ^[11] A continuación, los genes dentro de un módulo dado se resumen con el gen propio del módulo, que puede considerarse como el mejor resumen de los datos de expresión del módulo estandarizado. ^[4] El gen propio del módulo de un módulo dado se define como el primer componente principal de los perfiles de expresión estandarizados. Los genes propios definen biomarcadores robustos, ^[12] y pueden usarse como características en modelos complejos de aprendizaje automático como las redes bayesianas . ^[13] Para encontrar módulos que se relacionen con un rasgo clínico de interés, los genes propios del módulo se correlacionan con el rasgo clínico de interés, lo que da lugar a una medida de significancia del gen propio. Los genes propios pueden usarse como características en modelos predictivos más complejos, incluidos árboles de decisión y redes bayesianas. ^[12] También se pueden construir redes de coexpresión entre genes propios del módulo (redes de genes propios), es decir, redes cuyos nodos son módulos. ^[14] Para identificar genes centrales intramodulares dentro de un módulo dado, se pueden usar dos tipos de medidas de conectividad. La primera, denominada , se define en función de la correlación de cada gen con el respectivo gen propio del módulo. La segunda, denominada kIN, se define como una suma de adyacencias con respecto a los genes del módulo. En la práctica, estas dos medidas son equivalentes. ^[4] Para comprobar si un módulo se conserva en otro conjunto de datos, se pueden utilizar varias estadísticas de red, por ejemplo . ^[6] $kME_{i}=cor(x_{i},ME)$ $Zsummary$

Aplicaciones

El WGCNA se ha utilizado ampliamente para analizar datos de expresión genética (es decir, datos transcripcionales), por ejemplo, para encontrar genes centrales intramodulares. ^[2]^[15] Por ejemplo, el estudio WGCNA revela que nuevos factores de transcripción están asociados con la respuesta a la dosis de bisfenol A (BPA) . ^[16]

A menudo se utiliza como paso de reducción de datos en aplicaciones genéticas de sistemas donde los módulos están representados por "genes propios del módulo", p. ej., ^[17]^[18] Los genes propios del módulo se pueden utilizar para correlacionar módulos con rasgos clínicos. Las redes de genes propios son redes de coexpresión entre genes propios del módulo (es decir, redes cuyos nodos son módulos). WGCNA se utiliza ampliamente en aplicaciones neurocientíficas, p. ej., ^[19]^[20] y para analizar datos genómicos, incluidos datos de microarrays , ^[21] datos de ARN-Seq de células individuales ^[22]^{[23] datos} de metilación de ADN , ^[24] datos de miRNA, recuentos de péptidos ^[25] y datos de microbiota (secuenciación del gen 16S rRNA). ^[26] Otras aplicaciones incluyen datos de imágenes cerebrales, p. ej., datos de MRI funcional . ^[27]

Paquete de software R

El paquete de software WGCNA R ^[28] proporciona funciones para llevar a cabo todos los aspectos del análisis de redes ponderadas (construcción de módulos, selección de genes centrales, estadísticas de conservación de módulos, análisis de redes diferenciales, estadísticas de redes). El paquete WGCNA está disponible en la Red de Archivos R Integral (CRAN), el repositorio estándar para paquetes complementarios de R.

Referencias

^ abc Horvath S (2011). Análisis de redes ponderadas: aplicación en genómica y biología de sistemas . Nueva York, NY: Springer. ISBN 978-1-4419-8818-8.
^ ab Langfelder P, Mischel PS, Horvath S, Ravasi T (17 de abril de 2013). "¿Cuándo es mejor la selección del gen hub que el metaanálisis estándar?". PLOS ONE . 8 (4): e61505. Bibcode :2013PLoSO...861505L. doi : 10.1371/journal.pone.0061505 . PMC 3629234 . PMID 23613865.
^ abcde Zhang B, Horvath S (2005). "Un marco general para el análisis de redes de coexpresión génica ponderada" (PDF) . Aplicaciones estadísticas en genética y biología molecular . 4 : 17. CiteSeerX 10.1.1.471.9599 . doi :10.2202/1544-6115.1128. PMID 16646834. S2CID 7756201. Archivado desde el original (PDF) el 28 de septiembre de 2020 . Consultado el 29 de noviembre de 2013 .
^ abcde Horvath S, Dong J (2008). "Interpretación geométrica del análisis de redes de coexpresión génica". PLOS Computational Biology . 4 (8): e1000117. Bibcode :2008PLSCB...4E0117H. doi : 10.1371/journal.pcbi.1000117 . PMC 2446438 . PMID 18704157.
^ Oldham MC, Langfelder P, Horvath S (12 de junio de 2012). "Métodos de red para describir relaciones de muestras en conjuntos de datos genómicos: aplicación a la enfermedad de Huntington". BMC Systems Biology . 6 : 63. doi : 10.1186/1752-0509-6-63 . PMC 3441531 . PMID 22691535.
^ ab Langfelder P, Luo R, Oldham MC, Horvath S (20 de enero de 2011). "¿Mi módulo de red está preservado y es reproducible?". PLOS Computational Biology . 7 (1): e1001057. Bibcode :2011PLSCB...7E1057L. doi : 10.1371/journal.pcbi.1001057 . PMC 3024255 . PMID 21283776.
^ Dong J, Horvath S (4 de junio de 2007). "Comprensión de los conceptos de red en módulos". BMC Systems Biology . 1 : 24. doi : 10.1186/1752-0509-1-24 . PMC 3238286 . PMID 17547772.
^ Ranola JM, Langfelder P, Lange K, Horvath S (14 de marzo de 2013). "Aproximación de una red basada en grupos y propensión". BMC Systems Biology . 7 : 21. doi : 10.1186/1752-0509-7-21 . PMC 3663730 . PMID 23497424.
^ Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL (2002). "Organización jerárquica de modularidad en redes metabólicas". Ciencia . 297 (5586): 1551-1555. arXiv : cond-mat/0209244 . Código bibliográfico : 2002 Ciencia... 297.1551R. doi : 10.1126/ciencia.1073374. PMID 12202830. S2CID 14452443.
^ Yip AM, Horvath S (24 de enero de 2007). "Interconexión de redes genéticas y medida de superposición topológica generalizada". BMC Bioinformatics . 8 : 22. doi : 10.1186/1471-2105-8-22 . PMC 1797055 . PMID 17250769.
^ Langfelder P, Zhang B, Horvath S (2007). "Definición de clústeres a partir de un árbol de clústeres jerárquico: la biblioteca Dynamic Tree Cut para R". Bioinformática . 24 (5): 719–20. doi :10.1093/bioinformatics/btm563. PMID 18024473. S2CID 1095190.
^ ab Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (16 de marzo de 2017). "El análisis de la red genética a gran escala revela la importancia de la vía de la matriz extracelular y los genes homeobox en la leucemia mieloide aguda: una introducción al paquete Pigengene y sus aplicaciones". BMC Medical Genomics . 10 (1): 16. doi : 10.1186/s12920-017-0253-6 . PMC 5353782 . PMID 28298217.
^ Agrahari, Rupesh; Foroushani, Amir; Docking, T. Roderick; Chang, Linda; Duns, Gerben; Hudoba, Monika; Karsan, Aly; Zare, Habil (3 de mayo de 2018). "Aplicaciones de los modelos de redes bayesianas para predecir los tipos de neoplasias hematológicas". Scientific Reports . 8 (1): 6951. Bibcode :2018NatSR...8.6951A. doi :10.1038/s41598-018-24758-5. ISSN 2045-2322. PMC 5934387 . PMID 29725024.
^ Langfelder P, Horvath S (2007). "Redes de genes propios para estudiar las relaciones entre módulos de coexpresión". BMC Systems Biology . 2007 (1): 54. doi : 10.1186/1752-0509-1-54 . PMC 2267703 . PMID 18031580.
^ Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF , Nelson SF, Mischel PS (2006). "Análisis de redes de señalización oncogénica en glioblastoma identifica ASPM como un nuevo objetivo molecular". PNAS . 103 (46): 17402–17407. Bibcode :2006PNAS..10317402H. doi : 10.1073/pnas.0608396103 . PMC 1635024 . PMID 17090670.
^ Hartung, Thomas; Kleensang, Andre; Tran, Vy; Maertens, Alexandra (2018). "El análisis de red de correlación genética ponderada (WGCNA) revela nuevos factores de transcripción asociados con la dosis-respuesta del bisfenol A". Frontiers in Genetics . 9 : 508. doi : 10.3389/fgene.2018.00508 . ISSN 1664-8021. PMC 6240694 . PMID 30483308.
^ Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE (27 de marzo de 2008). "Las variaciones en el ADN aclaran las redes moleculares que causan enfermedades". Naturaleza . 452 (7186): 429–35. Código Bib :2008Natur.452..429C. doi : 10.1038/naturaleza06757. PMC 2841398 . PMID 18344982.
^ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P, Storey JD (11 de septiembre de 2009). "Un enfoque de genética de sistemas implica a USF1, FADS3 y otros genes candidatos causales para la hiperlipidemia combinada familiar". PLOS Genetics . 5 (9): e1000642. doi : 10.1371/journal.pgen.1000642 . PMC 2730565 . PMID 19750004.
^ Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor RM, Blencowe BJ, Geschwind DH (25 de mayo de 2011). "El análisis transcriptómico del cerebro autista revela una patología molecular convergente". Nature . 474 (7351): 380–4. doi :10.1038/nature10110. PMC 3607626 . PMID 21614001.
^ Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, David Daly B, Dang C, Datta S, Dee N, Dolbeare TA, Faber V, Feng D, Fowler DR, Goldy J, Gregor BW, Haradon Z, Haynor DR, Hohmann JG, Horvath S, Howard RE, Jeromin A, Jochim JM, Kinnunen M, Lau C, Lazarz ET, Lee C, Lemon TA, Li L, Li Y, Morris JA, Overly CC, Parker PD, Parry SE, Reding M, Royall JJ, Schulkin J, Sequeira PA, Slaughterbeck CR, Smith SC, Sodt AJ, Sunkin SM, Swanson BE, Vawter MP, Williams D, Wohnoutka P, Zielke HR, Geschwind DH, Hof PR, Smith SM, Koch C, Grant S, Jones AR (20 de septiembre de 2012). "Atlas anatómicamente completo del transcriptoma del cerebro humano adulto". Nature . 489 (7416): 391–399. Bibcode :2012Natur.489..391H. doi :10.1038/nature11405. PMC 4243026 . PMID 22996553.
^ Kadarmideen HN, Watson-Haigh NS, Andronicos NM (2011). "Biología de sistemas de la resistencia a los parásitos intestinales ovinos: módulos genéticos de enfermedades y biomarcadores". Molecular BioSystems . 7 (1): 235–246. doi :10.1039/C0MB00190B. PMID 21072409.
^ Kogelman LJ, Cirera S, Zhernakova DV, Fredholm M, Franke L, Kadarmideen HN (30 de septiembre de 2014). "Identificación de redes de genes de coexpresión, genes reguladores y vías para la obesidad basadas en la secuenciación de ARN del tejido adiposo en un modelo porcino". BMC Medical Genomics . 7 (1): 57. doi : 10.1186/1755-8794-7-57 . PMC 4183073 . PMID 25270054.
^ Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G (29 de agosto de 2013). "Programas genéticos en embriones humanos y de ratón tempranos revelados por secuenciación de ARN unicelular". Nature . 500 (7464): 593–7. Bibcode :2013Natur.500..593X. doi :10.1038/nature12364. PMC 4950944 . PMID 23892778.
^ Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA (3 de octubre de 2012). "Efectos del envejecimiento en los módulos de metilación del ADN en el cerebro humano y el tejido sanguíneo". Genome Biology . 13 (10): R97. doi : 10.1186/gb-2012-13-10-r97 . PMC 4053733 . PMID 23034122.
^ Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW (12 de julio de 2012). "Organización en red del interactoma proteómico de huntingtina en el cerebro de los mamíferos". Neuron . 75 (1): 41–57. doi :10.1016/j.neuron.2012.05.024. PMC 3432264 . PMID 22794259.
^ Tong, Maomeng; Li, Xiaoxiao; Wegener Parfrey, Laura; Roth, Bennett; Ippoliti, Andrew; Wei, Bo; Borneman, James; McGovern, Dermot PB; Frank, Daniel N.; Li, Ellen; Horvath, Steve; Knight, Rob; Braun, Jonathan (2013). "Una organización modular de la microbiota de la mucosa intestinal humana y su asociación con la enfermedad inflamatoria intestinal". PLOS ONE . 8 (11): e80702. doi : 10.1371/JOURNAL.PONE.0080702 . PMC 3834335 . PMID 24260458.
^ Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (1 de octubre de 2010). "Detección de módulos de red en series temporales de fMRI: un enfoque de análisis de red ponderado". NeuroImage . 52 (4): 1465–76. doi :10.1016/j.neuroimage.2010.05.047. PMC 3632300 . PMID 20553896.
^ Langfelder P, Horvath S (29 de diciembre de 2008). "WGCNA: un paquete R para el análisis de redes de correlación ponderada". BMC Bioinformatics . 9 : 559. doi : 10.1186/1471-2105-9-559 . PMC 2631488 . PMID 19114008.