Red de coexpresión genética.

Una red de coexpresión genética (GCN) es un gráfico no dirigido , donde cada nodo corresponde a un gen , y un par de nodos se conecta con un borde si existe una relación de coexpresión significativa entre ellos. ^[1] Al tener perfiles de expresión genética de varios genes para varias muestras o condiciones experimentales, se puede construir una red de coexpresión genética buscando pares de genes que muestren un patrón de expresión similar en todas las muestras, ya que los niveles de transcripción de dos co -Los genes expresados aumentan y disminuyen juntos en las muestras. Las redes de coexpresión de genes son de interés biológico ya que los genes coexpresados están controlados por el mismo programa regulador transcripcional, funcionalmente relacionados o miembros de la misma vía o complejo proteico. ^[2]

La dirección y el tipo de relaciones de coexpresión no están determinados en las redes de coexpresión de genes; mientras que en una red reguladora de genes (GRN), un borde dirigido conecta dos genes, lo que representa un proceso bioquímico como una reacción, transformación, interacción, activación o inhibición. ^[3] En comparación con un GRN, un GCN no intenta inferir las relaciones de causalidad entre genes y en un GCN los bordes representan solo una correlación o relación de dependencia entre genes. ^[4] Los módulos o subgrafos altamente conectados en las redes de coexpresión de genes corresponden a grupos de genes que tienen una función similar o participan en un proceso biológico común que causa muchas interacciones entre ellos. ^[3]

Las redes de coexpresión genética generalmente se construyen utilizando conjuntos de datos generados por tecnologías de perfiles de expresión genética de alto rendimiento , como Microarray o RNA-Seq . Las redes de coexpresión se utilizan para analizar datos de RNA-Seq de células individuales, con el fin de caracterizar mejor las relaciones entre genes en una cohorte de células de un tipo de célula específico. ^[5]

Historia

El concepto de redes de coexpresión genética fue introducido por primera vez por Butte y Kohane en 1999 como redes de relevancia . ^[6] Reunieron los datos de medición de las pruebas de laboratorio médico (por ejemplo, el nivel de hemoglobina) para varios pacientes y calcularon la correlación de Pearson entre los resultados de cada par de pruebas y los pares de pruebas que mostraron una correlación superior a un cierto nivel. estaban conectados en la red (por ejemplo, nivel de insulina con azúcar en sangre). Butte y Kohane utilizaron este enfoque más tarde con información mutua como medida de coexpresión y utilizando datos de expresión genética para construir la primera red de coexpresión genética. ^[7]

Construcción de redes de coexpresión genética.

Se han desarrollado un buen número de métodos para construir redes de coexpresión de genes. En principio, todos siguen un enfoque de dos pasos: calcular la medida de coexpresión y seleccionar el umbral de significancia. En el primer paso, se selecciona una medida de coexpresión y se calcula una puntuación de similitud para cada par de genes utilizando esta medida. Luego, se determina un umbral y se considera que los pares de genes que tienen una puntuación de similitud superior al umbral seleccionado tienen una relación de coexpresión significativa y están conectados por un borde en la red.

Los datos de entrada para construir una red de coexpresión genética suelen representarse como una matriz. Si tenemos los valores de expresión génica de m genes para n muestras (condiciones), los datos de entrada serían una matriz m×n , llamada matriz de expresión. Por ejemplo, en un experimento de microarrays se miden los valores de expresión de miles de genes para varias muestras. En el primer paso, se calcula una puntuación de similitud (medida de coexpresión) entre cada par de filas en la matriz de expresión. La matriz resultante es una matriz m×m llamada matriz de similitud. Cada elemento de esta matriz muestra de qué manera los niveles de expresión de dos genes cambian juntos. En el segundo paso, los elementos de la matriz de similitud que están por encima de un cierto umbral (es decir, indican una coexpresión significativa) se reemplazan por 1 y los elementos restantes se reemplazan por 0. La matriz resultante, llamada matriz de adyacencia , representa el gráfico. de la red de coexpresión genética construida. En esta matriz, cada elemento muestra si dos genes están conectados en la red (los elementos 1) o no (los elementos 0).

Medida de coexpresión

Los valores de expresión de un gen para diferentes muestras se pueden representar como un vector, por lo que calcular la medida de coexpresión entre un par de genes es lo mismo que calcular la medida seleccionada para dos vectores de números.

El coeficiente de correlación de Pearson , la información mutua , el coeficiente de correlación de rangos de Spearman y la distancia euclidiana son las cuatro medidas de coexpresión más utilizadas para construir redes de coexpresión genética. La distancia euclidiana mide la distancia geométrica entre dos vectores y, por lo tanto, considera tanto la dirección como la magnitud de los vectores de valores de expresión genética. La información mutua mide en qué medida conocer los niveles de expresión de un gen reduce la incertidumbre sobre los niveles de expresión de otro. El coeficiente de correlación de Pearson mide la tendencia de dos vectores a aumentar o disminuir juntos, dando una medida de su correspondencia general. La correlación de rangos de Spearman es la correlación de Pearson calculada para los rangos de valores de expresión genética en un vector de expresión genética. ^[2] También se han utilizado varias otras medidas, como correlación parcial , ^[8] regresión , ^[9] y combinación de correlación parcial e información mutua ^{[10] .}

Cada una de estas medidas tiene sus propias ventajas y desventajas. La distancia euclidiana no es apropiada cuando los niveles absolutos de genes funcionalmente relacionados son muy diferentes. Además, si dos genes tienen niveles de expresión consistentemente bajos pero están correlacionados aleatoriamente, aún podrían aparecer cerca en el espacio euclidiano. ^[2] Una ventaja de la información mutua es que puede detectar relaciones no lineales; sin embargo, esto puede convertirse en una desventaja debido a la detección de relaciones no lineales sofisticadas que no parecen biológicamente significativas. Además, para calcular la información mutua se debe estimar la distribución de los datos, lo que requiere una gran cantidad de muestras para una buena estimación. El coeficiente de correlación de rangos de Spearman es más sólido ante los valores atípicos, pero, por otro lado, es menos sensible a los valores de expresión y en conjuntos de datos con un número pequeño de muestras puede detectar muchos falsos positivos.

El coeficiente de correlación de Pearson es la medida de coexpresión más popular utilizada en la construcción de redes de coexpresión de genes. El coeficiente de correlación de Pearson toma un valor entre -1 y 1, donde los valores absolutos cercanos a 1 muestran una fuerte correlación. Los valores positivos corresponden a un mecanismo de activación donde la expresión de un gen aumenta con el aumento de la expresión de su gen coexpresado y viceversa. Cuando el valor de expresión de un gen disminuye con el aumento de la expresión de su gen coexpresado, corresponde a un mecanismo de supresión subyacente y tendría una correlación negativa.

La medida de correlación de Pearson tiene dos desventajas: sólo puede detectar relaciones lineales y es sensible a valores atípicos. Además, la correlación de Pearson supone que los datos de expresión génica siguen una distribución normal. Canción y col. ^[11] han sugerido la correlación media biponderada (bicor) como una buena alternativa a la correlación de Pearson. "Bicor es una medida de correlación basada en la mediana y es más sólida que la correlación de Pearson, pero a menudo más poderosa que la correlación de Spearman". Además, se ha demostrado que "la mayoría de los pares de genes satisfacen relaciones lineales o monótonas", lo que indica que "las redes de información mutua pueden sustituirse de forma segura por redes de correlación cuando se trata de medir relaciones de coexpresión en datos estacionarios ^[11] ".

Selección de umbral

Se han utilizado varios métodos para seleccionar un umbral en la construcción de redes de coexpresión de genes. Un método de umbral simple consiste en elegir un límite de coexpresión y seleccionar relaciones cuya coexpresión supere este límite. Otro enfoque es utilizar la transformación Z de Fisher , que calcula una puntuación z para cada correlación en función del número de muestras. Luego, esta puntuación z se convierte en un valor p para cada correlación y se establece un límite en el valor p. Algunos métodos permutan los datos y calculan una puntuación z utilizando la distribución de correlaciones encontradas entre genes en el conjunto de datos permutados. ^[2] También se han utilizado algunos otros enfoques, como la selección de umbrales basada en el coeficiente de agrupamiento ^[12] o la teoría de matrices aleatorias. ^[13]

El problema con los métodos basados en el valor p es que el límite final del valor p se elige basándose en rutinas estadísticas (por ejemplo, un valor p de 0,01 o 0,05 se considera significativo), no en base a un conocimiento biológico.

WGCNA es un marco para construir y analizar redes de coexpresión de genes ponderados . ^[14] El método WGCNA selecciona el umbral para construir la red basándose en la topología sin escala de las redes de coexpresión de genes. Este método construye la red para varios umbrales y selecciona el umbral que conduce a una red con topología sin escala . Además, el método WGCNA construye una red ponderada, lo que significa que todos los bordes posibles aparecen en la red, pero cada borde tiene un peso que muestra cuán significativa es la relación de coexpresión correspondiente a ese borde. Es de destacar que la selección de umbral tiene como objetivo obligar a las redes a adoptar una topología sin escala. Sin embargo, la premisa subyacente de que las redes biológicas no tienen escala es polémica. ^[15]^[16]^[17]

lmQCM es una alternativa para que WGCNA logre el mismo objetivo del análisis de redes de coexpresión de genes. lmQCM, ^[18] significa fusión cuasi camarilla máxima local, cuyo objetivo es explotar las estructuras localmente densas en la red, para así poder extraer módulos más pequeños y densamente coexpresados al permitir la superposición de módulos. el algoritmo lmQCM tiene su paquete R y su módulo Python (incluido en Biolearns). El tamaño generalmente más pequeño de los módulos extraídos también puede generar resultados de enriquecimiento de ontología genética (GO) más significativos.

Desafíos

Las redes de coexpresión intentan estimar las correlaciones directas y, a veces, indirectas, entre pares de genes. Sin embargo, un gen individual puede estar controlado por múltiples reguladores. ^[19] En segundo lugar, como se analizó en las secciones anteriores, cada medida computacional de coexpresión está diseñada específicamente para capturar una característica única que no es necesariamente óptima para representar todos los tipos de interrelación transcripcional de gen a gen, por ejemplo, Pearson correlación para relaciones lineales, Spearman para la clasificación de genes, etc. En tercer y último lugar, el cálculo de las redes de coexpresión de gen a gen para el genoma completo da como resultado matrices muy grandes que contienen una cantidad considerable de ruido, lo que plantea una dificultad significativa para explorar su diferenciación entre cohortes. Estos desafíos deben tenerse en cuenta al aplicar métodos avanzados de coexpresión en datos de expresión génica.

Aplicaciones

Secuenciación de células individuales : las redes de coexpresión genética generadas utilizando datos masivos de RNA-Seq se han utilizado para aumentar la relación señal/ruido en escenarios de células individuales, con el fin de obtener mejores predicciones de la presencia de mutaciones específicas en células individuales, utilizando la expresión genética. perfiles como variables independientes ^[20]
Ingeniería inversa de redes genéticas : existen cientos de métodos para inferir redes reguladoras de genes, y actualmente varias docenas se basan en análisis de coexpresión, basados en correlación simple, información mutua o métodos bayesianos. ^[21]
Biología vegetal : los análisis de coexpresión se han utilizado ampliamente para buscar genes nuevos implicados en vías vegetales específicas. Un ejemplo es la síntesis de la pared celular: la caracterización de los eslabones perdidos en este mecanismo metabólico fue posible gracias al hallazgo de nuevos genes de celulosa sintasa (CESA), cuyos perfiles de expresión se correlacionan con miembros de la ruta previamente conocidos. ^[22]

Ver también

Referencias

^ Estuardo, Josué M; Segal, Eran; Koller, Dafne; Kim, Stuart K (2003). "Una red de coexpresión genética para el descubrimiento global de módulos genéticos conservados". Ciencia . 302 (5643): 249–55. Código Bib : 2003 Ciencia... 302.. 249S. CiteSeerX 10.1.1.119.6331 . doi : 10.1126/ciencia.1087447. PMID 12934013. S2CID 3131371.
^ abcd Weirauch, Matthew T (2011). "Redes de coexpresión genética para el análisis de datos de microarrays de ADN". Estadística Aplicada a la Biología de Redes: Métodos en Biología de Sistemas . págs. 215-250. doi :10.1002/9783527638079.ch11. ISBN 9783527638079.
^ ab Roy, Swarup; Bhattacharyya, Dhruba K; Kalita, Jugal K (2014). "Reconstrucción de la red de coexpresión de genes a partir de datos de microarrays utilizando patrones de expresión locales". Bioinformática BMC . 15 (Suplemento 7): T10. doi : 10.1186/1471-2105-15-s7-s10 . PMC 4110735 . PMID 25079873.
^ De Smet, Riet; Marchal, Kathleen (2010). "Ventajas y limitaciones de los métodos actuales de inferencia de redes". Reseñas de la naturaleza Microbiología . 8 (10): 717–29. doi :10.1038/nrmicro2419. PMID 20805835. S2CID 27629033.
^ Su, Chang; Xu, Zichun; Shan, Xinning; Cai, Biao; Zhao, Hongyu; Zhang, Jingfei (10 de agosto de 2023). "Inferencia de coexpresión específica de tipo celular a partir de datos de secuenciación de ARN unicelular". Comunicaciones de la naturaleza . 14 (1): 4846. doi :10.1038/s41467-023-40503-7. ISSN 2041-1723. PMC 10415381 .
^ Butte, Atul J; Kohane, Isaac S (1999). "Descubrimiento de conocimientos no supervisados en bases de datos médicas utilizando redes de relevancia". Actas del Simposio AMIA : 711–715. PMC 2232846 . PMID 10566452.
^ Butte, Atul J; Kohane, Isaac S (2000). "Redes de relevancia de información mutua: agrupamiento genómico funcional utilizando mediciones de entropía por pares". Biocomputación Pac Symp . 5 .
^ Villa-Vialaneix, Nathalie; Liaubet, Laurence; Laurent, Thibault; Cherel, Pierre; Gamot, Adrián; SanCristóbal, Magali (2013). "La estructura de una red de coexpresión genética revela funciones biológicas subyacentes a los eQTL". MÁS UNO . 8 (4): 60045. Código bibliográfico : 2013PLoSO...860045V. doi : 10.1371/journal.pone.0060045 . PMC 3618335 . PMID 23577081.
^ Persson, Staffan; Wei, Hairong; Milne, Jennifer; Página, Grier P; Somerville, Christopher R (2005). "Identificación de genes necesarios para la síntesis de celulosa mediante análisis de regresión de conjuntos de datos de microarrays públicos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 102 (24): 8633–8. Código Bib : 2005PNAS..102.8633P. doi : 10.1073/pnas.0503392102 . PMC 1142401 . PMID 15932943.
^ Reverter, Antonio; Chan, Eva KF (2008). "Combinando correlación parcial y un enfoque de teoría de la información para la ingeniería inversa de redes de coexpresión genética". Bioinformática . 24 (21): 2491–2497. doi : 10.1093/bioinformática/btn482 . PMID 18784117.
^ ab Canción, Lin; Langfelder, Peter; Horvath, Steve (2012). "Comparación de medidas de coexpresión: información mutua, correlación e índices basados en modelos". Bioinformática BMC . 13 (1): 328. doi : 10.1186/1471-2105-13-328 . PMC 3586947 . PMID 23217028.
^ Elo, Laura L; Järvenpää, henna; Orešič, Matej; Lahesmaa, Riitta; Aittokallio, Tero (2007). "Construcción sistemática de redes de coexpresión de genes con aplicaciones al proceso de diferenciación de células T colaboradoras humanas". Bioinformática . 23 (16): 2096–2103. doi : 10.1093/bioinformática/btm309 . PMID 17553854.
^ Luo, Feng; Yang, Yunfeng; Zhong, Jianxin; Gao, Haichun; Khan, Latifur; Thompson, Dorothea K; Zhou, Jizhong (2007). "Construcción de redes de coexpresión de genes y predicción de funciones de genes desconocidos mediante la teoría de matrices aleatorias". Bioinformática BMC . 8 (1): 299. doi : 10.1186/1471-2105-8-299 . PMC 2212665 . PMID 17697349.
^ Zhang, contenedor; Horvath, Steve (2005). "Un marco general para el análisis de redes de coexpresión de genes ponderados". Aplicaciones estadísticas en genética y biología molecular . 4 (1): Artículo 17. CiteSeerX 10.1.1.471.9599 . doi :10.2202/1544-6115.1128. PMID 16646834. S2CID 7756201.
^ Khanin, R.; Ingenio, E. (2006). "Cuán libres de escala son las redes biológicas". Revista de biología computacional . 13 (3): 810–8. CiteSeerX 10.1.1.104.5347 . doi :10.1089/cmb.2006.13.810. PMID 16706727.
^ Broido, Anna D.; Clauset, Aaron (2019). "Las redes sin escala son raras". Comunicaciones de la naturaleza . 10 (1): 1017. arXiv : 1801.03400 . Código Bib : 2019NatCo..10.1017B. doi :10.1038/s41467-019-08746-5. PMC 6399239 . PMID 30833554. S2CID 24825063.
^ Clote, P. (2020). "¿Las redes de ARN son escalables?". Revista de biología matemática . 80 (5): 1291-1321. doi :10.1007/s00285-019-01463-z. PMC 7052049 . PMID 31950258.
^ Zhang, Jie; Huang, Kun (2014). "ImQCM normalizado: un algoritmo para detectar cuasi-cliques débiles en un gráfico ponderado con aplicaciones en el descubrimiento del módulo de coexpresión genética en cánceres". Informática del cáncer . 13 (3): 137–46. doi : 10.4137/CIN.S14021 . PMC 4962959 . PMID 27486298.
^ Alon, Uri (2006). Principios de diseño de circuitos biológicos. doi :10.1201/9781420011432. ISBN 9780429092794.
^ Mercatelli, Daniele; Rayo, Bosque; Giorgi, Federico M. (2019). "Modelado pancáncer y unicelular de alteraciones genómicas mediante la expresión génica". Fronteras en genética . 10 : 671. doi : 10.3389/fgene.2019.00671 . ISSN 1664-8021. PMC 6657420 . PMID 31379928.
^ Mercatelli, Daniele; Scalambra, Laura; Tríboli, Luca; Rayo, Bosque; Giorgi, Federico M. (2020). "Recursos de inferencia de redes reguladoras de genes: una descripción práctica". Biochimica et Biophysica Acta (BBA) - Mecanismos reguladores de genes . 1863 (6): 194430. doi :10.1016/j.bbagrm.2019.194430. ISSN 1874-9399. PMID 31678629. S2CID 207895066.
^ Usadel, Bjoern; Obayashi, Takeshi; Mutwil, Marek; Giorgi, Federico M.; Basilea, George W.; Tanimoto, Mimi; Chow, Amanda; Steinhauser, Dirk; Persson, Staffan; Provart, Nicolás J. (2009). "Herramientas de coexpresión para la biología vegetal: oportunidades para la generación de hipótesis y advertencias". Planta, célula y medio ambiente . 32 (12): 1633-1651. doi : 10.1111/j.1365-3040.2009.02040.x . ISSN 0140-7791. PMID 19712066.