Una red de coexpresión genética (GCN) es un gráfico no dirigido , donde cada nodo corresponde a un gen , y un par de nodos se conecta con un borde si existe una relación de coexpresión significativa entre ellos. [1] Al tener perfiles de expresión genética de varios genes para varias muestras o condiciones experimentales, se puede construir una red de coexpresión genética buscando pares de genes que muestren un patrón de expresión similar en todas las muestras, ya que los niveles de transcripción de dos co -Los genes expresados aumentan y disminuyen juntos en las muestras. Las redes de coexpresión de genes son de interés biológico ya que los genes coexpresados están controlados por el mismo programa regulador transcripcional, funcionalmente relacionados o miembros de la misma vía o complejo proteico. [2]
La dirección y el tipo de relaciones de coexpresión no están determinados en las redes de coexpresión de genes; mientras que en una red reguladora de genes (GRN), un borde dirigido conecta dos genes, lo que representa un proceso bioquímico como una reacción, transformación, interacción, activación o inhibición. [3] En comparación con un GRN, un GCN no intenta inferir las relaciones de causalidad entre genes y en un GCN los bordes representan solo una correlación o relación de dependencia entre genes. [4] Los módulos o subgrafos altamente conectados en las redes de coexpresión de genes corresponden a grupos de genes que tienen una función similar o participan en un proceso biológico común que causa muchas interacciones entre ellos. [3]
Las redes de coexpresión genética generalmente se construyen utilizando conjuntos de datos generados por tecnologías de perfiles de expresión genética de alto rendimiento , como Microarray o RNA-Seq . Las redes de coexpresión se utilizan para analizar datos de RNA-Seq de células individuales, con el fin de caracterizar mejor las relaciones entre genes en una cohorte de células de un tipo de célula específico. [5]
El concepto de redes de coexpresión genética fue introducido por primera vez por Butte y Kohane en 1999 como redes de relevancia . [6] Reunieron los datos de medición de las pruebas de laboratorio médico (por ejemplo, el nivel de hemoglobina) para varios pacientes y calcularon la correlación de Pearson entre los resultados de cada par de pruebas y los pares de pruebas que mostraron una correlación superior a un cierto nivel. estaban conectados en la red (por ejemplo, nivel de insulina con azúcar en sangre). Butte y Kohane utilizaron este enfoque más tarde con información mutua como medida de coexpresión y utilizando datos de expresión genética para construir la primera red de coexpresión genética. [7]
Se han desarrollado un buen número de métodos para construir redes de coexpresión de genes. En principio, todos siguen un enfoque de dos pasos: calcular la medida de coexpresión y seleccionar el umbral de significancia. En el primer paso, se selecciona una medida de coexpresión y se calcula una puntuación de similitud para cada par de genes utilizando esta medida. Luego, se determina un umbral y se considera que los pares de genes que tienen una puntuación de similitud superior al umbral seleccionado tienen una relación de coexpresión significativa y están conectados por un borde en la red.
Los datos de entrada para construir una red de coexpresión genética suelen representarse como una matriz. Si tenemos los valores de expresión génica de m genes para n muestras (condiciones), los datos de entrada serían una matriz m×n , llamada matriz de expresión. Por ejemplo, en un experimento de microarrays se miden los valores de expresión de miles de genes para varias muestras. En el primer paso, se calcula una puntuación de similitud (medida de coexpresión) entre cada par de filas en la matriz de expresión. La matriz resultante es una matriz m×m llamada matriz de similitud. Cada elemento de esta matriz muestra de qué manera los niveles de expresión de dos genes cambian juntos. En el segundo paso, los elementos de la matriz de similitud que están por encima de un cierto umbral (es decir, indican una coexpresión significativa) se reemplazan por 1 y los elementos restantes se reemplazan por 0. La matriz resultante, llamada matriz de adyacencia , representa el gráfico. de la red de coexpresión genética construida. En esta matriz, cada elemento muestra si dos genes están conectados en la red (los elementos 1) o no (los elementos 0).
Los valores de expresión de un gen para diferentes muestras se pueden representar como un vector, por lo que calcular la medida de coexpresión entre un par de genes es lo mismo que calcular la medida seleccionada para dos vectores de números.
El coeficiente de correlación de Pearson , la información mutua , el coeficiente de correlación de rangos de Spearman y la distancia euclidiana son las cuatro medidas de coexpresión más utilizadas para construir redes de coexpresión genética. La distancia euclidiana mide la distancia geométrica entre dos vectores y, por lo tanto, considera tanto la dirección como la magnitud de los vectores de valores de expresión genética. La información mutua mide en qué medida conocer los niveles de expresión de un gen reduce la incertidumbre sobre los niveles de expresión de otro. El coeficiente de correlación de Pearson mide la tendencia de dos vectores a aumentar o disminuir juntos, dando una medida de su correspondencia general. La correlación de rangos de Spearman es la correlación de Pearson calculada para los rangos de valores de expresión genética en un vector de expresión genética. [2] También se han utilizado varias otras medidas, como correlación parcial , [8] regresión , [9] y combinación de correlación parcial e información mutua [10] .
Cada una de estas medidas tiene sus propias ventajas y desventajas. La distancia euclidiana no es apropiada cuando los niveles absolutos de genes funcionalmente relacionados son muy diferentes. Además, si dos genes tienen niveles de expresión consistentemente bajos pero están correlacionados aleatoriamente, aún podrían aparecer cerca en el espacio euclidiano. [2] Una ventaja de la información mutua es que puede detectar relaciones no lineales; sin embargo, esto puede convertirse en una desventaja debido a la detección de relaciones no lineales sofisticadas que no parecen biológicamente significativas. Además, para calcular la información mutua se debe estimar la distribución de los datos, lo que requiere una gran cantidad de muestras para una buena estimación. El coeficiente de correlación de rangos de Spearman es más sólido ante los valores atípicos, pero, por otro lado, es menos sensible a los valores de expresión y en conjuntos de datos con un número pequeño de muestras puede detectar muchos falsos positivos.
El coeficiente de correlación de Pearson es la medida de coexpresión más popular utilizada en la construcción de redes de coexpresión de genes. El coeficiente de correlación de Pearson toma un valor entre -1 y 1, donde los valores absolutos cercanos a 1 muestran una fuerte correlación. Los valores positivos corresponden a un mecanismo de activación donde la expresión de un gen aumenta con el aumento de la expresión de su gen coexpresado y viceversa. Cuando el valor de expresión de un gen disminuye con el aumento de la expresión de su gen coexpresado, corresponde a un mecanismo de supresión subyacente y tendría una correlación negativa.
La medida de correlación de Pearson tiene dos desventajas: sólo puede detectar relaciones lineales y es sensible a valores atípicos. Además, la correlación de Pearson supone que los datos de expresión génica siguen una distribución normal. Canción y col. [11] han sugerido la correlación media biponderada (bicor) como una buena alternativa a la correlación de Pearson. "Bicor es una medida de correlación basada en la mediana y es más sólida que la correlación de Pearson, pero a menudo más poderosa que la correlación de Spearman". Además, se ha demostrado que "la mayoría de los pares de genes satisfacen relaciones lineales o monótonas", lo que indica que "las redes de información mutua pueden sustituirse de forma segura por redes de correlación cuando se trata de medir relaciones de coexpresión en datos estacionarios [11] ".
Se han utilizado varios métodos para seleccionar un umbral en la construcción de redes de coexpresión de genes. Un método de umbral simple consiste en elegir un límite de coexpresión y seleccionar relaciones cuya coexpresión supere este límite. Otro enfoque es utilizar la transformación Z de Fisher , que calcula una puntuación z para cada correlación en función del número de muestras. Luego, esta puntuación z se convierte en un valor p para cada correlación y se establece un límite en el valor p. Algunos métodos permutan los datos y calculan una puntuación z utilizando la distribución de correlaciones encontradas entre genes en el conjunto de datos permutados. [2] También se han utilizado algunos otros enfoques, como la selección de umbrales basada en el coeficiente de agrupamiento [12] o la teoría de matrices aleatorias. [13]
El problema con los métodos basados en el valor p es que el límite final del valor p se elige basándose en rutinas estadísticas (por ejemplo, un valor p de 0,01 o 0,05 se considera significativo), no en base a un conocimiento biológico.
WGCNA es un marco para construir y analizar redes de coexpresión de genes ponderados . [14] El método WGCNA selecciona el umbral para construir la red basándose en la topología sin escala de las redes de coexpresión de genes. Este método construye la red para varios umbrales y selecciona el umbral que conduce a una red con topología sin escala . Además, el método WGCNA construye una red ponderada, lo que significa que todos los bordes posibles aparecen en la red, pero cada borde tiene un peso que muestra cuán significativa es la relación de coexpresión correspondiente a ese borde. Es de destacar que la selección de umbral tiene como objetivo obligar a las redes a adoptar una topología sin escala. Sin embargo, la premisa subyacente de que las redes biológicas no tienen escala es polémica. [15] [16] [17]
lmQCM es una alternativa para que WGCNA logre el mismo objetivo del análisis de redes de coexpresión de genes. lmQCM, [18] significa fusión cuasi camarilla máxima local, cuyo objetivo es explotar las estructuras localmente densas en la red, para así poder extraer módulos más pequeños y densamente coexpresados al permitir la superposición de módulos. el algoritmo lmQCM tiene su paquete R y su módulo Python (incluido en Biolearns). El tamaño generalmente más pequeño de los módulos extraídos también puede generar resultados de enriquecimiento de ontología genética (GO) más significativos.
Las redes de coexpresión intentan estimar las correlaciones directas y, a veces, indirectas, entre pares de genes. Sin embargo, un gen individual puede estar controlado por múltiples reguladores. [19] En segundo lugar, como se analizó en las secciones anteriores, cada medida computacional de coexpresión está diseñada específicamente para capturar una característica única que no es necesariamente óptima para representar todos los tipos de interrelación transcripcional de gen a gen, por ejemplo, Pearson correlación para relaciones lineales, Spearman para la clasificación de genes, etc. En tercer y último lugar, el cálculo de las redes de coexpresión de gen a gen para el genoma completo da como resultado matrices muy grandes que contienen una cantidad considerable de ruido, lo que plantea una dificultad significativa para explorar su diferenciación entre cohortes. Estos desafíos deben tenerse en cuenta al aplicar métodos avanzados de coexpresión en datos de expresión génica.