stringtranslate.com

Red de coexpresión genética.

Una red de coexpresión genética construida a partir de un conjunto de datos de microarrays que contiene perfiles de expresión genética de 7221 genes para 18 pacientes con cáncer gástrico

Una red de coexpresión genética (GCN) es un gráfico no dirigido , donde cada nodo corresponde a un gen , y un par de nodos se conecta con un borde si existe una relación de coexpresión significativa entre ellos. [1] Al tener perfiles de expresión genética de varios genes para varias muestras o condiciones experimentales, se puede construir una red de coexpresión genética buscando pares de genes que muestren un patrón de expresión similar en todas las muestras, ya que los niveles de transcripción de dos co -Los genes expresados ​​aumentan y disminuyen juntos en las muestras. Las redes de coexpresión de genes son de interés biológico ya que los genes coexpresados ​​están controlados por el mismo programa regulador transcripcional, funcionalmente relacionados o miembros de la misma vía o complejo proteico. [2]

La dirección y el tipo de relaciones de coexpresión no están determinados en las redes de coexpresión de genes; mientras que en una red reguladora de genes (GRN), un borde dirigido conecta dos genes, lo que representa un proceso bioquímico como una reacción, transformación, interacción, activación o inhibición. [3] En comparación con un GRN, un GCN no intenta inferir las relaciones de causalidad entre genes y en un GCN los bordes representan solo una correlación o relación de dependencia entre genes. [4] Los módulos o subgrafos altamente conectados en las redes de coexpresión de genes corresponden a grupos de genes que tienen una función similar o participan en un proceso biológico común que causa muchas interacciones entre ellos. [3]

La dirección de los bordes se pasa por alto en las redes de coexpresión de genes. Si bien se encuentra que tres genes X, Y y Z están coexpresados, no se determina si X activa Y e Y activa Z, o Y activa X y Z, u otro gen activa tres de ellos.

Las redes de coexpresión genética generalmente se construyen utilizando conjuntos de datos generados por tecnologías de perfiles de expresión genética de alto rendimiento , como Microarray o RNA-Seq . Las redes de coexpresión se utilizan para analizar datos de RNA-Seq de células individuales, con el fin de caracterizar mejor las relaciones entre genes en una cohorte de células de un tipo de célula específico. [5]

Historia

El concepto de redes de coexpresión genética fue introducido por primera vez por Butte y Kohane en 1999 como redes de relevancia . [6] Reunieron los datos de medición de las pruebas de laboratorio médico (por ejemplo, el nivel de hemoglobina) para varios pacientes y calcularon la correlación de Pearson entre los resultados de cada par de pruebas y los pares de pruebas que mostraron una correlación superior a un cierto nivel. estaban conectados en la red (por ejemplo, nivel de insulina con azúcar en sangre). Butte y Kohane utilizaron este enfoque más tarde con información mutua como medida de coexpresión y utilizando datos de expresión genética para construir la primera red de coexpresión genética. [7]

Construcción de redes de coexpresión genética.

Se han desarrollado un buen número de métodos para construir redes de coexpresión de genes. En principio, todos siguen un enfoque de dos pasos: calcular la medida de coexpresión y seleccionar el umbral de significancia. En el primer paso, se selecciona una medida de coexpresión y se calcula una puntuación de similitud para cada par de genes utilizando esta medida. Luego, se determina un umbral y se considera que los pares de genes que tienen una puntuación de similitud superior al umbral seleccionado tienen una relación de coexpresión significativa y están conectados por un borde en la red.

Los dos pasos generales para construir una red de coexpresión genética: calcular la puntuación de coexpresión (por ejemplo, el valor absoluto del coeficiente de correlación de Pearson) para cada par de genes y seleccionar un umbral de significancia (por ejemplo, correlación > 0,8).

Los datos de entrada para construir una red de coexpresión genética suelen representarse como una matriz. Si tenemos los valores de expresión génica de m genes para n muestras (condiciones), los datos de entrada serían una matriz m×n , llamada matriz de expresión. Por ejemplo, en un experimento de microarrays se miden los valores de expresión de miles de genes para varias muestras. En el primer paso, se calcula una puntuación de similitud (medida de coexpresión) entre cada par de filas en la matriz de expresión. La matriz resultante es una matriz m×m llamada matriz de similitud. Cada elemento de esta matriz muestra de qué manera los niveles de expresión de dos genes cambian juntos. En el segundo paso, los elementos de la matriz de similitud que están por encima de un cierto umbral (es decir, indican una coexpresión significativa) se reemplazan por 1 y los elementos restantes se reemplazan por 0. La matriz resultante, llamada matriz de adyacencia , representa el gráfico. de la red de coexpresión genética construida. En esta matriz, cada elemento muestra si dos genes están conectados en la red (los elementos 1) o no (los elementos 0).

Medida de coexpresión

Los valores de expresión de un gen para diferentes muestras se pueden representar como un vector, por lo que calcular la medida de coexpresión entre un par de genes es lo mismo que calcular la medida seleccionada para dos vectores de números.

El coeficiente de correlación de Pearson , la información mutua , el coeficiente de correlación de rangos de Spearman y la distancia euclidiana son las cuatro medidas de coexpresión más utilizadas para construir redes de coexpresión genética. La distancia euclidiana mide la distancia geométrica entre dos vectores y, por lo tanto, considera tanto la dirección como la magnitud de los vectores de valores de expresión genética. La información mutua mide en qué medida conocer los niveles de expresión de un gen reduce la incertidumbre sobre los niveles de expresión de otro. El coeficiente de correlación de Pearson mide la tendencia de dos vectores a aumentar o disminuir juntos, dando una medida de su correspondencia general. La correlación de rangos de Spearman es la correlación de Pearson calculada para los rangos de valores de expresión genética en un vector de expresión genética. [2] También se han utilizado varias otras medidas, como correlación parcial , [8] regresión , [9] y combinación de correlación parcial e información mutua [10] .

Cada una de estas medidas tiene sus propias ventajas y desventajas. La distancia euclidiana no es apropiada cuando los niveles absolutos de genes funcionalmente relacionados son muy diferentes. Además, si dos genes tienen niveles de expresión consistentemente bajos pero están correlacionados aleatoriamente, aún podrían aparecer cerca en el espacio euclidiano. [2] Una ventaja de la información mutua es que puede detectar relaciones no lineales; sin embargo, esto puede convertirse en una desventaja debido a la detección de relaciones no lineales sofisticadas que no parecen biológicamente significativas. Además, para calcular la información mutua se debe estimar la distribución de los datos, lo que requiere una gran cantidad de muestras para una buena estimación. El coeficiente de correlación de rangos de Spearman es más sólido ante los valores atípicos, pero, por otro lado, es menos sensible a los valores de expresión y en conjuntos de datos con un número pequeño de muestras puede detectar muchos falsos positivos.

El coeficiente de correlación de Pearson es la medida de coexpresión más popular utilizada en la construcción de redes de coexpresión de genes. El coeficiente de correlación de Pearson toma un valor entre -1 y 1, donde los valores absolutos cercanos a 1 muestran una fuerte correlación. Los valores positivos corresponden a un mecanismo de activación donde la expresión de un gen aumenta con el aumento de la expresión de su gen coexpresado y viceversa. Cuando el valor de expresión de un gen disminuye con el aumento de la expresión de su gen coexpresado, corresponde a un mecanismo de supresión subyacente y tendría una correlación negativa.

La medida de correlación de Pearson tiene dos desventajas: sólo puede detectar relaciones lineales y es sensible a valores atípicos. Además, la correlación de Pearson supone que los datos de expresión génica siguen una distribución normal. Canción y col. [11] han sugerido la correlación media biponderada (bicor) como una buena alternativa a la correlación de Pearson. "Bicor es una medida de correlación basada en la mediana y es más sólida que la correlación de Pearson, pero a menudo más poderosa que la correlación de Spearman". Además, se ha demostrado que "la mayoría de los pares de genes satisfacen relaciones lineales o monótonas", lo que indica que "las redes de información mutua pueden sustituirse de forma segura por redes de correlación cuando se trata de medir relaciones de coexpresión en datos estacionarios [11] ".

Selección de umbral

Se han utilizado varios métodos para seleccionar un umbral en la construcción de redes de coexpresión de genes. Un método de umbral simple consiste en elegir un límite de coexpresión y seleccionar relaciones cuya coexpresión supere este límite. Otro enfoque es utilizar la transformación Z de Fisher , que calcula una puntuación z para cada correlación en función del número de muestras. Luego, esta puntuación z se convierte en un valor p para cada correlación y se establece un límite en el valor p. Algunos métodos permutan los datos y calculan una puntuación z utilizando la distribución de correlaciones encontradas entre genes en el conjunto de datos permutados. [2] También se han utilizado algunos otros enfoques, como la selección de umbrales basada en el coeficiente de agrupamiento [12] o la teoría de matrices aleatorias. [13]

El problema con los métodos basados ​​en el valor p es que el límite final del valor p se elige basándose en rutinas estadísticas (por ejemplo, un valor p de 0,01 o 0,05 se considera significativo), no en base a un conocimiento biológico.

WGCNA es un marco para construir y analizar redes de coexpresión de genes ponderados . [14] El método WGCNA selecciona el umbral para construir la red basándose en la topología sin escala de las redes de coexpresión de genes. Este método construye la red para varios umbrales y selecciona el umbral que conduce a una red con topología sin escala . Además, el método WGCNA construye una red ponderada, lo que significa que todos los bordes posibles aparecen en la red, pero cada borde tiene un peso que muestra cuán significativa es la relación de coexpresión correspondiente a ese borde. Es de destacar que la selección de umbral tiene como objetivo obligar a las redes a adoptar una topología sin escala. Sin embargo, la premisa subyacente de que las redes biológicas no tienen escala es polémica. [15] [16] [17]

lmQCM es una alternativa para que WGCNA logre el mismo objetivo del análisis de redes de coexpresión de genes. lmQCM, [18] significa fusión cuasi camarilla máxima local, cuyo objetivo es explotar las estructuras localmente densas en la red, para así poder extraer módulos más pequeños y densamente coexpresados ​​al permitir la superposición de módulos. el algoritmo lmQCM tiene su paquete R y su módulo Python (incluido en Biolearns). El tamaño generalmente más pequeño de los módulos extraídos también puede generar resultados de enriquecimiento de ontología genética (GO) más significativos.

Desafíos

Las redes de coexpresión intentan estimar las correlaciones directas y, a veces, indirectas, entre pares de genes. Sin embargo, un gen individual puede estar controlado por múltiples reguladores. [19] En segundo lugar, como se analizó en las secciones anteriores, cada medida computacional de coexpresión está diseñada específicamente para capturar una característica única que no es necesariamente óptima para representar todos los tipos de interrelación transcripcional de gen a gen, por ejemplo, Pearson correlación para relaciones lineales, Spearman para la clasificación de genes, etc. En tercer y último lugar, el cálculo de las redes de coexpresión de gen a gen para el genoma completo da como resultado matrices muy grandes que contienen una cantidad considerable de ruido, lo que plantea una dificultad significativa para explorar su diferenciación entre cohortes. Estos desafíos deben tenerse en cuenta al aplicar métodos avanzados de coexpresión en datos de expresión génica.

Aplicaciones

Ver también

Referencias

  1. ^ Estuardo, Josué M; Segal, Eran; Koller, Dafne; Kim, Stuart K (2003). "Una red de coexpresión genética para el descubrimiento global de módulos genéticos conservados". Ciencia . 302 (5643): 249–55. Código Bib : 2003 Ciencia... 302.. 249S. CiteSeerX  10.1.1.119.6331 . doi : 10.1126/ciencia.1087447. PMID  12934013. S2CID  3131371.
  2. ^ abcd Weirauch, Matthew T (2011). "Redes de coexpresión genética para el análisis de datos de microarrays de ADN". Estadística Aplicada a la Biología de Redes: Métodos en Biología de Sistemas . págs. 215-250. doi :10.1002/9783527638079.ch11. ISBN 9783527638079.
  3. ^ ab Roy, Swarup; Bhattacharyya, Dhruba K; Kalita, Jugal K (2014). "Reconstrucción de la red de coexpresión de genes a partir de datos de microarrays utilizando patrones de expresión locales". Bioinformática BMC . 15 (Suplemento 7): T10. doi : 10.1186/1471-2105-15-s7-s10 . PMC 4110735 . PMID  25079873. 
  4. ^ De Smet, Riet; Marchal, Kathleen (2010). "Ventajas y limitaciones de los métodos actuales de inferencia de redes". Reseñas de la naturaleza Microbiología . 8 (10): 717–29. doi :10.1038/nrmicro2419. PMID  20805835. S2CID  27629033.
  5. ^ Su, Chang; Xu, Zichun; Shan, Xinning; Cai, Biao; Zhao, Hongyu; Zhang, Jingfei (10 de agosto de 2023). "Inferencia de coexpresión específica de tipo celular a partir de datos de secuenciación de ARN unicelular". Comunicaciones de la naturaleza . 14 (1): 4846. doi :10.1038/s41467-023-40503-7. ISSN  2041-1723. PMC 10415381 . 
  6. ^ Butte, Atul J; Kohane, Isaac S (1999). "Descubrimiento de conocimientos no supervisados ​​en bases de datos médicas utilizando redes de relevancia". Actas del Simposio AMIA : 711–715. PMC 2232846 . PMID  10566452. 
  7. ^ Butte, Atul J; Kohane, Isaac S (2000). "Redes de relevancia de información mutua: agrupamiento genómico funcional utilizando mediciones de entropía por pares". Biocomputación Pac Symp . 5 .
  8. ^ Villa-Vialaneix, Nathalie; Liaubet, Laurence; Laurent, Thibault; Cherel, Pierre; Gamot, Adrián; SanCristóbal, Magali (2013). "La estructura de una red de coexpresión genética revela funciones biológicas subyacentes a los eQTL". MÁS UNO . 8 (4): 60045. Código bibliográfico : 2013PLoSO...860045V. doi : 10.1371/journal.pone.0060045 . PMC 3618335 . PMID  23577081. 
  9. ^ Persson, Staffan; Wei, Hairong; Milne, Jennifer; Página, Grier P; Somerville, Christopher R (2005). "Identificación de genes necesarios para la síntesis de celulosa mediante análisis de regresión de conjuntos de datos de microarrays públicos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 102 (24): 8633–8. Código Bib : 2005PNAS..102.8633P. doi : 10.1073/pnas.0503392102 . PMC 1142401 . PMID  15932943. 
  10. ^ Reverter, Antonio; Chan, Eva KF (2008). "Combinando correlación parcial y un enfoque de teoría de la información para la ingeniería inversa de redes de coexpresión genética". Bioinformática . 24 (21): 2491–2497. doi : 10.1093/bioinformática/btn482 . PMID  18784117.
  11. ^ ab Canción, Lin; Langfelder, Peter; Horvath, Steve (2012). "Comparación de medidas de coexpresión: información mutua, correlación e índices basados ​​en modelos". Bioinformática BMC . 13 (1): 328. doi : 10.1186/1471-2105-13-328 . PMC 3586947 . PMID  23217028. 
  12. ^ Elo, Laura L; Järvenpää, henna; Orešič, Matej; Lahesmaa, Riitta; Aittokallio, Tero (2007). "Construcción sistemática de redes de coexpresión de genes con aplicaciones al proceso de diferenciación de células T colaboradoras humanas". Bioinformática . 23 (16): 2096–2103. doi : 10.1093/bioinformática/btm309 . PMID  17553854.
  13. ^ Luo, Feng; Yang, Yunfeng; Zhong, Jianxin; Gao, Haichun; Khan, Latifur; Thompson, Dorothea K; Zhou, Jizhong (2007). "Construcción de redes de coexpresión de genes y predicción de funciones de genes desconocidos mediante la teoría de matrices aleatorias". Bioinformática BMC . 8 (1): 299. doi : 10.1186/1471-2105-8-299 . PMC 2212665 . PMID  17697349. 
  14. ^ Zhang, contenedor; Horvath, Steve (2005). "Un marco general para el análisis de redes de coexpresión de genes ponderados". Aplicaciones estadísticas en genética y biología molecular . 4 (1): Artículo 17. CiteSeerX 10.1.1.471.9599 . doi :10.2202/1544-6115.1128. PMID  16646834. S2CID  7756201. 
  15. ^ Khanin, R.; Ingenio, E. (2006). "Cuán libres de escala son las redes biológicas". Revista de biología computacional . 13 (3): 810–8. CiteSeerX 10.1.1.104.5347 . doi :10.1089/cmb.2006.13.810. PMID  16706727. 
  16. ^ Broido, Anna D.; Clauset, Aaron (2019). "Las redes sin escala son raras". Comunicaciones de la naturaleza . 10 (1): 1017. arXiv : 1801.03400 . Código Bib : 2019NatCo..10.1017B. doi :10.1038/s41467-019-08746-5. PMC 6399239 . PMID  30833554. S2CID  24825063. 
  17. ^ Clote, P. (2020). "¿Las redes de ARN son escalables?". Revista de biología matemática . 80 (5): 1291-1321. doi :10.1007/s00285-019-01463-z. PMC 7052049 . PMID  31950258. 
  18. ^ Zhang, Jie; Huang, Kun (2014). "ImQCM normalizado: un algoritmo para detectar cuasi-cliques débiles en un gráfico ponderado con aplicaciones en el descubrimiento del módulo de coexpresión genética en cánceres". Informática del cáncer . 13 (3): 137–46. doi : 10.4137/CIN.S14021 . PMC 4962959 . PMID  27486298. 
  19. ^ Alon, Uri (2006). Principios de diseño de circuitos biológicos. doi :10.1201/9781420011432. ISBN 9780429092794.
  20. ^ Mercatelli, Daniele; Rayo, Bosque; Giorgi, Federico M. (2019). "Modelado pancáncer y unicelular de alteraciones genómicas mediante la expresión génica". Fronteras en genética . 10 : 671. doi : 10.3389/fgene.2019.00671 . ISSN  1664-8021. PMC 6657420 . PMID  31379928. 
  21. ^ Mercatelli, Daniele; Scalambra, Laura; Tríboli, Luca; Rayo, Bosque; Giorgi, Federico M. (2020). "Recursos de inferencia de redes reguladoras de genes: una descripción práctica". Biochimica et Biophysica Acta (BBA) - Mecanismos reguladores de genes . 1863 (6): 194430. doi :10.1016/j.bbagrm.2019.194430. ISSN  1874-9399. PMID  31678629. S2CID  207895066.
  22. ^ Usadel, Bjoern; Obayashi, Takeshi; Mutwil, Marek; Giorgi, Federico M.; Basilea, George W.; Tanimoto, Mimi; Chow, Amanda; Steinhauser, Dirk; Persson, Staffan; Provart, Nicolás J. (2009). "Herramientas de coexpresión para la biología vegetal: oportunidades para la generación de hipótesis y advertencias". Planta, célula y medio ambiente . 32 (12): 1633-1651. doi : 10.1111/j.1365-3040.2009.02040.x . ISSN  0140-7791. PMID  19712066.