Una red reguladora de genes (o genética ) ( GRN ) es un conjunto de reguladores moleculares que interactúan entre sí y con otras sustancias en la célula para regular los niveles de expresión génica de ARNm y proteínas que, a su vez, determinan la función de la célula. La GRN también desempeña un papel central en la morfogénesis , la creación de estructuras corporales, que a su vez es fundamental para la biología del desarrollo evolutivo (evo-devo).
El regulador puede ser ADN , ARN , proteína o cualquier combinación de dos o más de estos tres que formen un complejo, como una secuencia específica de ADN y un factor de transcripción para activar esa secuencia. La interacción puede ser directa o indirecta (a través del ARN transcrito o la proteína traducida). En general, cada molécula de ARNm pasa a formar una proteína específica (o un conjunto de proteínas). En algunos casos, esta proteína será estructural y se acumulará en la membrana celular o dentro de la célula para darle propiedades estructurales particulares. En otros casos, la proteína será una enzima , es decir, una micromáquina que cataliza una determinada reacción, como la descomposición de una fuente de alimento o una toxina. Sin embargo, algunas proteínas sirven solo para activar otros genes, y estos son los factores de transcripción que son los principales actores en las redes o cascadas reguladoras. Al unirse a la región promotora al comienzo de otros genes, los activan, iniciando la producción de otra proteína, y así sucesivamente. Algunos factores de transcripción son inhibidores. [1]
En los organismos unicelulares, las redes reguladoras responden al entorno externo, optimizando la supervivencia de la célula en un momento dado. Así, una célula de levadura, al encontrarse en una solución de azúcar, activará genes para producir enzimas que transformen el azúcar en alcohol. [2] Este proceso, que asociamos con la elaboración del vino, es el modo en que la célula de levadura se gana la vida, obteniendo energía para multiplicarse, lo que en circunstancias normales mejoraría sus perspectivas de supervivencia.
En los animales multicelulares, el mismo principio se ha aplicado a las cascadas de genes que controlan la forma del cuerpo. [3] Cada vez que una célula se divide, se obtienen dos células que, aunque contienen el mismo genoma completo, pueden diferir en qué genes se activan y producen proteínas. A veces, un "bucle de retroalimentación autosostenido" garantiza que una célula mantenga su identidad y la transmita. Menos conocido es el mecanismo de la epigenética por el cual la modificación de la cromatina puede proporcionar memoria celular al bloquear o permitir la transcripción. Una característica importante de los animales multicelulares es el uso de gradientes de morfógenos , que en efecto proporcionan un sistema de posicionamiento que le dice a una célula en qué parte del cuerpo se encuentra y, por lo tanto, en qué tipo de célula convertirse. Un gen que se activa en una célula puede generar un producto que sale de la célula y se difunde a través de las células adyacentes, entrando en ellas y activando genes solo cuando está presente por encima de un cierto nivel umbral. De este modo, estas células son inducidas a un nuevo destino e incluso pueden generar otros morfógenos que envían señales a la célula original. En distancias más largas, los morfógenos pueden utilizar el proceso activo de transducción de señales . Dicha señalización controla la embriogénesis , la construcción de un plan corporal desde cero a través de una serie de pasos secuenciales. También controlan y mantienen los cuerpos adultos a través de procesos de retroalimentación , y la pérdida de dicha retroalimentación debido a una mutación puede ser responsable de la proliferación celular que se observa en el cáncer . En paralelo con este proceso de construcción de la estructura, la cascada genética activa genes que producen proteínas estructurales que le dan a cada célula las propiedades físicas que necesita.
En un nivel, las células biológicas pueden considerarse como "bolsas parcialmente mezcladas" de sustancias químicas biológicas: en el análisis de las redes de regulación genética, estas sustancias químicas son principalmente los ARN mensajeros (ARNm) y las proteínas que surgen de la expresión genética. Estos ARNm y proteínas interactúan entre sí con diversos grados de especificidad. Algunos se difunden por la célula. Otros se unen a las membranas celulares e interactúan con moléculas del entorno. Y otros atraviesan las membranas celulares y median señales de largo alcance a otras células en un organismo multicelular. Estas moléculas y sus interacciones componen una red de regulación genética . Una red de regulación genética típica se parece a esto:
Los nodos de esta red pueden representar genes, proteínas, ARNm, complejos proteína/proteína o procesos celulares. Los nodos que se representan a lo largo de líneas verticales están asociados con las interfaces célula/ambiente, mientras que los demás flotan libremente y pueden difundirse . Los bordes entre nodos representan interacciones entre los nodos, que pueden corresponder a reacciones moleculares individuales entre ADN, ARNm, miARN, proteínas o procesos moleculares a través de los cuales los productos de un gen afectan a los de otro, aunque la falta de información obtenida experimentalmente a menudo implica que algunas reacciones no se modelan con un nivel de detalle tan fino. Estas interacciones pueden ser inductivas (generalmente representadas por puntas de flecha o el signo +), con un aumento en la concentración de uno que conduce a un aumento en el otro, inhibidoras (representadas con círculos rellenos, flechas romas o el signo menos), con un aumento en uno que conduce a una disminución en el otro, o duales, cuando dependiendo de las circunstancias el regulador puede activar o inhibir el nodo objetivo. Los nodos pueden regularse a sí mismos directa o indirectamente, creando bucles de retroalimentación, que forman cadenas cíclicas de dependencias en la red topológica. La estructura de la red es una abstracción de la dinámica molecular o química del sistema, que describe las múltiples formas en que una sustancia afecta a todas las demás a las que está conectada. En la práctica, dichas GRN se infieren de la literatura biológica sobre un sistema dado y representan una destilación del conocimiento colectivo sobre un conjunto de reacciones bioquímicas relacionadas. Para acelerar la curación manual de las GRN, algunos esfuerzos recientes intentan utilizar minería de texto , bases de datos curadas, inferencia de redes a partir de datos masivos, verificación de modelos y otras tecnologías de extracción de información para este propósito. [4]
Los genes pueden considerarse como nodos en la red, siendo las entradas proteínas como los factores de transcripción y las salidas el nivel de expresión génica . El valor del nodo depende de una función que depende del valor de sus reguladores en pasos de tiempo anteriores (en la red booleana descrita a continuación, estas son funciones booleanas , típicamente AND, OR y NOT). Estas funciones se han interpretado como la realización de un tipo de procesamiento de información dentro de la célula, que determina el comportamiento celular. Los impulsores básicos dentro de las células son las concentraciones de algunas proteínas, que determinan las coordenadas espaciales (ubicación dentro de la célula o tejido) y temporales (ciclo celular o etapa de desarrollo) de la célula, como una especie de "memoria celular". Las redes génicas recién están comenzando a entenderse, y el siguiente paso para la biología es intentar deducir las funciones de cada "nodo" génico, para ayudar a comprender el comportamiento del sistema en niveles crecientes de complejidad, desde el nivel génico hasta el de la vía de señalización, celular o tisular. [5]
Se han desarrollado modelos matemáticos de GRN para capturar el comportamiento del sistema que se está modelando y, en algunos casos, generar predicciones correspondientes a observaciones experimentales. En otros casos, los modelos han demostrado hacer predicciones novedosas y precisas, que se pueden probar experimentalmente, lo que sugiere nuevos enfoques para explorar en un experimento que a veces no se considerarían en el diseño del protocolo de un laboratorio experimental. Las técnicas de modelado incluyen ecuaciones diferenciales (EDO), redes booleanas, redes de Petri , redes bayesianas , modelos gráficos de redes gaussianas , estocásticos y cálculos de procesos . [6] Por el contrario, se han propuesto técnicas para generar modelos de GRN que expliquen mejor un conjunto de observaciones de series de tiempo . Recientemente, se ha demostrado que la señal ChIP-seq de modificación de histonas está más correlacionada con motivos de factores de transcripción en promotores en comparación con el nivel de ARN. [7] Por lo tanto, se propone que la modificación de histonas de series de tiempo ChIP-seq podría proporcionar una inferencia más confiable de redes reguladoras de genes en comparación con los métodos basados en niveles de expresión.
En general, se piensa que las redes reguladoras de genes están formadas por unos pocos nodos altamente conectados ( centros ) y muchos nodos pobremente conectados anidados dentro de un régimen regulador jerárquico. Por lo tanto, las redes reguladoras de genes se aproximan a una topología de red libre de escala jerárquica . [8] Esto es consistente con la visión de que la mayoría de los genes tienen una pleiotropía limitada y operan dentro de módulos reguladores . [9] Se piensa que esta estructura evoluciona debido a la unión preferencial de genes duplicados a genes más altamente conectados. [8] Trabajos recientes también han demostrado que la selección natural tiende a favorecer redes con conectividad dispersa. [10]
Existen principalmente dos formas en las que las redes pueden evolucionar, y ambas pueden ocurrir simultáneamente. La primera es que la topología de la red puede cambiarse mediante la adición o sustracción de nodos (genes) o partes de la red (módulos) pueden expresarse en diferentes contextos. La vía de señalización Hippo de Drosophila proporciona un buen ejemplo. La vía de señalización Hippo controla tanto el crecimiento mitótico como la diferenciación celular postmitótica. [11] Recientemente se descubrió que la red en la que opera la vía de señalización Hippo difiere entre estas dos funciones, lo que a su vez cambia el comportamiento de la vía de señalización Hippo. Esto sugiere que la vía de señalización Hippo opera como un módulo regulador conservado que puede usarse para múltiples funciones según el contexto. [11] Por lo tanto, cambiar la topología de la red puede permitir que un módulo conservado cumpla múltiples funciones y altere el resultado final de la red. La segunda forma en que las redes pueden evolucionar es cambiando la fuerza de las interacciones entre nodos, como la fuerza con la que un factor de transcripción puede unirse a un elemento regulador cis . Se ha demostrado que dicha variación en la fuerza de los bordes de la red subyace a la variación entre especies en el patrón de destino de las células de la vulva de los gusanos Caenorhabditis . [12]
Otra característica ampliamente citada de la red reguladora de genes es su abundancia de ciertas subredes repetitivas conocidas como motivos de red . Los motivos de red pueden considerarse como patrones topológicos repetitivos al dividir una red grande en bloques pequeños. Análisis previos encontraron varios tipos de motivos que aparecieron con mayor frecuencia en redes reguladoras de genes que en redes generadas aleatoriamente. [13] [14] [15] Como ejemplo, uno de estos motivos se llama bucles de avance, que constan de tres nodos. Este motivo es el más abundante entre todos los motivos posibles compuestos de tres nodos, como se muestra en las redes reguladoras de genes de la mosca, el nematodo y el ser humano. [15]
Se ha propuesto que los motivos enriquecidos sigan una evolución convergente , lo que sugiere que son "diseños óptimos" para ciertos fines regulatorios. [16] Por ejemplo, el modelado muestra que los bucles de avance pueden coordinar el cambio en el nodo A (en términos de concentración y actividad) y la dinámica de expresión del nodo C, creando diferentes comportamientos de entrada-salida. [17] [18] El sistema de utilización de galactosa de E. coli contiene un bucle de avance que acelera la activación del operón de utilización de galactosa galETK , lo que facilita potencialmente la transición metabólica a galactosa cuando se agota la glucosa. [19] El bucle de avance en los sistemas de utilización de arabinosa de E. coli retrasa la activación del operón del catabolismo de la arabinosa y los transportadores, evitando potencialmente la transición metabólica innecesaria debido a fluctuaciones temporales en las vías de señalización ascendentes. [20] De manera similar, en la vía de señalización Wnt de Xenopus , el bucle de avance actúa como un detector de cambio de pliegue que responde al cambio de pliegue, en lugar del cambio absoluto, en el nivel de β-catenina, lo que aumenta potencialmente la resistencia a las fluctuaciones en los niveles de β-catenina. [21] Siguiendo la hipótesis de la evolución convergente, el enriquecimiento de los bucles de avance sería una adaptación para una respuesta rápida y resistencia al ruido. Una investigación reciente encontró que la levadura cultivada en un entorno de glucosa constante desarrolló mutaciones en las vías de señalización de la glucosa y la vía de regulación del crecimiento, lo que sugiere que los componentes reguladores que responden a los cambios ambientales son prescindibles en un entorno constante. [22]
Por otra parte, algunos investigadores plantean la hipótesis de que el enriquecimiento de los motivos de la red no es adaptativo. [23] En otras palabras, las redes reguladoras de genes pueden evolucionar hacia una estructura similar sin la selección específica en el comportamiento de entrada-salida propuesto. El apoyo a esta hipótesis a menudo proviene de simulaciones computacionales. Por ejemplo, las fluctuaciones en la abundancia de bucles de retroalimentación en un modelo que simula la evolución de las redes reguladoras de genes mediante el reconectado aleatorio de nodos pueden sugerir que el enriquecimiento de los bucles de retroalimentación es un efecto secundario de la evolución. [24] En otro modelo de evolución de las redes reguladoras de genes, la relación de las frecuencias de duplicación y eliminación de genes muestra una gran influencia en la topología de la red: ciertas relaciones conducen al enriquecimiento de los bucles de retroalimentación y crean redes que muestran características de redes libres de escala jerárquica. Se ha demostrado computacionalmente la evolución de novo de bucles coherentes de propagación hacia adelante tipo 1 en respuesta a la selección por su función hipotética de filtrar una señal espuria corta, lo que respalda la evolución adaptativa, pero para el ruido no idealizado, se favoreció en cambio un sistema basado en dinámica de regulación hacia adelante con una topología diferente. [25]
Las redes reguladoras permiten a las bacterias adaptarse a casi todos los nichos ambientales de la Tierra. [26] [27] Las bacterias utilizan una red de interacciones entre diversos tipos de moléculas, como ADN, ARN, proteínas y metabolitos, para lograr la regulación de la expresión génica. En las bacterias, la función principal de las redes reguladoras es controlar la respuesta a los cambios ambientales, por ejemplo, el estado nutricional y el estrés ambiental. [28] Una organización compleja de redes permite al microorganismo coordinar e integrar múltiples señales ambientales. [26]
Un ejemplo de estrés es cuando el entorno se vuelve repentinamente pobre en nutrientes. Esto desencadena un proceso complejo de adaptación en bacterias , como E. coli . Después de este cambio ambiental, miles de genes cambian el nivel de expresión. Sin embargo, estos cambios son predecibles a partir de la topología y la lógica de la red genética [29] que se informa en RegulonDB . Específicamente, en promedio, la fuerza de respuesta de un gen era predecible a partir de la diferencia entre los números de factores de transcripción de entrada activadores y represores de ese gen. [29]
Es común modelar una red de este tipo con un conjunto de ecuaciones diferenciales ordinarias (EDO) acopladas o EDS , que describen la cinética de reacción de las partes constituyentes. Supongamos que nuestra red reguladora tiene nodos y que represente las concentraciones de las sustancias correspondientes en el tiempo . Entonces la evolución temporal del sistema se puede describir aproximadamente mediante
donde las funciones expresan la dependencia de las concentraciones de otras sustancias presentes en la célula. Las funciones se derivan en última instancia de los principios básicos de la cinética química o expresiones simples derivadas de estos, por ejemplo , la cinética enzimática de Michaelis-Menten . Por lo tanto, las formas funcionales de los se eligen generalmente como polinomios de orden bajo o funciones de Hill que sirven como ansatz para la dinámica molecular real. Dichos modelos se estudian luego utilizando las matemáticas de la dinámica no lineal . La información específica del sistema, como las constantes de velocidad de reacción y las sensibilidades, se codifican como parámetros constantes. [30]
Resolviendo el punto fijo del sistema:
para todos , se obtienen (posiblemente varios) perfiles de concentración de proteínas y ARNm que son teóricamente sostenibles (aunque no necesariamente estables ). Los estados estacionarios de las ecuaciones cinéticas corresponden así a tipos celulares potenciales, y las soluciones oscilatorias de la ecuación anterior a tipos celulares naturalmente cíclicos. La estabilidad matemática de estos atractores puede caracterizarse habitualmente por el signo de derivadas superiores en puntos críticos, y luego corresponder a la estabilidad bioquímica del perfil de concentración. Los puntos críticos y las bifurcaciones en las ecuaciones corresponden a estados celulares críticos en los que pequeñas perturbaciones de estado o parámetro podrían cambiar el sistema entre uno de varios destinos de diferenciación estables. Las trayectorias corresponden al desarrollo de vías biológicas y los transitorios de las ecuaciones a eventos biológicos de corto plazo. Para una discusión más matemática, véanse los artículos sobre no linealidad , sistemas dinámicos , teoría de la bifurcación y teoría del caos .
El siguiente ejemplo ilustra cómo una red booleana puede modelar una red reguladora genética junto con sus productos genéticos (las salidas) y las sustancias del entorno que la afectan (las entradas). Stuart Kauffman fue uno de los primeros biólogos en utilizar la metáfora de las redes booleanas para modelar redes reguladoras genéticas. [31] [32]
La validez del modelo se puede comprobar comparando los resultados de la simulación con las observaciones de series temporales. Una validación parcial de un modelo de red booleana también puede provenir de la comprobación de la existencia prevista de una conexión reguladora aún desconocida entre dos factores de transcripción particulares que son nodos del modelo. [33]
Los modelos de red continua de GRN son una extensión de las redes booleanas descritas anteriormente. Los nodos aún representan genes y conexiones entre ellos, influencias reguladoras en la expresión génica. Los genes en sistemas biológicos muestran un rango continuo de niveles de actividad y se ha argumentado que el uso de una representación continua captura varias propiedades de las redes reguladoras génicas que no están presentes en el modelo booleano. [34] Formalmente, la mayoría de estos enfoques son similares a una red neuronal artificial , ya que las entradas a un nodo se suman y el resultado sirve como entrada a una función sigmoidea , por ejemplo, [35] pero las proteínas a menudo controlan la expresión génica de una manera sinérgica, es decir, no lineal. [36] Sin embargo, ahora existe un modelo de red continua [37] que permite agrupar las entradas a un nodo, logrando así otro nivel de regulación. Este modelo está formalmente más cerca de una red neuronal recurrente de orden superior . El mismo modelo también se ha utilizado para imitar la evolución de la diferenciación celular [38] e incluso la morfogénesis multicelular . [39]
Los resultados experimentales [40] [41] han demostrado que la expresión génica es un proceso estocástico. Por ello, muchos autores están utilizando ahora el formalismo estocástico, tras el trabajo de Arkin et al. [42] Los trabajos sobre la expresión génica individual [43] y sobre pequeñas redes genéticas sintéticas [44] [45], como el interruptor genético de Tim Gardner y Jim Collins , proporcionaron datos experimentales adicionales sobre la variabilidad fenotípica y la naturaleza estocástica de la expresión génica. Las primeras versiones de los modelos estocásticos de expresión génica implicaban únicamente reacciones instantáneas y estaban impulsadas por el algoritmo de Gillespie . [46]
Dado que algunos procesos, como la transcripción genética, implican muchas reacciones y no se pueden modelar correctamente como una reacción instantánea en un solo paso, se propuso modelar estas reacciones como reacciones múltiples retardadas de un solo paso para tener en cuenta el tiempo que lleva completar todo el proceso. [47]
A partir de aquí, se propuso un conjunto de reacciones [48] que permiten generar GRN, las cuales luego se simulan utilizando una versión modificada del algoritmo de Gillespie, que puede simular múltiples reacciones retardadas en el tiempo (reacciones químicas en las que a cada uno de los productos se le asigna un tiempo de retardo que determina cuándo será liberado en el sistema como un "producto terminado").
Por ejemplo, la transcripción básica de un gen se puede representar mediante la siguiente reacción de un solo paso (RNAP es la ARN polimerasa, RBS es el sitio de unión del ribosoma del ARN y Pro i es la región promotora del gen i ):
Además, parece haber una compensación entre el ruido en la expresión genética, la velocidad con la que los genes pueden cambiar y el costo metabólico asociado a su funcionamiento. Más específicamente, para cualquier nivel dado de costo metabólico, existe una compensación óptima entre el ruido y la velocidad de procesamiento y el aumento del costo metabólico conduce a mejores compensaciones entre velocidad y ruido. [49] [50] [51]
Un trabajo reciente propuso un simulador (SGNSim, Stochastic Gene Networks Simulator ), [52] que puede modelar GRN donde la transcripción y la traducción se modelan como múltiples eventos con retraso en el tiempo y su dinámica es impulsada por un algoritmo de simulación estocástica (SSA) capaz de lidiar con múltiples eventos con retraso en el tiempo. Los retrasos en el tiempo se pueden extraer de varias distribuciones y las velocidades de reacción de funciones complejas o de parámetros físicos. SGNSim puede generar conjuntos de GRN dentro de un conjunto de parámetros definidos por el usuario, como la topología. También se puede utilizar para modelar GRN específicos y sistemas de reacciones químicas. También se pueden modelar perturbaciones genéticas como deleciones de genes, sobreexpresión de genes, inserciones y mutaciones por cambio de marco.
El GRN se crea a partir de un grafo con la topología deseada, imponiendo distribuciones de grado de entrada y grado de salida. Las actividades del promotor de genes se ven afectadas por los productos de expresión de otros genes que actúan como entradas, en forma de monómeros o combinados en multímeros y establecidos como directos o indirectos. A continuación, cada entrada directa se asigna a un sitio operador y se puede permitir, o no, que diferentes factores de transcripción compitan por el mismo sitio operador, mientras que a las entradas indirectas se les asigna un objetivo. Finalmente, se asigna una función a cada gen, definiendo la respuesta del gen a una combinación de factores de transcripción (estado del promotor). Las funciones de transferencia (es decir, cómo responden los genes a una combinación de entradas) se pueden asignar a cada combinación de estados del promotor según se desee.
En otros trabajos recientes, se han desarrollado modelos multiescala de redes reguladoras de genes que se centran en aplicaciones de biología sintética. Se han utilizado simulaciones que modelan todas las interacciones biomoleculares en la transcripción, traducción, regulación e inducción de redes reguladoras de genes, guiando el diseño de sistemas sintéticos. [53]
Otros trabajos se han centrado en predecir los niveles de expresión génica en una red reguladora de genes. Los enfoques utilizados para modelar redes reguladoras de genes se han visto limitados a ser interpretables y, como resultado, son generalmente versiones simplificadas de la red. Por ejemplo, se han utilizado redes booleanas debido a su simplicidad y capacidad para manejar datos ruidosos, pero pierden información de los datos al tener una representación binaria de los genes. Además, las redes neuronales artificiales omiten el uso de una capa oculta para que puedan interpretarse, perdiendo la capacidad de modelar correlaciones de orden superior en los datos. Utilizando un modelo que no esté limitado a ser interpretable, se puede producir un modelo más preciso. Ser capaz de predecir las expresiones genéticas con mayor precisión proporciona una forma de explorar cómo los fármacos afectan a un sistema de genes, así como de encontrar qué genes están interrelacionados en un proceso. Esto ha sido alentado por la competencia DREAM [54] que promueve una competencia para los mejores algoritmos de predicción. [55] Algunos otros trabajos recientes han utilizado redes neuronales artificiales con una capa oculta. [56]
Existen tres clases de esclerosis múltiple: recurrente-remitente (EMRR), progresiva primaria (EMPP) y progresiva secundaria (EMSP). La red reguladora de genes (RGG) desempeña un papel fundamental para comprender el mecanismo de la enfermedad en estas tres clases diferentes de esclerosis múltiple. [57]