Una red reguladora genética (o genética ) ( GRN ) es un conjunto de reguladores moleculares que interactúan entre sí y con otras sustancias de la célula para regular los niveles de expresión genética del ARNm y las proteínas que, a su vez, determinan la función de la célula. . Los GRN también desempeñan un papel central en la morfogénesis , la creación de estructuras corporales, que a su vez es fundamental para la biología del desarrollo evolutivo (evo-devo).
El regulador puede ser ADN , ARN , proteína o cualquier combinación de dos o más de estos tres que formen un complejo, como una secuencia específica de ADN y un factor de transcripción para activar esa secuencia. La interacción puede ser directa o indirecta (a través de ARN transcrito o proteína traducida). En general, cada molécula de ARNm produce una proteína específica (o un conjunto de proteínas). En algunos casos, esta proteína será estructural y se acumulará en la membrana celular o dentro de la célula para darle propiedades estructurales particulares. En otros casos la proteína será una enzima , es decir, una micromáquina que cataliza una determinada reacción, como la descomposición de una fuente de alimento o de una toxina. Sin embargo, algunas proteínas sólo sirven para activar otros genes, y estos son los factores de transcripción que son los principales actores en las redes o cascadas reguladoras. Al unirse a la región promotora al inicio de otros genes, los activan, iniciando la producción de otra proteína, y así sucesivamente. Algunos factores de transcripción son inhibidores. [1]
En los organismos unicelulares, las redes reguladoras responden al entorno externo, optimizando la célula en un momento dado para sobrevivir en este entorno. Así, una célula de levadura, al encontrarse en una solución de azúcar, activará genes para producir enzimas que procesan el azúcar hasta convertirlo en alcohol. [2] Este proceso, que asociamos con la elaboración del vino, es la forma en que la célula de levadura se gana la vida, obteniendo energía para multiplicarse, lo que en circunstancias normales mejoraría sus perspectivas de supervivencia.
En los animales multicelulares se ha puesto el mismo principio al servicio de las cascadas de genes que controlan la forma del cuerpo. [3] Cada vez que una célula se divide, resultan dos células que, aunque contienen el mismo genoma completo, pueden diferir en qué genes se activan y producen proteínas. A veces, un "bucle de retroalimentación autosostenible" asegura que una célula mantenga su identidad y la transmita. Menos comprendido es el mecanismo de la epigenética mediante el cual la modificación de la cromatina puede proporcionar memoria celular al bloquear o permitir la transcripción. Una característica importante de los animales multicelulares es el uso de gradientes morfógenos , que de hecho proporcionan un sistema de posicionamiento que le indica a una célula en qué parte del cuerpo se encuentra y, por tanto, en qué tipo de célula debe convertirse. Un gen que se activa en una célula puede producir un producto que sale de la célula y se difunde a través de las células adyacentes, entrando en ellas y activando genes sólo cuando está presente por encima de un cierto nivel umbral. Por lo tanto, estas células son inducidas a un nuevo destino e incluso pueden generar otros morfógenos que envían señales a la célula original. En distancias más largas, los morfógenos pueden utilizar el proceso activo de transducción de señales . Dicha señalización controla la embriogénesis , la construcción de un plan corporal desde cero a través de una serie de pasos secuenciales. También controlan y mantienen los cuerpos adultos a través de procesos de retroalimentación , y la pérdida de dicha retroalimentación debido a una mutación puede ser responsable de la proliferación celular que se observa en el cáncer . Paralelamente a este proceso de construcción de estructura, la cascada de genes activa genes que producen proteínas estructurales que dan a cada célula las propiedades físicas que necesita.
En cierto nivel, las células biológicas pueden considerarse como "bolsas parcialmente mezcladas" de sustancias químicas biológicas; en el análisis de las redes reguladoras de genes, estas sustancias químicas son principalmente los ARN mensajeros (ARNm) y las proteínas que surgen de la expresión genética. Estos ARNm y proteínas interactúan entre sí con diversos grados de especificidad. Algunos se difunden alrededor de la célula. Otros están unidos a las membranas celulares , interactuando con moléculas del medio ambiente. Otros más atraviesan las membranas celulares y median señales de largo alcance a otras células en un organismo multicelular. Estas moléculas y sus interacciones comprenden una red reguladora de genes . Una red reguladora de genes típica se parece a esto:
Los nodos de esta red pueden representar genes, proteínas, ARNm, complejos proteína/proteína o procesos celulares. Los nodos que se representan a lo largo de líneas verticales están asociados con las interfaces celda/entorno, mientras que los demás flotan libremente y pueden difundirse . Los bordes entre nodos representan interacciones entre los nodos, que pueden corresponder a reacciones moleculares individuales entre ADN, ARNm, miARN, proteínas o procesos moleculares a través de los cuales los productos de un gen afectan a los de otro, aunque la falta de información obtenida experimentalmente implica a menudo que algunos Las reacciones no se modelan con un nivel de detalle tan fino. Estas interacciones pueden ser inductivas (generalmente representadas por puntas de flecha o el signo +), con un aumento en la concentración de una que conduce a un aumento en la otra, inhibidoras (representadas con círculos rellenos, flechas romas o el signo menos), con un aumento en uno conduce a una disminución en el otro, o dual, cuando dependiendo de las circunstancias el regulador puede activar o inhibir el nodo objetivo. Los nodos pueden regularse a sí mismos directa o indirectamente, creando bucles de retroalimentación, que forman cadenas cíclicas de dependencias en la red topológica. La estructura de la red es una abstracción de la dinámica molecular o química del sistema, que describe las múltiples formas en que una sustancia afecta a todas las demás a las que está conectada. En la práctica, dichos GRN se infieren de la literatura biológica sobre un sistema determinado y representan una destilación del conocimiento colectivo sobre un conjunto de reacciones bioquímicas relacionadas. Para acelerar la curación manual de GRN, algunos esfuerzos recientes intentan utilizar minería de texto , bases de datos seleccionadas, inferencia de red a partir de datos masivos, verificación de modelos y otras tecnologías de extracción de información para este propósito. [4]
Los genes pueden verse como nodos en la red, donde las entradas son proteínas como los factores de transcripción y las salidas son el nivel de expresión génica . El valor del nodo depende de una función que depende del valor de sus reguladores en pasos de tiempo anteriores (en la red booleana que se describe a continuación, estas son funciones booleanas , típicamente AND, OR y NOT). Se ha interpretado que estas funciones realizan una especie de procesamiento de información dentro de la célula, que determina el comportamiento celular. Los impulsores básicos dentro de las células son las concentraciones de algunas proteínas, que determinan las coordenadas tanto espaciales (ubicación dentro de la célula o tejido) como temporales (ciclo celular o etapa de desarrollo) de la célula, como una especie de "memoria celular". Las redes genéticas apenas están comenzando a comprenderse, y el siguiente paso de la biología es intentar deducir las funciones de cada "nodo" genético, para ayudar a comprender el comportamiento del sistema en niveles crecientes de complejidad, desde el gen hasta la vía de señalización. , nivel celular o tisular. [5]
Se han desarrollado modelos matemáticos de GRN para capturar el comportamiento del sistema que se está modelando y, en algunos casos, generar predicciones correspondientes a observaciones experimentales. En algunos otros casos, los modelos han demostrado hacer predicciones novedosas y precisas, que pueden probarse experimentalmente, sugiriendo así nuevos enfoques para explorar en un experimento que a veces no se considerarían en el diseño del protocolo de un laboratorio experimental. Las técnicas de modelado incluyen ecuaciones diferenciales (EDO), redes booleanas, redes de Petri , redes bayesianas , modelos gráficos de redes gaussianas , estocásticos y cálculos de procesos . [6] Por el contrario, se han propuesto técnicas para generar modelos de GRN que expliquen mejor un conjunto de observaciones de series temporales . Recientemente se ha demostrado que la señal ChIP-seq de modificación de histonas está más correlacionada con motivos de factores de transcripción en los promotores en comparación con el nivel de ARN. [7] Por lo tanto, se propone que la modificación de histonas en series temporales ChIP-seq podría proporcionar una inferencia más confiable de las redes reguladoras de genes en comparación con los métodos basados en niveles de expresión.
Generalmente se piensa que las redes de regulación genética están formadas por unos pocos nodos altamente conectados ( hubs ) y muchos nodos mal conectados anidados dentro de un régimen regulatorio jerárquico. Por lo tanto, las redes reguladoras de genes se aproximan a una topología de red libre de escala jerárquica . [8] Esto es consistente con la opinión de que la mayoría de los genes tienen pleiotropía limitada y operan dentro de módulos reguladores . [9] Se cree que esta estructura evoluciona debido a la unión preferencial de genes duplicados a genes más conectados. [8] Trabajos recientes también han demostrado que la selección natural tiende a favorecer las redes con escasa conectividad. [10]
Existen principalmente dos formas en que las redes pueden evolucionar, y ambas pueden ocurrir simultáneamente. La primera es que la topología de la red puede cambiarse mediante la suma o resta de nodos (genes) o partes de la red (módulos) que pueden expresarse en diferentes contextos. La vía de señalización de Drosophila Hippo es un buen ejemplo. La vía de señalización del hipopótamo controla tanto el crecimiento mitótico como la diferenciación celular posmitótica. [11] Recientemente se descubrió que la red en la que opera la vía de señalización del hipopótamo difiere entre estas dos funciones, lo que a su vez cambia el comportamiento de la vía de señalización del hipopótamo. Esto sugiere que la vía de señalización del hipopótamo funciona como un módulo regulador conservado que puede utilizarse para múltiples funciones según el contexto. [11] Por lo tanto, cambiar la topología de la red puede permitir que un módulo conservado cumpla múltiples funciones y altere la salida final de la red. La segunda forma en que las redes pueden evolucionar es cambiando la fuerza de las interacciones entre nodos, como la fuerza con la que un factor de transcripción puede unirse a un elemento regulador cis . Se ha demostrado que tal variación en la fuerza de los bordes de la red es la base de la variación entre especies en el patrón del destino de las células de la vulva de los gusanos Caenorhabditis . [12]
Otra característica ampliamente citada de la red reguladora de genes es su abundancia de ciertas subredes repetitivas conocidas como motivos de red . Los motivos de la red pueden considerarse patrones topológicos repetitivos al dividir una red grande en bloques pequeños. Análisis anteriores encontraron varios tipos de motivos que aparecían con más frecuencia en redes reguladoras de genes que en redes generadas aleatoriamente. [13] [14] [15] Como ejemplo, uno de esos motivos se llama bucles de retroalimentación, que constan de tres nodos. Este motivo es el más abundante entre todos los posibles motivos compuestos por tres nodos, como se muestra en las redes reguladoras de genes de moscas, nematodos y humanos. [15]
Se ha propuesto que los motivos enriquecidos sigan una evolución convergente , lo que sugiere que son "diseños óptimos" para ciertos propósitos regulatorios. [16] Por ejemplo, el modelado muestra que los bucles de retroalimentación son capaces de coordinar el cambio en el nodo A (en términos de concentración y actividad) y la dinámica de expresión del nodo C, creando diferentes comportamientos de entrada y salida. [17] [18] El sistema de utilización de galactosa de E. coli contiene un circuito de retroalimentación que acelera la activación del operón galETK de utilización de galactosa , lo que potencialmente facilita la transición metabólica a galactosa cuando se agota la glucosa. [19] El circuito de retroalimentación en los sistemas de utilización de arabinosa de E. coli retrasa la activación del operón y los transportadores del catabolismo de arabinosa, evitando potencialmente una transición metabólica innecesaria debido a fluctuaciones temporales en las vías de señalización ascendentes. [20] De manera similar, en la vía de señalización Wnt de Xenopus , el bucle de retroalimentación actúa como un detector de cambio de pliegue que responde al cambio de pliegue, en lugar del cambio absoluto, en el nivel de β-catenina, aumentando potencialmente la resistencia a fluctuaciones en los niveles de β-catenina. [21] Siguiendo la hipótesis de la evolución convergente, el enriquecimiento de los bucles de retroalimentación sería una adaptación para una respuesta rápida y resistencia al ruido. Una investigación reciente encontró que la levadura cultivada en un ambiente de glucosa constante desarrolló mutaciones en las vías de señalización de la glucosa y en la vía de regulación del crecimiento, lo que sugiere que los componentes reguladores que responden a los cambios ambientales son prescindibles en un ambiente constante. [22]
Por otro lado, algunos investigadores plantean la hipótesis de que el enriquecimiento de motivos de red no es adaptativo. [23] En otras palabras, las redes reguladoras de genes pueden evolucionar hacia una estructura similar sin la selección específica del comportamiento de entrada-salida propuesto. El apoyo a esta hipótesis proviene a menudo de simulaciones computacionales. Por ejemplo, las fluctuaciones en la abundancia de bucles de retroalimentación en un modelo que simula la evolución de las redes reguladoras de genes mediante el recableado aleatorio de nodos pueden sugerir que el enriquecimiento de los bucles de retroalimentación es un efecto secundario de la evolución. [24] En otro modelo de evolución de las redes reguladoras de genes, la proporción de las frecuencias de duplicación y eliminación de genes muestra una gran influencia en la topología de la red: ciertas proporciones conducen al enriquecimiento de los bucles de retroalimentación y crean redes que muestran características de escala jerárquica. redes libres. La evolución de novo de bucles de retroalimentación coherentes de tipo 1 se ha demostrado computacionalmente en respuesta a la selección por su función hipotética de filtrar una señal espuria corta, apoyando la evolución adaptativa, pero para el ruido no idealizado, se utiliza un sistema de retroalimentación basado en dinámica. En cambio, se favoreció la regulación directa con diferente topología. [25]
Las redes regulatorias permiten que las bacterias se adapten a casi todos los nichos ambientales del planeta. [26] [27] Las bacterias utilizan una red de interacciones entre diversos tipos de moléculas, incluidos ADN, ARN, proteínas y metabolitos, para lograr la regulación de la expresión genética. En las bacterias, la función principal de las redes reguladoras es controlar la respuesta a los cambios ambientales, por ejemplo el estado nutricional y el estrés ambiental. [28] Una organización compleja de redes permite al microorganismo coordinar e integrar múltiples señales ambientales. [26]
Un ejemplo de estrés es cuando el ambiente repentinamente se vuelve pobre en nutrientes. Esto desencadena un complejo proceso de adaptación en bacterias como la E. coli . Tras este cambio ambiental, miles de genes cambian de nivel de expresión. Sin embargo, estos cambios son predecibles a partir de la topología y la lógica de la red genética [29] que se informa en RegulonDB . Específicamente, en promedio, la fuerza de respuesta de un gen era predecible a partir de la diferencia entre el número de factores de transcripción de entrada activadores y represores de ese gen. [29]
Es común modelar dicha red con un conjunto de ecuaciones diferenciales ordinarias (EDO) acopladas o SDE , que describen la cinética de reacción de las partes constituyentes. Supongamos que nuestra red regulatoria tiene nodos, y representemos las concentraciones de las sustancias correspondientes en el tiempo . Entonces la evolución temporal del sistema se puede describir aproximadamente mediante
donde las funciones expresan la dependencia de las concentraciones de otras sustancias presentes en la célula. En última instancia, las funciones se derivan de principios básicos de la cinética química o expresiones simples derivadas de estos, por ejemplo, la cinética enzimática de Michaelis-Menten . Por lo tanto, las formas funcionales de los suelen elegirse como polinomios de bajo orden o funciones de Hill que sirven como ansatz para la dinámica molecular real. Luego, dichos modelos se estudian utilizando las matemáticas de la dinámica no lineal . La información específica del sistema, como las constantes de velocidad de reacción y las sensibilidades, se codifica como parámetros constantes. [30]
Resolviendo para el punto fijo del sistema:
para todos , se obtienen (posiblemente varios) perfiles de concentración de proteínas y ARNm que son teóricamente sostenibles (aunque no necesariamente estables ). Por tanto, los estados estacionarios de las ecuaciones cinéticas corresponden a tipos de células potenciales, y las soluciones oscilatorias de la ecuación anterior a tipos de células naturalmente cíclicas. La estabilidad matemática de estos atractores generalmente se puede caracterizar por el signo de derivadas superiores en puntos críticos y luego corresponde a la estabilidad bioquímica del perfil de concentración. Los puntos críticos y las bifurcaciones en las ecuaciones corresponden a estados de celda críticos en los que pequeñas perturbaciones de estado o parámetros podrían cambiar el sistema entre uno de varios destinos de diferenciación estable. Las trayectorias corresponden al desarrollo de rutas biológicas y transitorios de las ecuaciones a eventos biológicos de corto plazo. Para una discusión más matemática, consulte los artículos sobre no linealidad , sistemas dinámicos , teoría de la bifurcación y teoría del caos .
El siguiente ejemplo ilustra cómo una red booleana puede modelar un GRN junto con sus productos genéticos (las salidas) y las sustancias del entorno que lo afectan (las entradas). Stuart Kauffman fue uno de los primeros biólogos en utilizar la metáfora de las redes booleanas para modelar redes reguladoras genéticas. [31] [32]
La validez del modelo se puede probar comparando los resultados de la simulación con observaciones de series de tiempo. Una validación parcial de un modelo de red booleano también puede provenir de probar la existencia prevista de una conexión regulatoria aún desconocida entre dos factores de transcripción particulares, cada uno de los cuales son nodos del modelo. [33]
Los modelos de red continua de GRN son una extensión de las redes booleanas descritas anteriormente. Los nodos todavía representan genes y las conexiones entre ellos influyen regulatoriamente en la expresión genética. Los genes en los sistemas biológicos muestran un rango continuo de niveles de actividad y se ha argumentado que el uso de una representación continua captura varias propiedades de las redes reguladoras de genes que no están presentes en el modelo booleano. [34] Formalmente, la mayoría de estos enfoques son similares a una red neuronal artificial , ya que las entradas a un nodo se resumen y el resultado sirve como entrada a una función sigmoidea , por ejemplo, [35] pero las proteínas a menudo controlan la expresión genética de forma sinérgica. , es decir, forma no lineal. [36] Sin embargo, ahora existe un modelo de red continua [37] que permite agrupar entradas a un nodo logrando así otro nivel de regulación. Este modelo está formalmente más cerca de una red neuronal recurrente de orden superior . El mismo modelo también se ha utilizado para imitar la evolución de la diferenciación celular [38] e incluso la morfogénesis multicelular . [39]
Los resultados experimentales [40] [41] han demostrado que la expresión genética es un proceso estocástico. Así, muchos autores están utilizando actualmente el formalismo estocástico, tras el trabajo de Arkin et al. [42] Los trabajos sobre la expresión de un solo gen [43] y pequeñas redes genéticas sintéticas, [44] [45] como el interruptor genético de Tim Gardner y Jim Collins , proporcionaron datos experimentales adicionales sobre la variabilidad fenotípica y la naturaleza estocástica de los genes. expresión. Las primeras versiones de modelos estocásticos de expresión genética implicaban sólo reacciones instantáneas y estaban impulsadas por el algoritmo de Gillespie . [46]
Dado que algunos procesos, como la transcripción de genes, implican muchas reacciones y no se pueden modelar correctamente como una reacción instantánea en un solo paso, se propuso modelar estas reacciones como reacciones retardadas múltiples de un solo paso para tener en cuenta el tiempo que lleva que todo el proceso esté completo. [47]
A partir de aquí se propusieron un conjunto de reacciones [48] que permiten generar GRN. Luego, estos se simulan utilizando una versión modificada del algoritmo de Gillespie, que puede simular múltiples reacciones retardadas (reacciones químicas en las que a cada uno de los productos se le proporciona un retraso que determina cuándo se liberará en el sistema como un "producto terminado"). .
Por ejemplo, la transcripción básica de un gen se puede representar mediante la siguiente reacción de un solo paso (RNAP es la ARN polimerasa, RBS es el sitio de unión del ARN ribosoma y Pro i es la región promotora del gen i ):
Además, parece haber un equilibrio entre el ruido en la expresión genética, la velocidad con la que los genes pueden cambiar y el costo metabólico asociado a su funcionamiento. Más específicamente, para cualquier nivel dado de costo metabólico, existe una compensación óptima entre el ruido y la velocidad de procesamiento y el aumento del costo metabólico conduce a mejores compensaciones entre la velocidad y el ruido. [49] [50] [51]
Un trabajo reciente propuso un simulador (SGNSim, Stochastic Gene Networks Simulator ), [52] que puede modelar GRN donde la transcripción y la traducción se modelan como múltiples eventos retardados en el tiempo y su dinámica es impulsada por un algoritmo de simulación estocástica (SSA) capaz de lidiar con múltiples eventos retardados en el tiempo. Los retardos de tiempo pueden derivarse de varias distribuciones y las velocidades de reacción de funciones complejas o de parámetros físicos. SGNSim puede generar conjuntos de GRN dentro de un conjunto de parámetros definidos por el usuario, como la topología. También se puede utilizar para modelar GRN y sistemas de reacciones químicas específicos. También se pueden modelar perturbaciones genéticas como eliminaciones de genes, sobreexpresión de genes, inserciones y mutaciones por cambio de marco.
El GRN se crea a partir de un gráfico con la topología deseada, imponiendo distribuciones de grado de entrada y de salida. Las actividades de los promotores de genes se ven afectadas por otros productos de expresión de genes que actúan como insumos, en forma de monómeros o combinados en multímeros y configurados como directos o indirectos. A continuación, cada entrada directa se asigna a un sitio del operador y se puede permitir, o no, que diferentes factores de transcripción compitan por el mismo sitio del operador, mientras que a las entradas indirectas se les asigna un objetivo. Finalmente, a cada gen se le asigna una función, definiendo la respuesta del gen a una combinación de factores de transcripción (estado promotor). Las funciones de transferencia (es decir, cómo responden los genes a una combinación de entradas) se pueden asignar a cada combinación de estados promotores según se desee.
En otros trabajos recientes, se han desarrollado modelos multiescala de redes reguladoras de genes que se centran en aplicaciones de biología sintética. Se han utilizado simulaciones que modelan todas las interacciones biomoleculares en la transcripción, traducción, regulación e inducción de redes reguladoras de genes, guiando el diseño de sistemas sintéticos. [53]
Otros trabajos se han centrado en predecir los niveles de expresión genética en una red reguladora de genes. Los enfoques utilizados para modelar las redes reguladoras de genes se han visto obligados a ser interpretables y, como resultado, generalmente son versiones simplificadas de la red. Por ejemplo, se han utilizado redes booleanas debido a su simplicidad y capacidad para manejar datos ruidosos pero pierden información de los datos al tener una representación binaria de los genes. Además, las redes neuronales artificiales omiten el uso de una capa oculta para que puedan ser interpretadas, perdiendo la capacidad de modelar correlaciones de orden superior en los datos. Utilizando un modelo que no esté obligado a ser interpretable, se puede producir un modelo más preciso. Ser capaz de predecir las expresiones genéticas con mayor precisión proporciona una manera de explorar cómo las drogas afectan un sistema de genes, así como de encontrar qué genes están interrelacionados en un proceso. Esto ha sido alentado por el concurso DREAM [54] que promueve una competencia por los mejores algoritmos de predicción. [55] Algunos otros trabajos recientes han utilizado redes neuronales artificiales con una capa oculta. [56]
Hay tres clases de esclerosis múltiple: recurrente-remitente (EMRR), primaria progresiva (EMPP) y secundaria progresiva (EMSP). La red reguladora de genes GRN desempeña un papel vital para comprender el mecanismo de la enfermedad en estas tres clases diferentes de esclerosis múltiple. [57]