Una secuencia reguladora es un segmento de una molécula de ácido nucleico que es capaz de aumentar o disminuir la expresión de genes específicos dentro de un organismo. La regulación de la expresión genética es una característica esencial de todos los organismos vivos y virus.
En el ADN , la regulación de la expresión genética normalmente ocurre al nivel de la biosíntesis del ARN ( transcripción ). Se logra mediante la unión específica de secuencia de proteínas ( factores de transcripción ) que activan o inhiben la transcripción. Los factores de transcripción pueden actuar como activadores , represores o ambos. Los represores a menudo actúan impidiendo que la ARN polimerasa forme un complejo productivo con la región de iniciación transcripcional ( promotor ), mientras que los activadores facilitan la formación de un complejo productivo. Además, se ha demostrado que los motivos del ADN predicen modificaciones epigenómicas, lo que sugiere que los factores de transcripción desempeñan un papel en la regulación del epigenoma . [2]
En el ARN , la regulación puede ocurrir a nivel de biosíntesis de proteínas ( traducción ), escisión de ARN, empalme de ARN o terminación transcripcional. Las secuencias reguladoras se asocian frecuentemente con moléculas de ARN mensajero (ARNm), donde se utilizan para controlar la biogénesis o la traducción del ARNm. Una variedad de moléculas biológicas pueden unirse al ARN para lograr esta regulación, incluidas proteínas (p. ej., represores de traducción y factores de empalme), otras moléculas de ARN (p. ej., miARN ) y moléculas pequeñas , en el caso de los riboswitches .
Una secuencia reguladora de ADN no regula a menos que esté activada. Se activan diferentes secuencias reguladoras y luego implementan su regulación mediante diferentes mecanismos.
La expresión de genes en mamíferos puede regularse positivamente cuando se transmiten señales a los promotores asociados con los genes. Las secuencias de ADN reguladoras en cis que se encuentran en regiones de ADN distantes de los promotores de los genes pueden tener efectos muy grandes en la expresión génica, y algunos genes experimentan una expresión aumentada hasta 100 veces debido a dicha secuencia reguladora en cis . [3] Estas secuencias reguladoras cis incluyen potenciadores , silenciadores , aislantes y elementos de sujeción. [4] Entre esta constelación de secuencias, los potenciadores y sus proteínas factores de transcripción asociadas tienen un papel principal en la regulación de la expresión génica. [5]
Los potenciadores son secuencias del genoma que son importantes elementos reguladores de genes. Los potenciadores controlan los programas de expresión génica específicos de cada tipo de célula, con mayor frecuencia recorriendo largas distancias para acercarse físicamente a los promotores de sus genes diana. [6] En un estudio de neuronas corticales del cerebro, se encontraron 24.937 bucles que aportaban potenciadores a los promotores. [3] Múltiples potenciadores, cada uno a menudo a decenas o cientos de miles de nucleótidos distantes de sus genes diana, se enlazan con los promotores de sus genes diana y se coordinan entre sí para controlar la expresión de su gen diana común. [6]
La ilustración esquemática de esta sección muestra un potenciador dando vueltas para acercarse físicamente al promotor de un gen diana. El bucle se estabiliza mediante un dímero de una proteína conectora (por ejemplo, dímero de CTCF o YY1 ), con un miembro del dímero anclado a su motivo de unión en el potenciador y el otro miembro anclado a su motivo de unión en el promotor (representado por el zigzags rojos en la ilustración). [7] Varias proteínas de factores de transcripción específicas de la función celular (en 2018, Lambert et al. indicaron que había alrededor de 1600 factores de transcripción en una célula humana [8] ) generalmente se unen a motivos específicos en un potenciador [9] y una pequeña combinación de estos potenciadores. Los factores de transcripción unidos, cuando se acercan a un promotor mediante un bucle de ADN, gobiernan el nivel de transcripción del gen diana. El mediador (coactivador) (un complejo que generalmente consta de aproximadamente 26 proteínas en una estructura que interactúa) comunica señales reguladoras de los factores de transcripción potenciadores unidos al ADN directamente a la enzima ARN polimerasa II (RNAP II) unida al promotor. [10]
Los potenciadores, cuando están activos, generalmente se transcriben a partir de ambas cadenas de ADN con ARN polimerasas que actúan en dos direcciones diferentes, produciendo dos ARNe como se ilustra en la Figura. [11] Un potenciador inactivo puede estar unido a un factor de transcripción inactivo. La fosforilación del factor de transcripción puede activarlo y ese factor de transcripción activado puede luego activar el potenciador al que está unido (ver la pequeña estrella roja que representa la fosforilación de un factor de transcripción unido a un potenciador en la ilustración). [12] Un potenciador activado comienza la transcripción de su ARN antes de activar un promotor para iniciar la transcripción del ARN mensajero de su gen objetivo. [13]
La 5-metilcitosina (5-mC) es una forma metilada de la base del ADN citosina (ver figura). 5-mC es un marcador epigenético que se encuentra predominantemente en las citosinas dentro de los dinucleótidos CpG, que consisten en una lectura de citosina seguida de una lectura de guanina en la dirección 5' a 3' a lo largo de la cadena de ADN ( sitios CpG ). En el genoma humano se encuentran alrededor de 28 millones de dinucleótidos CpG. [14] En la mayoría de los tejidos de los mamíferos, en promedio, entre el 70% y el 80% de las citosinas CpG están metiladas (formando 5-metil-CpG o 5-mCpG). [15] Las citosinas metiladas dentro de las secuencias CpG a menudo se presentan en grupos, llamados islas CpG . Aproximadamente el 59 % de las secuencias promotoras tienen una isla CpG, mientras que sólo aproximadamente el 6 % de las secuencias potenciadoras tienen una isla CpG. [16] Las islas CpG constituyen secuencias reguladoras, ya que si las islas CpG están metiladas en el promotor de un gen, esto puede reducir o silenciar la expresión génica. [17]
La metilación del ADN regula la expresión génica mediante la interacción con proteínas del dominio de unión a metilo (MBD), como MeCP2, MBD1 y MBD2. Estas proteínas MBD se unen con mayor fuerza a las islas CpG altamente metiladas . [18] Estas proteínas MBD tienen un dominio de unión a metil-CpG y un dominio de represión transcripcional. [18] Se unen al ADN metilado y guían o dirigen complejos proteicos con remodelación de cromatina y/o actividad modificadora de histonas hacia islas CpG metiladas. Las proteínas MBD generalmente reprimen la cromatina local por medios como catalizar la introducción de marcas de histonas represivas o crear un entorno de cromatina represivo general mediante la remodelación de los nucleosomas y la reorganización de la cromatina. [18]
Los factores de transcripción son proteínas que se unen a secuencias de ADN específicas para regular la expresión de un gen determinado. La secuencia de unión de un factor de transcripción en el ADN suele tener una longitud de unos 10 u 11 nucleótidos. Hay aproximadamente 1.400 factores de transcripción diferentes codificados en el genoma humano y constituyen aproximadamente el 6% de todos los genes codificantes de proteínas humanas. [19] Aproximadamente el 94% de los sitios de unión de factores de transcripción que están asociados con genes que responden a señales ocurren en potenciadores, mientras que solo alrededor del 6% de dichos sitios ocurren en promotores. [9]
EGR1 es un factor de transcripción importante para la regulación de la metilación de las islas CpG. Un sitio de unión del factor de transcripción EGR1 se localiza frecuentemente en secuencias potenciadoras o promotoras. [20] Hay alrededor de 12.000 sitios de unión para EGR1 en el genoma de los mamíferos y aproximadamente la mitad de los sitios de unión de EGR1 se encuentran en promotores y la otra mitad en potenciadores. [20] La unión de EGR1 a su sitio de unión al ADN objetivo es insensible a la metilación de la citosina en el ADN. [20]
Si bien solo se detectan pequeñas cantidades de proteína EGR1 en células que no están estimuladas, la traducción de EGR1 en proteína una hora después de la estimulación está notablemente elevada. [21] La expresión de EGR1 en varios tipos de células puede ser estimulada por factores de crecimiento, neurotransmisores, hormonas, estrés y lesiones. [21] En el cerebro, cuando las neuronas se activan, las proteínas EGR1 se regulan positivamente y se unen (reclutan) enzimas TET1 preexistentes, que se expresan altamente en las neuronas. Las enzimas TET pueden catalizar la desmetilación de 5-metilcitosina. Cuando los factores de transcripción EGR1 llevan las enzimas TET1 a los sitios de unión de EGR1 en los promotores, las enzimas TET pueden desmetilar las islas CpG metiladas en esos promotores. Tras la desmetilación, estos promotores pueden iniciar la transcripción de sus genes diana. Cientos de genes en las neuronas se expresan diferencialmente después de la activación neuronal mediante el reclutamiento de TET1 por parte de EGR1 en secuencias reguladoras metiladas en sus promotores. [20]
Aproximadamente 600 secuencias reguladoras en promotores y aproximadamente 800 secuencias reguladoras en potenciadores parecen depender de roturas de doble hebra iniciadas por la topoisomerasa 2β (TOP2B) para su activación. [22] [23] La inducción de determinadas roturas de doble cadena es específica con respecto a la señal inductora. Cuando las neuronas se activan in vitro , en sus genomas sólo se producen 22 roturas de doble cadena inducidas por TOP2B. [24] Sin embargo, cuando el condicionamiento del miedo contextual se lleva a cabo en un ratón, este condicionamiento provoca cientos de DSB asociados a genes en la corteza prefrontal medial y el hipocampo, que son importantes para el aprendizaje y la memoria. [25]
Estas roturas de doble cadena inducidas por TOP2B van acompañadas de al menos cuatro enzimas de la vía de reparación del ADN de unión de extremos no homólogos (NHEJ) (ADN-PKcs, KU70, KU80 y ADN LIGASE IV) (ver figura). Estas enzimas reparan las roturas de la doble cadena en aproximadamente 15 minutos a 2 horas. [24] [26] Las roturas de doble cadena en el promotor están asociadas con TOP2B y al menos con estas cuatro enzimas reparadoras. Estas proteínas están presentes simultáneamente en un único nucleosoma promotor (hay alrededor de 147 nucleótidos en la secuencia de ADN enrollados alrededor de un único nucleosoma) ubicado cerca del sitio de inicio de la transcripción de su gen objetivo. [26]
La rotura de doble hebra introducida por TOP2B aparentemente libera la parte del promotor en un sitio de inicio de la transcripción unido a la ARN polimerasa para moverse físicamente a su potenciador asociado. Esto permite que el potenciador, con sus factores de transcripción unidos y proteínas mediadoras, interactúe directamente con la ARN polimerasa que se había detenido en el sitio de inicio de la transcripción para iniciar la transcripción. [24] [10]
De manera similar, las enzimas topoisomerasa I (TOP1) parecen estar ubicadas en muchos potenciadores, y esos potenciadores se activan cuando TOP1 introduce una rotura monocatenaria. [27] TOP1 provoca roturas de una sola cadena en secuencias reguladoras de ADN potenciadoras particulares cuando son señalizadas por un factor de transcripción de unión a potenciador específico. [27] Las roturas de la topoisomerasa I se asocian con factores de reparación del ADN diferentes a los que rodean las roturas TOP2B. En el caso de TOP1, las roturas se asocian más inmediatamente con las enzimas reparadoras del ADN MRE11 , RAD50 y ATR . [27]
Los genomas se pueden analizar sistemáticamente para identificar regiones reguladoras. [28] Las secuencias no codificantes conservadas a menudo contienen regiones reguladoras, por lo que suelen ser el tema de estos análisis.
Las secuencias reguladoras del gen de la insulina son: [29]