La expresión génica es el proceso por el cual la información de un gen se utiliza en la síntesis de un producto génico funcional que le permite producir productos finales, proteínas o ARN no codificante , y en última instancia afectar un fenotipo . Estos productos son a menudo proteínas , pero en los genes no codificantes de proteínas, como el ARN de transferencia (ARNt) y el ARN nuclear pequeño (ARNpn) , el producto es un ARN no codificante funcional . El proceso de expresión génica es utilizado por todos los seres vivos conocidos: eucariotas (incluidos los organismos multicelulares ), procariotas ( bacterias y arqueas ) y utilizado por los virus , para generar la maquinaria macromolecular para la vida.
En genética , la expresión génica es el nivel más fundamental en el que el genotipo da lugar al fenotipo , es decir , al rasgo observable. La información genética almacenada en el ADN representa el genotipo, mientras que el fenotipo resulta de la "interpretación" de esa información. Dichos fenotipos suelen manifestarse mediante la síntesis de proteínas que controlan la estructura y el desarrollo del organismo, o que actúan como enzimas que catalizan vías metabólicas específicas.
Todos los pasos del proceso de expresión génica pueden ser modulados (regulados), incluyendo la transcripción , el empalme del ARN , la traducción y la modificación postraduccional de una proteína. La regulación de la expresión génica permite controlar el momento, la ubicación y la cantidad de un producto génico determinado (proteína o ARNnc) presente en una célula y puede tener un efecto profundo en la estructura y función celular. La regulación de la expresión génica es la base de la diferenciación celular , el desarrollo , la morfogénesis y la versatilidad y adaptabilidad de cualquier organismo . Por lo tanto, la regulación génica puede servir como sustrato para el cambio evolutivo.
La producción de una copia de ARN a partir de una cadena de ADN se denomina transcripción y la realizan las ARN polimerasas , que añaden un ribonucleótido a la vez a una cadena de ARN en crecimiento según la ley de complementariedad de las bases de los nucleótidos. Este ARN es complementario a la cadena de ADN molde 3′ → 5′, [1] con la excepción de que las timinas (T) se reemplazan por uracilos (U) en el ARN y hay posibles errores.
En las bacterias, la transcripción la lleva a cabo un único tipo de ARN polimerasa, que necesita unirse a una secuencia de ADN llamada caja Pribnow con la ayuda de la proteína del factor sigma (factor σ) para iniciar la transcripción. En los eucariotas, la transcripción se realiza en el núcleo por tres tipos de ARN polimerasas, cada una de las cuales necesita una secuencia de ADN especial llamada promotor y un conjunto de proteínas de unión al ADN ( factores de transcripción ) para iniciar el proceso (véase la regulación de la transcripción a continuación). La ARN polimerasa I es responsable de la transcripción de los genes del ARN ribosómico (ARNr). La ARN polimerasa II (Pol II) transcribe todos los genes codificantes de proteínas, pero también algunos ARN no codificantes ( p. ej ., ARNsn, ARNsno o ARN largos no codificantes ). La ARN polimerasa III transcribe ARNr 5S , genes de ARN de transferencia (ARNt) y algunos ARN pequeños no codificantes ( p. ej. , 7SK ). La transcripción termina cuando la polimerasa encuentra una secuencia llamada terminador .
Mientras que la transcripción de genes codificadores de proteínas procariotas crea ARN mensajero (ARNm) que está listo para ser traducido a proteína, la transcripción de genes eucariotas deja una transcripción primaria de ARN (pre-ARN), que primero tiene que sufrir una serie de modificaciones para convertirse en un ARN maduro. Los tipos y pasos involucrados en los procesos de maduración varían entre preARN codificantes y no codificantes; es decir, aunque las moléculas de preARN tanto para ARNm como para ARNt sufren empalme, los pasos y la maquinaria involucrados son diferentes. [2] El procesamiento del ARN no codificante se describe a continuación (maduración del ARN no codificante).
El procesamiento del pre-ARNm incluye el recubrimiento 5' , que es un conjunto de reacciones enzimáticas que agregan 7-metilguanosina (m 7 G) al extremo 5' del pre-ARNm y, por lo tanto, protegen al ARN de la degradación por exonucleasas . [3] Luego, el recubrimiento m 7 G se une mediante el complejo de unión al recubrimiento heterodímero (CBC20/CBC80), que ayuda en la exportación del ARNm al citoplasma y también protege al ARN del desprotegido . [4]
Otra modificación es la escisión 3' y la poliadenilación . [5] Se producen si la secuencia señal de poliadenilación (5'- AAUAAA-3') está presente en el pre-ARNm, que generalmente está entre la secuencia codificante de la proteína y el terminador. [6] El pre-ARNm se escinde primero y luego se agregan una serie de ~200 adeninas (A) para formar la cola de poli(A), que protege al ARN de la degradación. [7] La cola de poli(A) está unida por múltiples proteínas de unión a poli(A) (PABP) necesarias para la exportación del ARNm y la reiniciación de la traducción. [8] En el proceso inverso de la deadenilación, las colas de poli(A) son acortadas por la exonucleasa CCR4-Not 3'-5', lo que a menudo conduce a la descomposición completa de la transcripción. [9]
Una modificación muy importante del pre-ARNm eucariota es el empalme del ARN . La mayoría de los pre-ARNm eucariotas consisten en segmentos alternados llamados exones e intrones . [10] Durante el proceso de empalme, un complejo catalítico ARN-proteína conocido como espliceosoma cataliza dos reacciones de transesterificación , que eliminan un intrón y lo liberan en forma de estructura de lazo, y luego empalman los exones vecinos. [11] En ciertos casos, algunos intrones o exones pueden eliminarse o retenerse en el ARNm maduro. [12] Este llamado empalme alternativo crea una serie de transcripciones diferentes que se originan a partir de un solo gen. Debido a que estas transcripciones pueden traducirse potencialmente en diferentes proteínas, el empalme extiende la complejidad de la expresión génica eucariota y el tamaño del proteoma de una especie . [13]
El procesamiento extensivo del ARN puede ser una ventaja evolutiva que ha sido posible gracias al núcleo de los eucariotas. En los procariotas, la transcripción y la traducción se producen juntas, mientras que en los eucariotas, la membrana nuclear separa los dos procesos, lo que da tiempo para que se produzca el procesamiento del ARN. [14]
En la mayoría de los organismos, los genes no codificantes (ARNnc) se transcriben como precursores que sufren un procesamiento posterior. En el caso de los ARN ribosómicos (ARNr), a menudo se transcriben como un pre-ARNr que contiene uno o más ARNr. El pre-ARNr se escinde y modifica ( 2'- O -metilación y formación de pseudouridina ) en sitios específicos por aproximadamente 150 especies diferentes de ARN pequeño restringido al nucléolo, llamadas ARNsno. Los ARNsno se asocian con proteínas, formando snoRNP. Mientras que la parte del ARNsno se aparea con el ARN objetivo y, por lo tanto, coloca la modificación en un sitio preciso, la parte proteica realiza la reacción catalítica. En eucariotas, en particular una snoRNP llamada ARNasa, MRP escinde el pre-ARNr 45S en los ARNr 28S , 5.8S y 18S . Los factores de procesamiento del ARNr y del ARN forman grandes agregados llamados nucléolo . [15]
En el caso del ARN de transferencia (ARNt), por ejemplo, la secuencia 5′ es eliminada por la ARNasa P [ 16], mientras que el extremo 3′ es eliminado por la enzima ARNt Z [17] y la cola CCA 3′ no moldeada es añadida por una nucleotidil transferasa [18] . En el caso del micro ARN (miARN) , los miARN se transcriben primero como transcripciones primarias o pri-miARN con una tapa y una cola de poli-A y se procesan en estructuras cortas de tallo-bucle de 70 nucleótidos conocidas como pre-miARN en el núcleo celular por las enzimas Drosha y Pasha . Después de ser exportado, se procesa para madurar miARN en el citoplasma mediante la interacción con la endonucleasa Dicer , que también inicia la formación del complejo de silenciamiento inducido por ARN (RISC) , compuesto por la proteína Argonaute .
Incluso los snRNA y snoRNA sufren una serie de modificaciones antes de convertirse en parte del complejo RNP funcional. [19] Esto se hace ya sea en el nucleoplasma o en los compartimentos especializados llamados cuerpos de Cajal . [20] Sus bases son metiladas o pseudouridiniladas por un grupo de pequeños ARN específicos del cuerpo de Cajal (scaRNA) , que son estructuralmente similares a los snoRNA. [21]
En los eucariotas, la mayor parte del ARN maduro debe exportarse al citoplasma desde el núcleo . Si bien algunos ARN funcionan en el núcleo, muchos ARN se transportan a través de los poros nucleares y hacia el citosol . [22] La exportación de ARN requiere la asociación con proteínas específicas conocidas como exportinas. Las moléculas de exportina específicas son responsables de la exportación de un tipo de ARN determinado. El transporte de ARNm también requiere la asociación correcta con el complejo de unión de exones (EJC), que garantiza que se complete el procesamiento correcto del ARNm antes de la exportación. En algunos casos, los ARN se transportan adicionalmente a una parte específica del citoplasma, como una sinapsis ; luego son remolcados por proteínas motoras que se unen a través de proteínas de enlace a secuencias específicas (llamadas "códigos postales") en el ARN. [23]
Para algunos ARN no codificantes, el ARN maduro es el producto génico final. [24] En el caso del ARN mensajero (ARNm), el ARN es un portador de información que codifica la síntesis de una o más proteínas. El ARNm que lleva una única secuencia de proteína (común en eucariotas) es monocistrónico , mientras que el ARNm que lleva múltiples secuencias de proteínas (común en procariotas) se conoce como policistrónico .
Cada ARNm consta de tres partes: una región no traducida 5' (5'UTR), una región codificante de proteínas o marco de lectura abierto (ORF) y una región no traducida 3' (3'UTR). La región codificante lleva información para la síntesis de proteínas codificada por el código genético para formar tripletes. Cada triplete de nucleótidos de la región codificante se llama codón y corresponde a un sitio de unión complementario a un triplete anticodón en el ARN de transferencia. Los ARN de transferencia con la misma secuencia anticodón siempre llevan un tipo idéntico de aminoácido . Luego, los aminoácidos se encadenan entre sí por el ribosoma de acuerdo con el orden de tripletes en la región codificante. El ribosoma ayuda al ARN de transferencia a unirse al ARN mensajero y toma el aminoácido de cada ARN de transferencia y crea una proteína sin estructura a partir de él. [25] [26] Cada molécula de ARNm se traduce en muchas moléculas de proteína, en promedio ~2800 en mamíferos. [27] [28]
En los procariotas, la traducción generalmente ocurre en el punto de transcripción (cotranscripcionalmente), a menudo utilizando un ARN mensajero que todavía está en proceso de creación. En los eucariotas, la traducción puede ocurrir en una variedad de regiones de la célula dependiendo de dónde se supone que está la proteína que se está escribiendo. Las ubicaciones principales son el citoplasma para las proteínas citoplasmáticas solubles y la membrana del retículo endoplasmático para las proteínas que se exportan desde la célula o se insertan en una membrana celular . Las proteínas que se supone que se producen en el retículo endoplasmático se reconocen a mitad del proceso de traducción. Esto está gobernado por la partícula de reconocimiento de señales , una proteína que se une al ribosoma y lo dirige al retículo endoplasmático cuando encuentra un péptido señal en la cadena de aminoácidos en crecimiento (nasciente). [29]
Cada proteína existe como un polipéptido desplegado o una espiral aleatoria cuando se traduce de una secuencia de ARNm a una cadena lineal de aminoácidos . Este polipéptido carece de cualquier estructura tridimensional desarrollada (el lado izquierdo de la figura vecina). El polipéptido luego se pliega en su estructura tridimensional característica y funcional a partir de una espiral aleatoria . [30] Los aminoácidos interactúan entre sí para producir una estructura tridimensional bien definida, la proteína plegada (el lado derecho de la figura) conocida como el estado nativo . La estructura tridimensional resultante está determinada por la secuencia de aminoácidos ( dogma de Anfinsen ). [31]
La estructura tridimensional correcta es esencial para el funcionamiento, aunque algunas partes de las proteínas funcionales pueden permanecer sin plegar . [32] La falta de plegamiento en la forma deseada generalmente produce proteínas inactivas con diferentes propiedades, incluidos priones tóxicos . Se cree que varias enfermedades neurodegenerativas y de otro tipo son resultado de la acumulación de proteínas mal plegadas . [33] Muchas alergias son causadas por el plegamiento de las proteínas, ya que el sistema inmunológico no produce anticuerpos para ciertas estructuras proteínicas. [34]
Las enzimas llamadas chaperonas ayudan a la proteína recién formada a alcanzar ( plegarse ) la estructura tridimensional que necesita para funcionar. [35] De manera similar, las chaperonas de ARN ayudan a los ARN a alcanzar sus formas funcionales. [36] Ayudar al plegamiento de proteínas es una de las principales funciones del retículo endoplásmico en los eucariotas.
Las proteínas secretoras de eucariotas o procariotas deben ser translocadas para entrar en la vía secretora. Las proteínas recién sintetizadas son dirigidas al canal de translocación Sec61 eucariota o SecYEG procariota por péptidos señal . La eficiencia de la secreción de proteínas en eucariotas depende en gran medida del péptido señal que se haya utilizado. [37]
Muchas proteínas están destinadas a otras partes de la célula que no sean el citosol y se utiliza una amplia gama de secuencias de señalización (o péptidos señal) para dirigir las proteínas a donde se supone que deben estar. [38] [39] En los procariotas, este es normalmente un proceso simple debido a la compartimentación limitada de la célula. [40] Sin embargo, en los eucariotas hay una gran variedad de procesos de orientación diferentes para garantizar que la proteína llegue al orgánulo correcto. [41]
No todas las proteínas permanecen dentro de la célula y muchas se exportan, por ejemplo, las enzimas digestivas , las hormonas y las proteínas de la matriz extracelular . En los eucariotas la vía de exportación está bien desarrollada y el principal mecanismo para la exportación de estas proteínas es la translocación al retículo endoplasmático, seguida del transporte a través del aparato de Golgi . [42] [43]
La regulación de la expresión génica es el control de la cantidad y el momento de aparición del producto funcional de un gen. El control de la expresión es vital para permitir que una célula produzca los productos génicos que necesita cuando los necesita; a su vez, esto le da a las células la flexibilidad para adaptarse a un entorno variable, señales externas, daños a la célula y otros estímulos. En términos más generales, la regulación génica le da a la célula el control sobre toda la estructura y función, y es la base de la diferenciación celular , la morfogénesis y la versatilidad y adaptabilidad de cualquier organismo.
Se utilizan numerosos términos para describir los tipos de genes dependiendo de cómo se regulan; estos incluyen:
Cualquier paso de la expresión génica puede ser modulado, desde el paso de transcripción ADN-ARN hasta la modificación postraduccional de una proteína. La estabilidad del producto génico final, ya sea ARN o proteína, también contribuye al nivel de expresión del gen: un producto inestable da como resultado un nivel de expresión bajo. En general, la expresión génica se regula a través de cambios [44] en el número y tipo de interacciones entre moléculas [45] que influyen colectivamente en la transcripción del ADN [46] y la traducción del ARN. [47]
Algunos ejemplos sencillos de dónde es importante la expresión genética son:
La regulación de la transcripción se puede dividir en tres vías principales de influencia: genética (interacción directa de un factor de control con el gen), interacción de modulación de un factor de control con la maquinaria de transcripción y epigenética (cambios no secuenciales en la estructura del ADN que influyen en la transcripción). [48] [49]
La interacción directa con el ADN es el método más simple y directo por el cual una proteína cambia los niveles de transcripción. [50] Los genes a menudo tienen varios sitios de unión de proteínas alrededor de la región codificante con la función específica de regular la transcripción. [51] Hay muchas clases de sitios de unión de ADN reguladores conocidos como potenciadores , aislantes y silenciadores . [52] Los mecanismos para regular la transcripción son variados, desde bloquear sitios de unión clave en el ADN para la ARN polimerasa hasta actuar como activador y promover la transcripción al ayudar a la unión de la ARN polimerasa. [53]
La actividad de los factores de transcripción se modula aún más mediante señales intracelulares que provocan modificaciones postraduccionales de las proteínas, como la fosforilación , la acetilación o la glicosilación . [54] Estos cambios influyen en la capacidad de un factor de transcripción para unirse, directa o indirectamente, al ADN promotor, para reclutar a la ARN polimerasa o para favorecer la elongación de una molécula de ARN recién sintetizada. [55]
La membrana nuclear en eucariotas permite una mayor regulación de los factores de transcripción por la duración de su presencia en el núcleo, que está regulada por cambios reversibles en su estructura y por la unión de otras proteínas. [56] Los estímulos ambientales o señales endocrinas [57] pueden causar la modificación de las proteínas reguladoras [58] provocando cascadas de señales intracelulares [59] , que resultan en la regulación de la expresión genética.
Se ha hecho evidente que existe una influencia significativa de los efectos no específicos de la secuencia de ADN sobre la transcripción. [60] Estos efectos se denominan epigenéticos e involucran la estructura de orden superior del ADN, las proteínas de unión al ADN no específicas de la secuencia y la modificación química del ADN. [61] En general, los efectos epigenéticos alteran la accesibilidad del ADN a las proteínas y, por lo tanto, modulan la transcripción. [62]
En los eucariotas, la estructura de la cromatina , controlada por el código de las histonas , regula el acceso al ADN con impactos significativos en la expresión de genes en las áreas de eucromatina y heterocromatina . [63]
La expresión génica en los mamíferos está regulada por muchos elementos cis-reguladores , incluidos los promotores centrales y los elementos proximales al promotor que se encuentran cerca de los sitios de inicio de la transcripción de los genes, aguas arriba en el ADN (hacia la región 5' de la cadena sentido ). Otros módulos cis-reguladores importantes se localizan en regiones del ADN que están distantes de los sitios de inicio de la transcripción. Estos incluyen potenciadores , silenciadores , aisladores y elementos de anclaje. [64] Los potenciadores y sus factores de transcripción asociados tienen un papel principal en la regulación de la expresión génica. [65]
Los potenciadores son regiones del genoma que regulan los genes. Los potenciadores controlan los programas de expresión génica específicos de cada tipo de célula, generalmente recorriendo largas distancias para acercarse físicamente a los promotores de sus genes objetivo. [66] Múltiples potenciadores, cada uno a menudo a decenas o cientos de miles de nucleótidos de distancia de sus genes objetivo, se unen a los promotores de sus genes objetivo y se coordinan entre sí para controlar la expresión génica. [66]
La ilustración muestra un potenciador que da una vuelta para acercarse al promotor de un gen diana. El bucle está estabilizado por un dímero de una proteína conectora (por ejemplo, el dímero de CTCF o YY1 ). Un miembro del dímero está anclado a su motivo de unión en el potenciador y el otro miembro está anclado a su motivo de unión en el promotor (representado por los zigzags rojos en la ilustración). [67] Varios factores de transcripción específicos de la función celular (entre los aproximadamente 1.600 factores de transcripción en una célula humana) [68] generalmente se unen a motivos específicos en un potenciador. [69] Una pequeña combinación de estos factores de transcripción unidos al potenciador, cuando se acerca a un promotor por un bucle de ADN, gobierna el nivel de transcripción del gen diana. El mediador (un complejo que generalmente consta de aproximadamente 26 proteínas en una estructura interactuante) comunica señales reguladoras de los factores de transcripción unidos al ADN del potenciador directamente a la enzima ARN polimerasa II (pol II) unida al promotor. [70]
Los potenciadores, cuando están activos, generalmente se transcriben a partir de ambas cadenas de ADN con ARN polimerasas que actúan en dos direcciones diferentes, produciendo dos eARN como se ilustra en la figura. [71] Un potenciador inactivo puede estar unido a un factor de transcripción inactivo. La fosforilación del factor de transcripción puede activarlo y ese factor de transcripción activado puede entonces activar el potenciador al que está unido (ver la pequeña estrella roja que representa la fosforilación del factor de transcripción unido al potenciador en la ilustración). [72] Un potenciador activado comienza la transcripción de su ARN antes de activar la transcripción del ARN mensajero de su gen objetivo. [73]
La metilación del ADN es un mecanismo generalizado de influencia epigenética en la expresión génica, que se observa en bacterias y eucariotas y tiene funciones en el silenciamiento hereditario de la transcripción y la regulación de la transcripción. La metilación ocurre con mayor frecuencia en una citosina (ver Figura). La metilación de la citosina ocurre principalmente en secuencias de dinucleótidos donde una citosina es seguida por una guanina, un sitio CpG . El número de sitios CpG en el genoma humano es de aproximadamente 28 millones. [74] Dependiendo del tipo de célula, aproximadamente el 70% de los sitios CpG tienen una citosina metilada. [75]
La metilación de la citosina en el ADN tiene un papel importante en la regulación de la expresión génica. La metilación de los CpG en una región promotora de un gen suele reprimir la transcripción génica [76], mientras que la metilación de los CpG en el cuerpo de un gen aumenta la expresión. [77] Las enzimas TET desempeñan un papel central en la desmetilación de las citosinas metiladas. La desmetilación de los CpG en un promotor génico por la actividad de la enzima TET aumenta la transcripción del gen. [78]
En una rata, el condicionamiento contextual del miedo (CFC) es una experiencia de aprendizaje dolorosa. Un solo episodio de CFC puede dar lugar a un recuerdo de miedo que dure toda la vida. [79] Después de un episodio de CFC, la metilación de la citosina se altera en las regiones promotoras de aproximadamente el 9,17 % de todos los genes en el ADN de las neuronas del hipocampo de una rata. [80] El hipocampo es donde se almacenan inicialmente los nuevos recuerdos. Después del CFC, alrededor de 500 genes han aumentado la transcripción (a menudo debido a la desmetilación de los sitios CpG en una región promotora) y alrededor de 1000 genes han disminuido la transcripción (a menudo debido a la 5-metilcitosina recién formada en los sitios CpG en una región promotora). El patrón de genes inducidos y reprimidos dentro de las neuronas parece proporcionar una base molecular para la formación de la primera memoria transitoria de este evento de entrenamiento en el hipocampo del cerebro de la rata. [80]
Se han establecido algunos mecanismos específicos que guían nuevas metilaciones de ADN y nuevas desmetilaciones de ADN en el hipocampo durante el establecimiento de la memoria (ver [81] para el resumen). Un mecanismo incluye guiar la isoforma corta de la enzima de desmetilación de ADN TET1 , TET1s, a aproximadamente 600 ubicaciones en el genoma. La guía se realiza mediante la asociación de TET1s con la proteína EGR1 , un factor de transcripción importante en la formación de la memoria. Llevar TET1s a estas ubicaciones inicia la desmetilación de ADN en esos sitios, regulando al alza los genes asociados. Un segundo mecanismo involucra a DNMT3A2, una isoforma de empalme de la ADN metiltransferasa DNMT3A, que agrega grupos metilo a las citosinas en el ADN. Esta isoforma es inducida por la actividad sináptica, y su ubicación de acción parece estar determinada por modificaciones postraduccionales de histonas (un código de histonas ). Los nuevos ARN mensajeros resultantes son luego transportados por partículas RNP mensajeras (gránulos neuronales) a las sinapsis de las neuronas, donde pueden traducirse en proteínas que afectan las actividades de las sinapsis. [81]
En particular, el gen del factor neurotrófico derivado del cerebro ( BDNF ) se conoce como un "gen del aprendizaje". [82] Después del CFC hubo una regulación positiva de la expresión del gen BDNF , relacionada con la disminución de la metilación de CpG de ciertos promotores internos del gen, y esto se correlacionó con el aprendizaje. [82]
La mayoría de los promotores de genes contienen una isla CpG con numerosos sitios CpG . [83] Cuando muchos de los sitios CpG del promotor de un gen están metilados, el gen se silencia. [84] Los cánceres colorrectales suelen tener de 3 a 6 mutaciones impulsoras y de 33 a 66 mutaciones autoestopistas o pasajeras. [85] Sin embargo, el silenciamiento transcripcional puede ser de mayor importancia que la mutación a la hora de provocar la progresión al cáncer. Por ejemplo, en los cánceres colorrectales, entre 600 y 800 genes se silencian transcripcionalmente por la metilación de la isla CpG (véase regulación de la transcripción en el cáncer ). La represión transcripcional en el cáncer también puede producirse por otros mecanismos epigenéticos , como la expresión alterada de microARN . [86] En el cáncer de mama, la represión transcripcional de BRCA1 puede producirse con mayor frecuencia por la sobretranscripción del microARN-182 que por la hipermetilación del promotor BRCA1 (véase Baja expresión de BRCA1 en cánceres de mama y de ovario ).
En los eucariotas, donde se requiere la exportación de ARN antes de que sea posible la traducción, se cree que la exportación nuclear proporciona un control adicional sobre la expresión génica. Todo el transporte hacia dentro y hacia fuera del núcleo se realiza a través del poro nuclear y el transporte está controlado por una amplia gama de proteínas importinas y exportinas . [87]
La expresión de un gen que codifica una proteína solo es posible si el ARN mensajero que lleva el código sobrevive lo suficiente para ser traducido. [41] En una célula típica, una molécula de ARN solo es estable si se la protege específicamente de la degradación. [88] La degradación del ARN tiene particular importancia en la regulación de la expresión en células eucariotas donde el ARNm tiene que viajar distancias significativas antes de ser traducido. [89] En eucariotas, el ARN se estabiliza mediante ciertas modificaciones postranscripcionales, en particular la tapa 5' y la cola poliadenilada . [90]
La degradación intencional del ARNm se utiliza no solo como un mecanismo de defensa contra el ARN extraño (normalmente de virus), sino también como una vía de desestabilización del ARNm . [91] Si una molécula de ARNm tiene una secuencia complementaria a un ARN interferente pequeño , entonces se la selecciona para su destrucción a través de la vía de interferencia del ARN . [92]
Las tres regiones no traducidas principales (3′UTR) de los ARN mensajeros (ARNm) suelen contener secuencias reguladoras que influyen postranscripcionalmente en la expresión génica. Estas 3′-UTR suelen contener tanto sitios de unión para microARN (miARN) como para proteínas reguladoras. [93] Al unirse a sitios específicos dentro de la 3′-UTR, los miARN pueden disminuir la expresión génica de varios ARNm ya sea inhibiendo la traducción o causando directamente la degradación de la transcripción. [94] La 3′-UTR también puede tener regiones silenciadoras que se unen a proteínas represoras que inhiben la expresión de un ARNm. [95]
El 3′-UTR a menudo contiene elementos de respuesta a microARN (MRE) . Los MRE son secuencias a las que se unen los microARN. Estos son motivos predominantes dentro de los 3′-UTR. Entre todos los motivos reguladores dentro de los 3′-UTR (por ejemplo, incluidas las regiones silenciadoras), los MRE constituyen aproximadamente la mitad de los motivos. [96]
En 2014, el sitio web miRBase , [97] un archivo de secuencias y anotaciones de miRNA , enumeraba 28.645 entradas en 233 especies biológicas. De estas, 1.881 miRNA se encontraban en loci de miRNA humanos anotados. Se predijo que los miRNA tendrían un promedio de alrededor de cuatrocientos ARNm diana (que afectan la expresión de varios cientos de genes). [98] Friedman et al. [98] estiman que >45.000 sitios diana de miRNA dentro de los 3′UTR de ARNm humano se conservan por encima de los niveles de fondo, y >60% de los genes codificadores de proteínas humanas han estado bajo presión selectiva para mantener el emparejamiento con miRNA.
Experimentos directos muestran que un único miRNA puede reducir la estabilidad de cientos de ARNm únicos. [99] Otros experimentos muestran que un único miRNA puede reprimir la producción de cientos de proteínas, pero que esta represión a menudo es relativamente leve (menos del doble). [100] [101]
Los efectos de la desregulación de la expresión genética por parte de los microARN parecen ser importantes en el cáncer. [102] Por ejemplo, en los cánceres gastrointestinales, se han identificado nueve microARN alterados epigenéticamente y eficaces para regular negativamente las enzimas de reparación del ADN. [103]
Los efectos de la desregulación de la expresión genética por parte de los miRNA también parecen ser importantes en trastornos neuropsiquiátricos, como la esquizofrenia, el trastorno bipolar, la depresión mayor, la enfermedad de Parkinson, la enfermedad de Alzheimer y los trastornos del espectro autista. [104] [105]
La regulación directa de la traducción es menos frecuente que el control de la transcripción o la estabilidad del ARNm, pero se utiliza ocasionalmente. [106] La inhibición de la traducción de proteínas es un objetivo principal de las toxinas y los antibióticos , por lo que pueden matar una célula anulando su control normal de la expresión genética. [107] Los inhibidores de la síntesis de proteínas incluyen el antibiótico neomicina y la toxina ricina . [108]
Las modificaciones postraduccionales (PTM) son modificaciones covalentes de las proteínas. Al igual que el empalme del ARN, ayudan a diversificar significativamente el proteoma. Estas modificaciones suelen estar catalizadas por enzimas. Además, procesos como las adiciones covalentes a los residuos de la cadena lateral de aminoácidos a menudo pueden revertirse mediante otras enzimas. Sin embargo, algunos, como la escisión proteolítica de la estructura principal de la proteína, son irreversibles. [109]
Las PTM desempeñan muchas funciones importantes en la célula. [110] Por ejemplo, la fosforilación está principalmente implicada en la activación y desactivación de proteínas y en las vías de señalización. [111] Las PTM están implicadas en la regulación transcripcional: una función importante de la acetilación y la metilación es la modificación de la cola de las histonas, que altera la accesibilidad del ADN para la transcripción. [109] También se pueden ver en el sistema inmunológico, donde la glicosilación juega un papel clave. [112] Un tipo de PTM puede iniciar otro tipo de PTM, como se puede ver en cómo la ubiquitinación marca las proteínas para su degradación a través de la proteólisis. [109] La proteólisis, además de estar implicada en la descomposición de las proteínas, también es importante para activarlas y desactivarlas, y para regular procesos biológicos como la transcripción del ADN y la muerte celular. [113]
La medición de la expresión genética es una parte importante de muchas ciencias biológicas , ya que la capacidad de cuantificar el nivel en el que se expresa un gen en particular dentro de una célula, tejido u organismo puede proporcionar mucha información valiosa. Por ejemplo, la medición de la expresión genética puede:
De manera similar, el análisis de la localización de la expresión de proteínas es una herramienta poderosa, y esto puede hacerse a escala de organismo o celular. La investigación de la localización es particularmente importante para el estudio del desarrollo en organismos multicelulares y como indicador de la función de las proteínas en células individuales. Lo ideal es que la medición de la expresión se realice detectando el producto génico final (para muchos genes, este es la proteína); sin embargo, a menudo es más fácil detectar uno de los precursores, típicamente el ARNm , e inferir los niveles de expresión génica a partir de estas mediciones.
Los niveles de ARNm se pueden medir cuantitativamente mediante transferencia Northern , que proporciona información sobre el tamaño y la secuencia de las moléculas de ARNm. [114] Una muestra de ARN se separa en un gel de agarosa y se hibrida con una sonda de ARN marcada radiactivamente que es complementaria a la secuencia diana. [115] Luego, el ARN radiomarcado se detecta mediante una autorradiografía . [116] Debido a que el uso de reactivos radiactivos hace que el procedimiento requiera mucho tiempo y sea potencialmente peligroso, se han desarrollado métodos alternativos de etiquetado y detección, como las químicas de digoxigenina y biotina. [117] Las desventajas percibidas de la transferencia Northern son que se requieren grandes cantidades de ARN y que la cuantificación puede no ser completamente precisa, ya que implica medir la fuerza de la banda en una imagen de un gel. [118] Por otro lado, la información adicional del tamaño del ARNm de la transferencia Northern permite la discriminación de transcripciones empalmadas alternativamente. [119] [120]
Otro método para medir la abundancia de ARNm es la RT-qPCR. En esta técnica, la transcripción inversa es seguida por la PCR cuantitativa . La transcripción inversa genera primero una plantilla de ADN a partir del ARNm; esta plantilla monocatenaria se llama ADNc . La plantilla de ADNc se amplifica luego en el paso cuantitativo, durante el cual la fluorescencia emitida por las sondas de hibridación marcadas o los colorantes intercalantes cambia a medida que avanza el proceso de amplificación del ADN . [121] Con una curva estándar cuidadosamente construida, la qPCR puede producir una medición absoluta del número de copias del ARNm original, típicamente en unidades de copias por nanolitro de tejido homogeneizado o copias por célula. [122] La qPCR es muy sensible (la detección de una sola molécula de ARNm es teóricamente posible), pero puede ser costosa dependiendo del tipo de reportero utilizado; las sondas de oligonucleótidos marcadas con fluorescencia son más caras que los colorantes fluorescentes intercalantes no específicos. [123]
Para el perfil de expresión , o análisis de alto rendimiento de muchos genes dentro de una muestra, se puede realizar PCR cuantitativa para cientos de genes simultáneamente en el caso de matrices de baja densidad. [124] Un segundo enfoque es la micromatriz de hibridación . Una única matriz o "chip" puede contener sondas para determinar los niveles de transcripción para cada gen conocido en el genoma de uno o más organismos. [125] Alternativamente, se pueden utilizar tecnologías "basadas en etiquetas" como el análisis en serie de la expresión génica (SAGE) y RNA-Seq , que pueden proporcionar una medida relativa de la concentración celular de diferentes ARNm. [126] Una ventaja de los métodos basados en etiquetas es la "arquitectura abierta", que permite la medición exacta de cualquier transcripción, con una secuencia conocida o desconocida. [127] La secuenciación de próxima generación (NGS), como RNA-Seq , es otro enfoque, que produce grandes cantidades de datos de secuencia que se pueden hacer coincidir con un genoma de referencia. Aunque la NGS es comparativamente costosa, consume mucho tiempo y recursos, puede identificar polimorfismos de un solo nucleótido , variantes de empalme y genes nuevos, y también se puede utilizar para perfilar la expresión en organismos para los que hay poca o ninguna información de secuencia disponible. [128]
Perfiles como estos se encuentran para casi todas las proteínas que aparecen en Wikipedia. Son generados por organizaciones como el Instituto de Genómica de la Fundación de Investigación Novartis y el Instituto Europeo de Bioinformática . Se puede encontrar información adicional buscando en sus bases de datos (para ver un ejemplo del transportador GLUT4 que se muestra aquí, consulte la cita). [129] Estos perfiles indican el nivel de expresión de ADN (y, por lo tanto, de ARN producido) de una determinada proteína en un determinado tejido, y están codificados por colores en las imágenes ubicadas en el Recuadro de Proteínas en el lado derecho de cada página de Wikipedia.
En el caso de los genes que codifican proteínas, el nivel de expresión se puede evaluar directamente mediante varios métodos con algunas analogías claras con las técnicas de cuantificación de ARNm.
Uno de los métodos más utilizados es realizar un Western blot contra la proteína de interés. [130] Esto proporciona información sobre el tamaño de la proteína además de su identidad. Una muestra (a menudo lisado celular ) se separa en un gel de poliacrilamida , se transfiere a una membrana y luego se prueba con un anticuerpo contra la proteína de interés. El anticuerpo puede conjugarse con un fluoróforo o con peroxidasa de rábano picante para la obtención de imágenes y/o cuantificación. La naturaleza basada en gel de este ensayo hace que la cuantificación sea menos precisa, pero tiene la ventaja de poder identificar modificaciones posteriores de la proteína, por ejemplo, proteólisis o ubiquitinación, a partir de cambios en el tamaño.
Si bien la transcripción refleja directamente la expresión génica, el número de copias de moléculas de ARNm no se correlaciona directamente con el número de moléculas de proteína traducidas a partir del ARNm. La cuantificación tanto de la proteína como del ARNm permite una correlación de los dos niveles. La regulación de cada paso de la expresión génica puede afectar la correlación, como se muestra para la regulación de la traducción [28] o la estabilidad de la proteína. [131] Los factores postraduccionales, como el transporte de proteínas en células altamente polares, [132] también pueden influir en la correlación ARNm-proteína medida.
El análisis de la expresión no se limita a la cuantificación; también se puede determinar la localización. El ARNm se puede detectar con una cadena de ARNm complementaria adecuadamente marcada y la proteína se puede detectar mediante anticuerpos marcados. A continuación, la muestra analizada se observa mediante microscopía para identificar dónde se encuentra el ARNm o la proteína.
Al reemplazar el gen con una nueva versión fusionada a un marcador de proteína fluorescente verde o similar, la expresión puede cuantificarse directamente en células vivas. Esto se hace mediante imágenes utilizando un microscopio de fluorescencia . Es muy difícil clonar una proteína fusionada a GFP en su ubicación nativa en el genoma sin afectar los niveles de expresión, por lo que este método a menudo no se puede utilizar para medir la expresión génica endógena. Sin embargo, se usa ampliamente para medir la expresión de un gen introducido artificialmente en la célula, por ejemplo a través de un vector de expresión . Al fusionar una proteína diana con un reportero fluorescente, el comportamiento de la proteína, incluida su localización celular y nivel de expresión, se puede cambiar significativamente.
El ensayo inmunoabsorbente ligado a enzimas funciona mediante el uso de anticuerpos inmovilizados en una placa de microtitulación para capturar las proteínas de interés de las muestras añadidas al pocillo. Mediante el uso de un anticuerpo de detección conjugado con una enzima o un fluoróforo, la cantidad de proteína unida se puede medir con precisión mediante detección fluorométrica o colorimétrica . El proceso de detección es muy similar al de un Western blot, pero al evitar los pasos de gel se puede lograr una cuantificación más precisa.
Un sistema de expresión es un sistema diseñado específicamente para la producción de un producto génico de elección. Normalmente se trata de una proteína, aunque también puede ser ARN, como el ARNt o una ribozima . Un sistema de expresión consta de un gen, normalmente codificado por ADN , y la maquinaria molecular necesaria para transcribir el ADN en ARNm y traducir el ARNm en proteína utilizando los reactivos proporcionados. En el sentido más amplio, esto incluye todas las células vivas, pero el término se utiliza más normalmente para referirse a la expresión como herramienta de laboratorio. Por tanto, un sistema de expresión suele ser artificial de alguna manera. Sin embargo, los sistemas de expresión son un proceso fundamentalmente natural. Los virus son un excelente ejemplo, ya que se replican utilizando la célula huésped como sistema de expresión para las proteínas y el genoma virales.
La doxiciclina también se utiliza en la activación transcripcional controlada por tetraciclina "Tet-on" y "Tet-off" para regular la expresión transgénica en organismos y cultivos celulares .
Además de estas herramientas biológicas, ciertas configuraciones de ADN observadas de forma natural (genes, promotores, potenciadores, represores) y la maquinaria asociada en sí se denominan sistemas de expresión. Este término se utiliza normalmente en el caso en que un gen o un conjunto de genes se activa en condiciones bien definidas, por ejemplo, el sistema de expresión de interruptor represor simple en el fago Lambda y el sistema de operador lac en las bacterias. Varios sistemas de expresión naturales se utilizan directamente o se modifican y se utilizan para sistemas de expresión artificiales, como el sistema de expresión Tet-on y Tet-off .
En ocasiones, se ha considerado a los genes como nodos de una red, en la que las entradas son proteínas como los factores de transcripción y las salidas son el nivel de expresión génica. El nodo en sí mismo realiza una función, y el funcionamiento de estas funciones se ha interpretado como la realización de una especie de procesamiento de información dentro de las células y determina el comportamiento celular.
Las redes de genes también se pueden construir sin formular un modelo causal explícito. Este suele ser el caso cuando se ensamblan redes a partir de grandes conjuntos de datos de expresión. [133] La covariación y correlación de la expresión se calcula a través de una gran muestra de casos y mediciones (a menudo datos del transcriptoma o del proteoma ). La fuente de variación puede ser experimental o natural (observacional). Hay varias formas de construir redes de expresión genética, pero un enfoque común es calcular una matriz de todas las correlaciones de expresión por pares en diferentes condiciones, puntos temporales o individuos y convertir la matriz (después de establecer un umbral en algún valor de corte) en una representación gráfica en la que los nodos representan genes, transcripciones o proteínas y los bordes que conectan estos nodos representan la fuerza de la asociación (véase GeneNetwork GeneNetwork 2). [134]
Las siguientes técnicas experimentales se utilizan para medir la expresión genética y se enumeran en orden cronológico aproximado, comenzando por las tecnologías más antiguas y consolidadas. Se dividen en dos grupos según su grado de multiplexidad .