La expresión génica es el proceso mediante el cual la información de un gen se utiliza en la síntesis de un producto génico funcional que le permite producir productos finales, proteínas o ARN no codificante , y, en última instancia, afectar un fenotipo . Estos productos suelen ser proteínas , pero en genes no codificantes de proteínas, como el ARN de transferencia (ARNt) y el ARN nuclear pequeño (ARNsn) , el producto es un ARN no codificante funcional . El proceso de expresión genética es utilizado por todos los seres vivos conocidos: eucariotas (incluidos los organismos multicelulares ), procariotas ( bacterias y arqueas ) y utilizado por los virus , para generar la maquinaria macromolecular necesaria para la vida.
En genética , la expresión genética es el nivel más fundamental en el que el genotipo da lugar al fenotipo , es decir, al rasgo observable. La información genética almacenada en el ADN representa el genotipo, mientras que el fenotipo resulta de la "interpretación" de esa información. Estos fenotipos suelen manifestarse mediante la síntesis de proteínas que controlan la estructura y el desarrollo del organismo, o que actúan como enzimas que catalizan vías metabólicas específicas.
Todos los pasos del proceso de expresión génica pueden modularse (regularse), incluida la transcripción , el corte y empalme del ARN , la traducción y la modificación postraduccional de una proteína. La regulación de la expresión genética proporciona control sobre el momento, la ubicación y la cantidad de un producto genético determinado (proteína o ARNnc) presente en una célula y puede tener un efecto profundo en la estructura y función celular. La regulación de la expresión genética es la base de la diferenciación celular , el desarrollo , la morfogénesis y la versatilidad y adaptabilidad de cualquier organismo . Por tanto, la regulación genética puede servir como sustrato para el cambio evolutivo.
La producción de una copia de ARN a partir de una cadena de ADN se llama transcripción y se realiza mediante ARN polimerasas , que añaden un ribonucleótido a la vez a una cadena de ARN en crecimiento según la ley de complementariedad de las bases de nucleótidos. Este ARN es complementario a la cadena de ADN plantilla 3′ → 5′, [1] con la excepción de que las timinas (T) se reemplazan con uracilos (U) en el ARN y posibles errores.
En las bacterias, la transcripción se lleva a cabo mediante un solo tipo de ARN polimerasa, que necesita unirse a una secuencia de ADN llamada caja de Pribnow con la ayuda de la proteína del factor sigma (factor σ) para iniciar la transcripción. En los eucariotas, la transcripción se realiza en el núcleo mediante tres tipos de ARN polimerasas, cada una de las cuales necesita una secuencia de ADN especial llamada promotor y un conjunto de proteínas de unión al ADN ( factores de transcripción ) para iniciar el proceso (consulte la regulación de la transcripción a continuación). . La ARN polimerasa I es responsable de la transcripción de los genes del ARN ribosomal (ARNr). La ARN polimerasa II (Pol II) transcribe todos los genes codificadores de proteínas, pero también algunos ARN no codificantes ( p. ej. , snRNA, snoRNA o ARN largos no codificantes ). La ARN polimerasa III transcribe el ARNr 5S , genes de ARN de transferencia (ARNt) y algunos ARN pequeños no codificantes ( p. ej. , 7SK ). La transcripción termina cuando la polimerasa encuentra una secuencia llamada terminador .
Mientras que la transcripción de genes codificadores de proteínas procarióticas crea un ARN mensajero (ARNm) que está listo para su traducción en proteína, la transcripción de genes eucarióticos deja una transcripción primaria de ARN (pre-ARN), que primero tiene que sufrir una serie de modificaciones para convertirse en un ARN maduro. Los tipos y pasos involucrados en los procesos de maduración varían entre preARN codificantes y no codificantes; es decir, aunque las moléculas de preARN tanto para el ARNm como para el ARNt se empalman, los pasos y la maquinaria implicados son diferentes. [2] El procesamiento del ARN no codificante se describe a continuación (maduración del ARN no codificante).
El procesamiento del pre-ARNm incluye la protección 5' , que es un conjunto de reacciones enzimáticas que agregan 7-metilguanosina (m 7 G) al extremo 5' del pre-ARNm y así protegen el ARN de la degradación por exonucleasas . [3] Luego, la tapa m 7 G se une mediante un heterodímero complejo de unión a la tapa (CBC20/CBC80), que ayuda en la exportación del ARNm al citoplasma y también protege el ARN contra la descapsulación . [4]
Otra modificación es la escisión y poliadenilación en 3' . [5] Ocurren si la secuencia señal de poliadenilación (5′-AAUAAA-3′) está presente en el pre-ARNm, que generalmente se encuentra entre la secuencia codificante de proteínas y el terminador. [6] Primero se escinde el pre-ARNm y luego se agrega una serie de ~200 adeninas (A) para formar la cola poli(A), que protege el ARN de la degradación. [7] La cola poli(A) está unida por múltiples proteínas de unión a poli(A) (PABP) necesarias para la exportación del ARNm y el reinicio de la traducción. [8] En el proceso inverso de muerte, las colas de poli(A) son acortadas por la exonucleasa CCR4-Not 3′-5′, lo que a menudo conduce a la descomposición completa de la transcripción. [9]
Una modificación muy importante del pre-ARNm eucariota es el empalme de ARN . La mayoría de los pre-ARNm eucariotas constan de segmentos alternos llamados exones e intrones . [10] Durante el proceso de empalme, un complejo catalítico de ARN-proteína conocido como espliceosoma cataliza dos reacciones de transesterificación , que eliminan un intrón y lo liberan en forma de estructura de lazo, y luego unen los exones vecinos. [11] En ciertos casos, algunos intrones o exones pueden eliminarse o retenerse en el ARNm maduro. [12] Este llamado empalme alternativo crea una serie de transcripciones diferentes que se originan a partir de un solo gen. Debido a que estas transcripciones pueden traducirse potencialmente en diferentes proteínas, el empalme amplía la complejidad de la expresión de genes eucariotas y el tamaño del proteoma de una especie . [13]
El procesamiento extensivo de ARN puede ser una ventaja evolutiva posible gracias al núcleo de los eucariotas. En los procariotas, la transcripción y la traducción ocurren juntas, mientras que en los eucariotas, la membrana nuclear separa los dos procesos, dando tiempo para que se produzca el procesamiento del ARN. [14]
En la mayoría de los organismos, los genes no codificantes (ARNnc) se transcriben como precursores que se someten a un procesamiento adicional. En el caso de los ARN ribosómicos (ARNr), a menudo se transcriben como un pre-ARNr que contiene uno o más ARNr. El pre-ARNr es escindido y modificado ( 2′- O -metilación y formación de pseudouridina ) en sitios específicos por aproximadamente 150 especies diferentes de ARN pequeños restringidos al nucleolo, llamados snoRNA. Los snoRNA se asocian con proteínas y forman snoRNP. Mientras que la parte del snoRNA se empareja con el ARN objetivo y, por lo tanto, coloca la modificación en un sitio preciso, la parte proteica realiza la reacción catalítica. En eucariotas, en particular un snoRNP llamado RNasa, MRP escinde el pre-rRNA 45S en los rRNA 28S , 5.8S y 18S . El ARNr y los factores de procesamiento del ARN forman grandes agregados llamados nucléolo . [15]
En el caso del ARN de transferencia (ARNt), por ejemplo, la secuencia 5' es eliminada por la RNasa P , [16] mientras que el extremo 3' es eliminado por la enzima tRNasa Z [17] y la cola 3' CCA sin plantilla. Es añadido por una nucleotidil transferasa . [18] En el caso del microARN (miARN) , los miARN se transcriben primero como transcripciones primarias o pri-miARN con una tapa y una cola poli-A y se procesan en estructuras cortas de bucle madre de 70 nucleótidos conocidas como pre-miARN en el núcleo celular por las enzimas Drosha y Pasha . Después de ser exportado, se procesa para madurar miARN en el citoplasma mediante la interacción con la endonucleasa Dicer , que también inicia la formación del complejo silenciador inducido por ARN (RISC) , compuesto por la proteína Argonauta .
Incluso los propios snRNA y snoRNA sufren una serie de modificaciones antes de convertirse en parte del complejo RNP funcional. [19] Esto se hace en el nucleoplasma o en los compartimentos especializados llamados cuerpos de Cajal . [20] Sus bases están metiladas o pseudouridiniladas por un grupo de pequeños ARN específicos del cuerpo de Cajal (scaRNA) , que son estructuralmente similares a los snoRNA. [21]
En eucariotas, la mayor parte del ARN maduro debe exportarse al citoplasma desde el núcleo . Si bien algunos ARN funcionan en el núcleo, muchos ARN se transportan a través de los poros nucleares hasta el citosol . [22] La exportación de ARN requiere asociación con proteínas específicas conocidas como exportinas. Moléculas de exportina específicas son responsables de la exportación de un tipo de ARN determinado. El transporte de ARNm también requiere la asociación correcta con el Exon Junction Complex (EJC), lo que garantiza que se complete el procesamiento correcto del ARNm antes de la exportación. En algunos casos, los ARN se transportan adicionalmente a una parte específica del citoplasma, como por ejemplo una sinapsis ; luego son remolcados por proteínas motoras que se unen a través de proteínas enlazadoras a secuencias específicas (llamadas "códigos postales") del ARN. [23]
Para algunos ARN no codificantes, el ARN maduro es el producto genético final. [24] En el caso del ARN mensajero (ARNm), el ARN es un portador de información que codifica la síntesis de una o más proteínas. El ARNm que lleva una única secuencia de proteínas (común en eucariotas) es monocistrónico, mientras que el ARNm que lleva múltiples secuencias de proteínas (común en procariotas) se conoce como policistrónico .
Cada ARNm consta de tres partes: una región 5' no traducida (5'UTR), una región codificadora de proteínas o marco de lectura abierto (ORF) y una región 3' no traducida (3'UTR). La región codificante transporta información para la síntesis de proteínas codificada por el código genético para formar tripletes. Cada triplete de nucleótidos de la región codificante se denomina codón y corresponde a un sitio de unión complementario a un triplete de anticodón en el ARN de transferencia. Los ARN de transferencia con la misma secuencia de anticodón siempre llevan un tipo idéntico de aminoácido . Luego, el ribosoma encadena los aminoácidos según el orden de los tripletes en la región codificante. El ribosoma ayuda a transferir el ARN para que se una al ARN mensajero y toma el aminoácido de cada ARN de transferencia y lo convierte en una proteína sin estructura. [25] [26] Cada molécula de ARNm se traduce en muchas moléculas de proteínas, en promedio ~2800 en los mamíferos. [27] [28]
En los procariotas, la traducción generalmente ocurre en el momento de la transcripción (cotranscripcionalmente), a menudo utilizando un ARN mensajero que aún está en proceso de creación. En los eucariotas, la traducción puede ocurrir en una variedad de regiones de la célula dependiendo de dónde se supone que está la proteína que se escribe. Las ubicaciones principales son el citoplasma para las proteínas citoplasmáticas solubles y la membrana del retículo endoplásmico para las proteínas que se exportan desde la célula o se insertan en una membrana celular . Las proteínas que se supone que se producen en el retículo endoplásmico se reconocen a mitad del proceso de traducción. Esto se rige por la partícula de reconocimiento de señales , una proteína que se une al ribosoma y lo dirige al retículo endoplasmático cuando encuentra un péptido señal en la cadena de aminoácidos en crecimiento (naciente). [29]
Cada proteína existe como un polipéptido desplegado o una espiral aleatoria cuando se traduce de una secuencia de ARNm a una cadena lineal de aminoácidos . Este polipéptido carece de estructura tridimensional desarrollada (el lado izquierdo de la figura vecina). Luego, el polipéptido se pliega en su estructura tridimensional característica y funcional a partir de una espiral aleatoria . [30] Los aminoácidos interactúan entre sí para producir una estructura tridimensional bien definida, la proteína plegada (el lado derecho de la figura) conocida como estado nativo . La estructura tridimensional resultante está determinada por la secuencia de aminoácidos ( dogma de Anfinsen ). [31]
La correcta estructura tridimensional es fundamental para el funcionamiento, aunque algunas partes de las proteínas funcionales pueden permanecer desplegadas . [32] Si no se pliegan en la forma deseada generalmente se producen proteínas inactivas con diferentes propiedades, incluidos priones tóxicos . Se cree que varias enfermedades neurodegenerativas y de otro tipo son el resultado de la acumulación de proteínas mal plegadas . [33] Muchas alergias son causadas por el plegamiento de las proteínas, ya que el sistema inmunológico no produce anticuerpos para ciertas estructuras proteicas. [34]
Las enzimas llamadas chaperonas ayudan a la proteína recién formada a alcanzar ( plegarse ) la estructura tridimensional que necesita para funcionar. [35] De manera similar, las chaperonas de ARN ayudan a los ARN a alcanzar sus formas funcionales. [36] Ayudar al plegamiento de proteínas es una de las funciones principales del retículo endoplasmático en eucariotas.
Las proteínas secretoras de eucariotas o procariotas deben translocarse para ingresar a la vía secretora. Las proteínas recién sintetizadas se dirigen al canal de translocación eucariota Sec61 o procariota SecYEG mediante péptidos señal . La eficacia de la secreción de proteínas en eucariotas depende en gran medida del péptido señal que se haya utilizado. [37]
Muchas proteínas están destinadas a otras partes de la célula además del citosol y se utiliza una amplia gama de secuencias de señalización o (péptidos señal) para dirigir las proteínas a donde se supone que deben estar. [38] [39] En procariotas, esto normalmente es un proceso simple debido a la compartimentación limitada de la célula. [40] Sin embargo, en los eucariotas existe una gran variedad de procesos de selección diferentes para garantizar que la proteína llegue al orgánulo correcto. [41]
No todas las proteínas permanecen dentro de la célula y muchas se exportan, por ejemplo, las enzimas digestivas , las hormonas y las proteínas de la matriz extracelular . En eucariotas, la vía de exportación está bien desarrollada y el principal mecanismo para la exportación de estas proteínas es la translocación al retículo endoplásmico, seguida del transporte a través del aparato de Golgi . [42] [43]
La regulación de la expresión genética es el control de la cantidad y el momento de aparición del producto funcional de un gen. El control de la expresión es vital para permitir que una célula produzca los productos genéticos que necesita cuando los necesita; a su vez, esto da a las células la flexibilidad para adaptarse a un entorno variable, señales externas, daños a la célula y otros estímulos. De manera más general, la regulación genética otorga a la célula control sobre toda la estructura y función, y es la base de la diferenciación celular , la morfogénesis y la versatilidad y adaptabilidad de cualquier organismo.
Se utilizan numerosos términos para describir tipos de genes según cómo estén regulados; éstas incluyen:
Se puede modular cualquier paso de la expresión génica, desde el paso de transcripción de ADN-ARN hasta la modificación postraduccional de una proteína. La estabilidad del producto genético final, ya sea ARN o proteína, también contribuye al nivel de expresión del gen; un producto inestable da como resultado un nivel de expresión bajo. En general, la expresión genética se regula mediante cambios [44] en el número y tipo de interacciones entre moléculas [45] que influyen colectivamente en la transcripción del ADN [46] y la traducción del ARN. [47]
Algunos ejemplos simples de dónde la expresión genética es importante son:
La regulación de la transcripción se puede dividir en tres vías principales de influencia; genética (interacción directa de un factor de control con el gen), interacción de modulación de un factor de control con la maquinaria de transcripción y epigenética (cambios no secuenciales en la estructura del ADN que influyen en la transcripción). [48] [49]
La interacción directa con el ADN es el método más simple y directo mediante el cual una proteína cambia los niveles de transcripción. [50] Los genes suelen tener varios sitios de unión a proteínas alrededor de la región codificante con la función específica de regular la transcripción. [51] Hay muchas clases de sitios reguladores de unión al ADN conocidos como potenciadores , aislantes y silenciadores . [52] Los mecanismos para regular la transcripción son variados, desde bloquear sitios de unión clave en el ADN para la ARN polimerasa hasta actuar como un activador y promover la transcripción ayudando a la unión de la ARN polimerasa. [53]
La actividad de los factores de transcripción se modula aún más mediante señales intracelulares que provocan una modificación postraduccional de las proteínas, incluida la fosforilación , la acetilación o la glicosilación . [54] Estos cambios influyen en la capacidad de un factor de transcripción para unirse, directa o indirectamente, al ADN promotor, para reclutar ARN polimerasa o para favorecer el alargamiento de una molécula de ARN recién sintetizada. [55]
La membrana nuclear en eucariotas permite una mayor regulación de los factores de transcripción por la duración de su presencia en el núcleo, que está regulada por cambios reversibles en su estructura y por la unión de otras proteínas. [56] Los estímulos ambientales o las señales endocrinas [57] pueden provocar la modificación de las proteínas reguladoras [58] provocando cascadas de señales intracelulares, [59] que dan como resultado la regulación de la expresión génica.
Se ha hecho evidente que existe una influencia significativa de los efectos no específicos de la secuencia de ADN en la transcripción. [60] Estos efectos se conocen como epigenéticos e involucran la estructura de orden superior del ADN, proteínas de unión al ADN no específicas de secuencia y modificación química del ADN. [61] En general, los efectos epigenéticos alteran la accesibilidad del ADN a las proteínas y, por lo tanto, modulan la transcripción. [62]
En eucariotas, la estructura de la cromatina , controlada por el código de histonas , regula el acceso al ADN con impactos significativos en la expresión de genes en las áreas de eucromatina y heterocromatina . [63]
La expresión genética en los mamíferos está regulada por muchos elementos reguladores cis , incluidos los promotores centrales y los elementos proximales al promotor que se encuentran cerca de los sitios de inicio de la transcripción de los genes, aguas arriba del ADN (hacia la región 5' de la cadena sensorial ). Otros módulos reguladores cis importantes están localizados en regiones del ADN que están distantes de los sitios de inicio de la transcripción. Estos incluyen potenciadores , silenciadores , aisladores y elementos de anclaje. [64] Los potenciadores y sus factores de transcripción asociados tienen un papel destacado en la regulación de la expresión genética. [sesenta y cinco]
Los potenciadores son regiones del genoma que regulan genes. Los potenciadores controlan los programas de expresión genética específicos de cada tipo de célula, generalmente recorriendo largas distancias para acercarse físicamente a los promotores de sus genes diana. [66] Múltiples potenciadores, cada uno a menudo a decenas o cientos de miles de nucleótidos distantes de sus genes diana, se enlazan con los promotores de sus genes diana y se coordinan entre sí para controlar la expresión génica. [66]
La ilustración muestra un potenciador dando vueltas para acercarse al promotor de un gen diana. El bucle se estabiliza mediante un dímero de una proteína conectora (por ejemplo, dímero de CTCF o YY1 ). Un miembro del dímero está anclado a su motivo de unión en el potenciador y el otro miembro está anclado a su motivo de unión en el promotor (representado por los zigzags rojos en la ilustración). [67] Varios factores de transcripción específicos de la función celular (entre los aproximadamente 1.600 factores de transcripción en una célula humana) [68] generalmente se unen a motivos específicos en un potenciador. [69] Una pequeña combinación de estos factores de transcripción unidos a un potenciador, cuando se acerca a un promotor mediante un bucle de ADN, gobierna el nivel de transcripción del gen objetivo. El mediador (un complejo que generalmente consta de aproximadamente 26 proteínas en una estructura que interactúa) comunica señales regulatorias desde factores de transcripción potenciadores unidos al ADN directamente a la enzima ARN polimerasa II (pol II) unida al promotor. [70]
Los potenciadores, cuando están activos, generalmente se transcriben a partir de ambas cadenas de ADN con ARN polimerasas que actúan en dos direcciones diferentes, produciendo dos ARNe como se ilustra en la figura. [71] Un potenciador inactivo puede estar unido a un factor de transcripción inactivo. La fosforilación del factor de transcripción puede activarlo y ese factor de transcripción activado puede luego activar el potenciador al que está unido (ver la pequeña estrella roja que representa la fosforilación del factor de transcripción unido al potenciador en la ilustración). [72] Un potenciador activado comienza la transcripción de su ARN antes de activar la transcripción del ARN mensajero de su gen objetivo. [73]
La metilación del ADN es un mecanismo generalizado de influencia epigenética en la expresión genética y se observa en bacterias y eucariotas y desempeña funciones en el silenciamiento y la regulación de la transcripción hereditaria. La metilación ocurre con mayor frecuencia en una citosina (ver Figura). La metilación de la citosina ocurre principalmente en secuencias de dinucleótidos donde una citosina va seguida de una guanina, un sitio CpG . El número de sitios CpG en el genoma humano es de aproximadamente 28 millones. [74] Dependiendo del tipo de célula, aproximadamente el 70% de los sitios CpG tienen una citosina metilada. [75]
La metilación de la citosina en el ADN tiene un papel importante en la regulación de la expresión genética. La metilación de CpG en una región promotora de un gen generalmente reprime la transcripción genética [76], mientras que la metilación de CpG en el cuerpo de un gen aumenta la expresión. [77] Las enzimas TET desempeñan un papel central en la desmetilación de citosinas metiladas. La desmetilación de CpG en un promotor de gen mediante la actividad de la enzima TET aumenta la transcripción del gen. [78]
En una rata, el condicionamiento contextual del miedo (CFC) es una experiencia de aprendizaje dolorosa. Un solo episodio de CFC puede resultar en un recuerdo aterrador para toda la vida. [79] Después de un episodio de CFC, la metilación de la citosina se altera en las regiones promotoras de aproximadamente el 9,17% de todos los genes en el ADN de las neuronas del hipocampo de una rata. [80] El hipocampo es donde se almacenan inicialmente los nuevos recuerdos. Después de CFC, alrededor de 500 genes han aumentado la transcripción (a menudo debido a la desmetilación de los sitios CpG en una región promotora) y alrededor de 1000 genes han disminuido la transcripción (a menudo debido a la 5-metilcitosina recién formada en los sitios CpG en una región promotora). El patrón de genes inducidos y reprimidos dentro de las neuronas parece proporcionar una base molecular para formar el primer recuerdo transitorio de este evento de entrenamiento en el hipocampo del cerebro de la rata. [80]
Se han establecido algunos mecanismos específicos que guían las nuevas metilaciones y desmetilaciones del ADN en el hipocampo durante el establecimiento de la memoria (ver [81] para un resumen). Un mecanismo incluye guiar la isoforma corta de la enzima de desmetilación del ADN TET1 , TET1, a aproximadamente 600 ubicaciones en el genoma. La guía se realiza mediante la asociación de TET1 con la proteína EGR1 , un factor de transcripción importante en la formación de la memoria. Llevar TET1 a estos lugares inicia la desmetilación del ADN en esos sitios, regulando positivamente los genes asociados. Un segundo mecanismo involucra a DNMT3A2, una isoforma de empalme de la ADN metiltransferasa DNMT3A, que agrega grupos metilo a las citosinas en el ADN. Esta isoforma es inducida por la actividad sináptica y su lugar de acción parece estar determinado por modificaciones postraduccionales de las histonas (un código de histonas ). Los nuevos ARN mensajeros resultantes son luego transportados por partículas RNP mensajeras (gránulos neuronales) a las sinapsis de las neuronas, donde pueden traducirse en proteínas que afectan las actividades de las sinapsis. [81]
En particular, el gen del factor neurotrófico derivado del cerebro ( BDNF ) se conoce como "gen de aprendizaje". [82] Después de CFC hubo una regulación positiva de la expresión del gen BDNF , relacionada con una disminución de la metilación de CpG de ciertos promotores internos del gen, y esto se correlacionó con el aprendizaje. [82]
La mayoría de los promotores de genes contienen una isla CpG con numerosos sitios CpG . [83] Cuando muchos de los sitios CpG promotores de un gen están metilados, el gen queda silenciado. [84] Los cánceres colorrectales suelen tener de 3 a 6 mutaciones de conductor y de 33 a 66 mutaciones de autoestopista o pasajero. [85] Sin embargo, el silenciamiento transcripcional puede ser más importante que la mutación para provocar la progresión al cáncer. Por ejemplo, en los cánceres colorrectales, la metilación de la isla CpG silencia transcripcionalmente entre 600 y 800 genes (ver regulación de la transcripción en el cáncer ). La represión transcripcional en el cáncer también puede ocurrir por otros mecanismos epigenéticos , como la expresión alterada de microARN . [86] En el cáncer de mama, la represión transcripcional de BRCA1 puede ocurrir con más frecuencia por microARN-182 sobretranscrito que por hipermetilación del promotor BRCA1 (consulte Baja expresión de BRCA1 en cánceres de mama y ovario ).
En los eucariotas, donde se requiere la exportación de ARN antes de que sea posible la traducción, se cree que la exportación nuclear proporciona un control adicional sobre la expresión genética. Todo el transporte dentro y fuera del núcleo se realiza a través del poro nuclear y el transporte está controlado por una amplia gama de proteínas importinas y exportadoras . [87]
La expresión de un gen que codifica una proteína sólo es posible si el ARN mensajero que porta el código sobrevive el tiempo suficiente para ser traducido. [41] En una célula típica, una molécula de ARN sólo es estable si está específicamente protegida de la degradación. [88] La degradación del ARN tiene particular importancia en la regulación de la expresión en células eucariotas donde el ARNm tiene que viajar distancias significativas antes de ser traducido. [89] En eucariotas, el ARN se estabiliza mediante ciertas modificaciones postranscripcionales, particularmente la tapa 5 ' y la cola poliadenilada . [90]
La degradación intencionada del ARNm se utiliza no sólo como mecanismo de defensa frente al ARN extraño (normalmente de virus) sino también como ruta de desestabilización del ARNm . [91] Si una molécula de ARNm tiene una secuencia complementaria a un pequeño ARN de interferencia , entonces se dirige a su destrucción a través de la vía de interferencia del ARN . [92]
Tres regiones principales no traducidas (3'UTR) de los ARN mensajeros (ARNm) a menudo contienen secuencias reguladoras que influyen postranscripcionalmente en la expresión génica. Estas 3'-UTR contienen a menudo tanto sitios de unión para microARN (miARN) como para proteínas reguladoras. [93] Al unirse a sitios específicos dentro de la 3′-UTR, los miARN pueden disminuir la expresión génica de varios ARNm al inhibir la traducción o causar directamente la degradación de la transcripción. [94] La 3′-UTR también puede tener regiones silenciadoras que se unen a proteínas represoras que inhiben la expresión de un ARNm. [95]
La 3′-UTR a menudo contiene elementos de respuesta de microARN (MRE) . Los MRE son secuencias a las que se unen los miARN. Estos son motivos prevalentes dentro de las 3′-UTR. Entre todos los motivos reguladores dentro de las 3′-UTR (por ejemplo, incluidas las regiones silenciadoras), los MRE constituyen aproximadamente la mitad de los motivos. [96]
En 2014, el sitio web miRBase , [97] un archivo de secuencias y anotaciones de miARN , enumeró 28 645 entradas en 233 especies biológicas. De estos, 1.881 miARN estaban en loci de miARN humanos anotados. Se predijo que los miARN tendrían un promedio de aproximadamente cuatrocientos ARNm diana (que afectan la expresión de varios cientos de genes). [98] Friedman et al. [98] estiman que >45 000 sitios objetivo de miARN dentro de las 3'UTR de ARNm humano se conservan por encima de los niveles de fondo, y >60% de los genes codificadores de proteínas humanas han estado bajo presión selectiva para mantener el emparejamiento con los miARN.
Los experimentos directos muestran que un solo miARN puede reducir la estabilidad de cientos de ARNm únicos. [99] Otros experimentos muestran que un solo miARN puede reprimir la producción de cientos de proteínas, pero que esta represión a menudo es relativamente leve (menos de 2 veces). [100] [101]
Los efectos de la desregulación de la expresión genética de los miARN parecen ser importantes en el cáncer. [102] Por ejemplo, en los cánceres gastrointestinales, se han identificado nueve miARN como alterados epigenéticamente y eficaces para regular negativamente las enzimas reparadoras del ADN. [103]
Los efectos de la desregulación de la expresión genética de los miARN también parecen ser importantes en los trastornos neuropsiquiátricos, como la esquizofrenia, el trastorno bipolar, la depresión mayor, la enfermedad de Parkinson, la enfermedad de Alzheimer y los trastornos del espectro autista. [104] [105]
La regulación directa de la traducción es menos frecuente que el control de la transcripción o la estabilidad del ARNm, pero se utiliza ocasionalmente. [106] La inhibición de la traducción de proteínas es un objetivo importante para las toxinas y los antibióticos , por lo que pueden matar una célula anulando su control normal de la expresión genética. [107] Los inhibidores de la síntesis de proteínas incluyen el antibiótico neomicina y la toxina ricina . [108]
Las modificaciones postraduccionales (PTM) son modificaciones covalentes de las proteínas. Al igual que el empalme de ARN, ayudan a diversificar significativamente el proteoma. Estas modificaciones suelen estar catalizadas por enzimas. Además, otras enzimas a menudo pueden revertir procesos como las adiciones covalentes a residuos de cadenas laterales de aminoácidos. Sin embargo, algunos, como la escisión proteolítica de la estructura proteica, son irreversibles. [109]
Los PTM desempeñan muchas funciones importantes en la célula. [110] Por ejemplo, la fosforilación participa principalmente en la activación y desactivación de proteínas y en vías de señalización. [111] Los PTM participan en la regulación transcripcional: una función importante de la acetilación y la metilación es la modificación de la cola de histonas, que altera la accesibilidad del ADN para la transcripción. [109] También se pueden observar en el sistema inmunológico, donde la glicosilación juega un papel clave. [112] Un tipo de PTM puede iniciar otro tipo de PTM, como se puede ver en cómo la ubiquitinación marca las proteínas para su degradación mediante proteólisis. [109] La proteólisis, además de participar en la descomposición de proteínas, también es importante para activarlas y desactivarlas y para regular procesos biológicos como la transcripción del ADN y la muerte celular. [113]
Medir la expresión genética es una parte importante de muchas ciencias biológicas , ya que la capacidad de cuantificar el nivel en el que se expresa un gen particular dentro de una célula, tejido u organismo puede proporcionar mucha información valiosa. Por ejemplo, medir la expresión genética puede:
De manera similar, el análisis de la ubicación de la expresión de proteínas es una herramienta poderosa, y esto puede realizarse a escala de organismo o celular. La investigación de la localización es particularmente importante para el estudio del desarrollo en organismos multicelulares y como indicador de la función de las proteínas en células individuales. Idealmente, la medición de la expresión se realiza detectando el producto genético final (para muchos genes, esta es la proteína); sin embargo, suele ser más fácil detectar uno de los precursores, normalmente ARNm , e inferir los niveles de expresión genética a partir de estas mediciones.
Los niveles de ARNm se pueden medir cuantitativamente mediante transferencia Northern , que proporciona información sobre el tamaño y la secuencia de las moléculas de ARNm. [114] Se separa una muestra de ARN en un gel de agarosa y se hibrida con una sonda de ARN marcada radiactivamente que es complementaria a la secuencia objetivo. [115] El ARN radiomarcado luego se detecta mediante una autorradiografía . [116] Debido a que el uso de reactivos radiactivos hace que el procedimiento requiera mucho tiempo y sea potencialmente peligroso, se han desarrollado métodos alternativos de etiquetado y detección, como las químicas de digoxigenina y biotina. [117] Las desventajas percibidas de la transferencia Northern son que se requieren grandes cantidades de ARN y que la cuantificación puede no ser completamente precisa, ya que implica medir la fuerza de la banda en una imagen de un gel. [118] Por otro lado, la información adicional sobre el tamaño del ARNm de la transferencia Northern permite la discriminación de transcripciones empalmadas alternativamente. [119] [120]
Otro método para medir la abundancia de ARNm es la RT-qPCR. En esta técnica, la transcripción inversa va seguida de una PCR cuantitativa . La transcripción inversa primero genera una plantilla de ADN a partir del ARNm; esta plantilla monocatenaria se llama ADNc . Luego, la plantilla de ADNc se amplifica en el paso cuantitativo, durante el cual la fluorescencia emitida por las sondas de hibridación marcadas o los tintes intercalantes cambia a medida que avanza el proceso de amplificación del ADN . [121] Con una curva estándar cuidadosamente construida, la qPCR puede producir una medición absoluta del número de copias del ARNm original, generalmente en unidades de copias por nanolitro de tejido homogeneizado o copias por célula. [122] La qPCR es muy sensible (la detección de una sola molécula de ARNm es teóricamente posible), pero puede resultar costosa según el tipo de indicador utilizado; Las sondas de oligonucleótidos marcadas con fluorescencia son más caras que los colorantes fluorescentes intercalantes no específicos. [123]
Para perfiles de expresión o análisis de alto rendimiento de muchos genes dentro de una muestra, se puede realizar una PCR cuantitativa para cientos de genes simultáneamente en el caso de matrices de baja densidad. [124] Un segundo enfoque es el microarray de hibridación . Una única matriz o "chip" puede contener sondas para determinar los niveles de transcripción de cada gen conocido en el genoma de uno o más organismos. [125] Alternativamente, se pueden utilizar tecnologías "basadas en etiquetas", como el análisis en serie de la expresión génica (SAGE) y RNA-Seq , que pueden proporcionar una medida relativa de la concentración celular de diferentes ARNm. [126] Una ventaja de los métodos basados en etiquetas es la "arquitectura abierta", que permite la medición exacta de cualquier transcripción, con una secuencia conocida o desconocida. [127] La secuenciación de próxima generación (NGS), como RNA-Seq, es otro enfoque que produce grandes cantidades de datos de secuencia que pueden compararse con un genoma de referencia. Aunque la NGS requiere comparativamente mucho tiempo, dinero y recursos, puede identificar polimorfismos de un solo nucleótido , variantes de empalme y genes novedosos, y también puede usarse para perfilar la expresión en organismos para los cuales hay poca o ninguna información de secuencia disponible. . [128]
Perfiles como estos se encuentran para casi todas las proteínas enumeradas en Wikipedia. Son generados por organizaciones como el Instituto de Genómica de la Fundación de Investigación Novartis y el Instituto Europeo de Bioinformática . Se puede encontrar información adicional buscando en sus bases de datos (para ver un ejemplo del transportador GLUT4 que se muestra aquí, consulte la cita). [129] Estos perfiles indican el nivel de expresión del ADN (y, por lo tanto, del ARN producido) de una determinada proteína en un determinado tejido, y están codificados por colores en consecuencia en las imágenes ubicadas en el cuadro de proteínas en el lado derecho de cada página de Wikipedia.
Para los genes que codifican proteínas, el nivel de expresión puede evaluarse directamente mediante varios métodos con algunas analogías claras con las técnicas de cuantificación de ARNm.
Uno de los métodos más utilizados es realizar una transferencia Western contra la proteína de interés. [130] Esto proporciona información sobre el tamaño de la proteína además de su identidad. Se separa una muestra (a menudo lisado celular ) en un gel de poliacrilamida , se transfiere a una membrana y luego se sonda con un anticuerpo contra la proteína de interés. El anticuerpo puede conjugarse con un fluoróforo o con peroxidasa de rábano picante para obtener imágenes y/o cuantificación. La naturaleza basada en gel de este ensayo hace que la cuantificación sea menos precisa, pero tiene la ventaja de poder identificar modificaciones posteriores de la proteína, por ejemplo, proteólisis o ubiquitinación, a partir de cambios de tamaño.
Si bien la transcripción refleja directamente la expresión genética, el número de copias de las moléculas de ARNm no se correlaciona directamente con la cantidad de moléculas de proteína traducidas a partir de ARNm. La cuantificación tanto de proteínas como de ARNm permite una correlación de los dos niveles. La regulación de cada paso de la expresión génica puede afectar la correlación, como se muestra en el caso de la regulación de la traducción [28] o la estabilidad de las proteínas. [131] Los factores postraduccionales, como el transporte de proteínas en células altamente polares, [132] también pueden influir en la correlación medida entre ARNm y proteína.
El análisis de expresión no se limita a la cuantificación; También se puede determinar la localización. El ARNm se puede detectar con una cadena de ARNm complementaria adecuadamente marcada y la proteína se puede detectar mediante anticuerpos marcados. Luego, la muestra sondada se observa mediante microscopía para identificar dónde está el ARNm o la proteína.
Al reemplazar el gen con una nueva versión fusionada a un marcador proteico fluorescente verde o similar, la expresión puede cuantificarse directamente en células vivas. Esto se hace mediante imágenes utilizando un microscopio de fluorescencia . Es muy difícil clonar una proteína fusionada con GFP en su ubicación nativa en el genoma sin afectar los niveles de expresión, por lo que este método a menudo no se puede utilizar para medir la expresión de genes endógenos. Sin embargo, se utiliza ampliamente para medir la expresión de un gen introducido artificialmente en la célula, por ejemplo mediante un vector de expresión . Al fusionar una proteína objetivo con un indicador fluorescente, se puede cambiar significativamente el comportamiento de la proteína, incluida su localización celular y su nivel de expresión.
El ensayo inmunoabsorbente ligado a enzimas funciona mediante el uso de anticuerpos inmovilizados en una placa de microtitulación para capturar proteínas de interés de las muestras agregadas al pocillo. Utilizando un anticuerpo de detección conjugado con una enzima o fluoróforo, la cantidad de proteína unida se puede medir con precisión mediante detección fluorométrica o colorimétrica . El proceso de detección es muy similar al de una transferencia Western, pero evitando los pasos del gel se puede lograr una cuantificación más precisa.
Un sistema de expresión es un sistema diseñado específicamente para la producción de un producto genético de elección. Normalmente se trata de una proteína, aunque también puede ser ARN, como un ARNt o una ribozima . Un sistema de expresión consta de un gen, normalmente codificado por ADN , y la maquinaria molecular necesaria para transcribir el ADN en ARNm y traducir el ARNm en proteína utilizando los reactivos proporcionados. En el sentido más amplio, esto incluye todas las células vivas, pero el término se utiliza más normalmente para referirse a la expresión como herramienta de laboratorio. Por lo tanto, un sistema de expresión suele ser artificial en algún sentido. Sin embargo, los sistemas de expresión son un proceso fundamentalmente natural. Los virus son un excelente ejemplo en el que se replican utilizando la célula huésped como sistema de expresión para las proteínas y el genoma viral.
La doxiciclina también se utiliza en la activación transcripcional controlada por tetraciclina "Tet-on" y "Tet-off" para regular la expresión transgénica en organismos y cultivos celulares .
Además de estas herramientas biológicas, ciertas configuraciones del ADN observadas naturalmente (genes, promotores, potenciadores, represores) y la propia maquinaria asociada se denominan sistema de expresión. Este término se utiliza normalmente en el caso en que un gen o conjunto de genes se activa en condiciones bien definidas, por ejemplo, el sistema de expresión de cambio represor simple en el fago Lambda y el sistema operador lac en bacterias. Varios sistemas de expresión naturales se usan o modifican directamente y se usan para sistemas de expresión artificiales tales como el sistema de expresión Tet-on y Tet-off .
A veces se ha considerado a los genes como nodos de una red, siendo las entradas proteínas como los factores de transcripción y las salidas el nivel de expresión génica. El nodo en sí realiza una función, y se ha interpretado que el funcionamiento de estas funciones realiza una especie de procesamiento de información dentro de las células y determina el comportamiento celular.
Las redes genéticas también se pueden construir sin formular un modelo causal explícito. Este suele ser el caso cuando se ensamblan redes a partir de grandes conjuntos de datos de expresión. [133] La covariación y la correlación de la expresión se calculan en una gran muestra de casos y mediciones (a menudo datos de transcriptoma o proteoma ). La fuente de variación puede ser experimental o natural (observacional). Hay varias formas de construir redes de expresión génica, pero un enfoque común es calcular una matriz de todas las correlaciones de expresión por pares entre condiciones, puntos temporales o individuos y convertir la matriz (después de establecer un umbral en algún valor de corte) en una representación gráfica en la que los nodos representan genes, transcripciones o proteínas y los bordes que conectan estos nodos representan la fuerza de la asociación (consulte GeneNetwork GeneNetwork 2). [134]
Las siguientes técnicas experimentales se utilizan para medir la expresión genética y se enumeran en orden cronológico aproximado, comenzando con las tecnologías más antiguas y establecidas. Se dividen en dos grupos según su grado de multiplexidad .