El empalme de proteínas es una reacción intramolecular de una proteína particular en la que un segmento proteico interno (llamado inteína ) se elimina de una proteína precursora con una ligadura de proteínas externas C-terminales y N-terminales (llamadas exteínas ) en ambos lados. La unión de empalme de la proteína precursora es principalmente una cisteína o una serina , que son aminoácidos que contienen una cadena lateral nucleofílica . Las reacciones de empalme de proteínas que se conocen ahora no requieren cofactores exógenos o fuentes de energía como el trifosfato de adenosina (ATP) o el trifosfato de guanosina (GTP). Normalmente, el empalme se asocia solo con el empalme de pre-ARNm . Esta proteína precursora contiene tres segmentos: una N-exteína seguida de la inteína seguida de una C-exteína . Después de que se ha producido el empalme, la proteína resultante contiene la N-exteína unida a la C-exteína; este producto de empalme también se denomina exteína.
La primera inteína fue descubierta en 1988 a través de la comparación de secuencias entre la ATPasa vacuolar de Neurospora crassa [1] y zanahoria [2] (sin inteína) y el gen homólogo en levadura (con inteína) que fue descrito por primera vez como un supuesto transportador de iones de calcio . [3] En 1990 Hirata et al. [4] demostraron que la secuencia adicional en el gen de levadura se transcribió en ARNm y se eliminó de la proteína huésped solo después de la traducción. Desde entonces, se han encontrado inteínas en los tres dominios de la vida (eucariotas, bacterias y arqueas) y en virus .
El empalme de proteínas fue inesperado y sus mecanismos fueron descubiertos por dos grupos (Anraku [5] y Stevens [6] ) en 1990. Ambos descubrieron un VMA1 de Saccharomyces cerevisiae en un precursor de una enzima H + -ATPasa vacuolar . La secuencia de aminoácidos de los extremos N y C correspondía al 70% de la secuencia de ADN de la de una H + -ATPasa vacuolar de otros organismos, mientras que la secuencia de aminoácidos de la posición central correspondía al 30% de la secuencia total de ADN de la nucleasa HO de levadura .
Muchos genes tienen segmentos codificadores de inteínas no relacionados insertados en diferentes posiciones. Por estas y otras razones, las inteínas (o más apropiadamente, los segmentos de genes que codifican inteínas) a veces se denominan elementos genéticos egoístas , pero puede ser más preciso llamarlos parásitos . De acuerdo con la perspectiva de la evolución centrada en los genes, la mayoría de los genes son "egoístas" solo en la medida en que compiten con otros genes o alelos , pero generalmente cumplen una función para los organismos, mientras que los "elementos genéticos parásitos", al menos inicialmente, no realizan una contribución positiva a la aptitud del organismo. [7] [8]
A diciembre de 2019, la base de datos UniProtKB contiene 188 entradas anotadas manualmente como inteínas, que van desde solo decenas de residuos de aminoácidos hasta miles. [9] La primera inteína se encontró codificada dentro del gen VMA de Saccharomyces cerevisiae . Más tarde se encontraron en hongos ( ascomicetos , basidiomicetos , zigomicetos y quitridios ) y también en diversas proteínas. Se ha descrito que una proteína lejanamente relacionada con las inteínas conocidas que contienen proteínas, pero estrechamente relacionada con las proteínas hedgehog de los metazoos , tiene la secuencia de inteína de Glomeromycota . Muchas de las inteínas recién descritas contienen endonucleasas homing y algunas de ellas son aparentemente activas. [10] La abundancia de inteína en hongos indica transferencia lateral de genes que contienen inteína. Mientras que en eubacterias y arqueas, hay 289 y 182 inteínas conocidas actualmente. No es sorprendente que la mayor parte de la inteína presente en eubacterias y arqueas se encuentre insertada en proteínas metabólicas de ácidos nucleicos, como los hongos. [10]
Las inteínas varían mucho, pero muchas de las mismas proteínas que contienen inteína se encuentran en varias especies. Por ejemplo, la proteína del factor de procesamiento de pre-ARNm 8 ( Prp8 ), fundamental en el espliceosoma , tiene siete sitios de inserción de inteína diferentes en las especies eucariotas. [11] La Prp8 que contiene inteína se encuentra más comúnmente en hongos, pero también se ve en Amoebozoa , Chlorophyta , Capsaspora y Choanoflagellida . Muchas micobacterias contienen inteínas dentro de DnaB (helicasa replicativa bacteriana), RecA (recombinasa de ADN bacteriana) y SufB ( proteína de ensamblaje de clúster FeS ). [12] [13] Existe una variedad notable dentro de la estructura y el número de inteínas DnaB, tanto dentro del género mycobacterium como más allá. Curiosamente, la DnaB que contiene inteína también se encuentra en los cloroplastos de las algas. [14] Las proteínas que contienen inteína que se encuentran en las arqueas incluyen RadA (homólogo de RecA), RFC, PolB, RNR. [15] Muchas de las mismas proteínas que contienen inteína (o sus homólogos) se encuentran en dos o incluso en los tres dominios de la vida. Las inteínas también se observan en los proteomas codificados por bacteriófagos y virus eucariotas. Los virus pueden haber estado involucrados como vectores de distribución de inteína en la amplia variedad de organismos que contienen inteína. [15]
El proceso para las inteínas de clase 1 comienza con un desplazamiento de NO o NS cuando la cadena lateral del primer residuo (una serina , treonina o cisteína ) de la porción de inteína de la proteína precursora ataca nucleofílicamente el enlace peptídico del residuo inmediatamente aguas arriba (es decir, el residuo final de la N-exteína) para formar un intermedio de éster (o tioéster ) lineal. Se produce una transesterificación cuando la cadena lateral del primer residuo de la C-exteína ataca al (tio)éster recién formado para liberar el extremo N-terminal de la inteína. Esto forma un intermedio ramificado en el que se unen la N-exteína y la C-exteína, aunque no a través de un enlace peptídico. El último residuo de la inteína es siempre una asparagina (Asn), y el átomo de nitrógeno de la amida de esta cadena lateral escinde el enlace peptídico entre la inteína y la C-exteína, lo que da como resultado un segmento de inteína libre con una imida cíclica terminal . Finalmente, el grupo amino libre de la C-exteína ataca ahora al (tio)éster que une las N- y C-exteínas. Un desplazamiento ON o SN produce un enlace peptídico y la proteína funcional ligada . [16]
Las inteínas de clase 2 no tienen una primera cadena lateral nucleofílica, solo una alanina. En cambio, la reacción comienza directamente con un desplazamiento nucleofílico, con el primer residuo de la C-exteína uniéndose al carboxilo peptídico en el residuo final de la N-exteína. El resto procede como de costumbre, comenzando con la Asn transformándose en una imida cíclica. [17]
Las inteínas de clase 3 no tienen una primera cadena lateral nucleofílica, solo una alanina, pero tienen un motivo "WCT" interno no contiguo. El residuo C (cisteína) interno ataca al carboxilo peptídico en el residuo final de la N-exteína (desplazamiento nucleofílico). La transesterificación ocurre cuando el primer residuo de la C-exteína ataca al tioéster recién formado. El resto continúa de la forma habitual. [18]
El mecanismo del efecto de empalme es una analogía natural con la técnica para generar químicamente proteínas de tamaño mediano llamada ligadura química nativa .
Una inteína es un segmento de una proteína que es capaz de escindirse y unir las porciones restantes (las exteínas ) con un enlace peptídico durante el empalme de proteínas. [19] Las inteínas también se han llamado intrones proteicos , por analogía con los intrones (de ARN) .
La primera parte del nombre de una inteína se basa en el nombre científico del organismo en el que se encuentra y la segunda parte se basa en el nombre del gen o exteína correspondiente. Por ejemplo, la inteína que se encuentra en Thermoplasma acidophilum y está asociada con la subunidad A de la ATPasa vacuolar (VMA) se llama "Tac VMA".
Normalmente, como en este ejemplo, bastan tres letras para especificar el organismo, pero existen variaciones. Por ejemplo, se pueden añadir letras adicionales para indicar una cepa. Si en el gen correspondiente se codifica más de una inteína, se les asigna un sufijo numérico que comienza desde 5 ′ hasta 3 ′ o en orden de identificación (por ejemplo, "Msm dnaB-1").
El segmento del gen que codifica la inteína suele recibir el mismo nombre que la inteína, pero para evitar confusiones el nombre de la inteína propiamente dicha suele escribirse con mayúscula ( p. ej. , Pfu RIR1-1), mientras que el nombre del segmento del gen correspondiente se escribe en cursiva ( p. ej. , Pfu rir1-1 ). Otra convención de desambiguación es colocar una "i" minúscula después del nombre de la proteína de origen, p. ej. , "Msm DnaBi1". [20]
Las inteínas se pueden clasificar según muchos criterios.
Las inteínas pueden contener un dominio de gen de endonucleasa homing (HEG) además de los dominios de empalme. Este dominio es responsable de la propagación de la inteína al escindir el ADN en un alelo libre de inteína en el cromosoma homólogo , lo que activa el sistema de reparación de roturas de doble cadena del ADN (DSBR), que luego repara la rotura, copiando así el ADN codificante de la inteína en un sitio previamente libre de inteína. [17] El dominio HEG no es necesario para el empalme de la inteína, por lo que se puede perder, formando una inteína mínima o mini . Varios estudios han demostrado la naturaleza modular de las inteínas agregando o eliminando dominios HEG y determinando la actividad de la nueva construcción. [ cita requerida ]
A veces, la inteína de la proteína precursora proviene de dos genes. En este caso, se dice que la inteína es una inteína dividida . Por ejemplo, en las cianobacterias , DnaE , la subunidad catalítica α de la ADN polimerasa III , está codificada por dos genes separados, dnaE-n y dnaE-c . El producto dnaE-n consiste en una secuencia de N-exteína seguida de una secuencia de inteína de 123 AA, mientras que el producto dnaE-c consiste en una secuencia de inteína de 36 AA seguida de una secuencia de C-exteína. [21]
Las inteínas son muy eficientes en el empalme de proteínas, por lo que han encontrado un papel importante en la biotecnología . Hay más de 200 inteínas identificadas hasta la fecha; los tamaños varían de 100 a 800 AA . Las inteínas han sido diseñadas para aplicaciones particulares, como la semisíntesis de proteínas [22] y el etiquetado selectivo de segmentos de proteínas, lo que es útil para estudios de RMN de proteínas grandes. [23]
La inhibición farmacéutica de la escisión de inteína puede ser una herramienta útil para el desarrollo de fármacos ; la proteína que contiene la inteína no llevará a cabo su función normal si ésta no se escinde, ya que su estructura se verá alterada.
Se ha sugerido que las inteínas podrían resultar útiles para lograr la expresión alotópica de ciertas proteínas altamente hidrofóbicas normalmente codificadas por el genoma mitocondrial , por ejemplo en terapia génica . [24] La hidrofobicidad de estas proteínas es un obstáculo para su importación a las mitocondrias. Por lo tanto, la inserción de una inteína no hidrofóbica puede permitir que se realice esta importación. La escisión de la inteína después de la importación restauraría la proteína a su tipo salvaje .
Las etiquetas de afinidad se han utilizado ampliamente para purificar proteínas recombinantes, ya que permiten la acumulación de proteína recombinante con pocas impurezas. Sin embargo, la etiqueta de afinidad debe ser eliminada por proteasas en el paso final de purificación. El paso de proteólisis adicional plantea los problemas de especificidad de la proteasa en la eliminación de las etiquetas de afinidad de la proteína recombinante y la eliminación del producto de digestión. Este problema se puede evitar fusionando una etiqueta de afinidad con inteínas autoescindibles en un entorno controlado. La primera generación de vectores de expresión de este tipo utilizó inteína VMA de Saccharomyces cerevisiae modificada (Sce VMA). Chong et al. [25] utilizaron un dominio de unión a quitina (CBD) de Bacillus circulans como etiqueta de afinidad y fusionaron esta etiqueta con una inteína VMA de Sce modificada. La inteína modificada sufre una reacción de autoescisión en su enlace peptídico N-terminal con 1,4-ditiotreitol (DTT), β-mercaptoetanol (β-ME) o cistina a bajas temperaturas en un amplio rango de pH. Después de expresar la proteína recombinante, el homogeneizado celular pasa a través de la columna que contiene quitina . Esto permite que el CBD de la proteína quimérica se una a la columna. Además, cuando se reduce la temperatura y las moléculas descritas anteriormente pasan a través de la columna, la proteína quimérica sufre un autoempalme y solo se eluye la proteína objetivo. Esta novedosa técnica elimina la necesidad de un paso de proteólisis y el VMA de Sce modificado permanece en la columna unido a la quitina a través del CBD. [25]
Recientemente, las inteínas se han utilizado para purificar proteínas basadas en péptidos autoagregantes. Los polipéptidos similares a la elastina (ELP) son una herramienta útil en biotecnología. Fusionados con la proteína diana, tienden a formar agregados dentro de las células. [26] Esto elimina el paso cromatográfico necesario en la purificación de proteínas. Las etiquetas ELP se han utilizado en la proteína de fusión de inteína, de modo que los agregados se pueden aislar sin cromatografía (por centrifugación) y luego la inteína y la etiqueta se pueden escindir de manera controlada para liberar la proteína diana en solución. Este aislamiento de proteínas se puede realizar utilizando un flujo de medio continuo, lo que produce grandes cantidades de proteína, lo que hace que este proceso sea más eficiente económicamente que los métodos convencionales. [26] Otro grupo de investigadores utilizó etiquetas autoagregantes más pequeñas para aislar la proteína diana. Los pequeños péptidos anfipáticos 18A y ELK16 (figura 5) se utilizaron para formar la proteína agregante autoescindible. [27]
En los últimos veinte años, ha habido un creciente interés en aprovechar las inteínas para aplicaciones antimicrobianas . [12] El empalme de inteínas se encuentra exclusivamente en organismos unicelulares, con una abundancia particularmente alta en microorganismos patógenos. [28] Además, las inteínas se encuentran comúnmente dentro de las proteínas de mantenimiento y/o proteínas involucradas en la supervivencia del organismo dentro de un huésped humano. La eliminación de inteína postraduccional es necesaria para que la proteína se pliegue y funcione correctamente. Por ejemplo, Gaëlle Huet et al. demostraron que en Mycobacterium tuberculosis , SufB no empalmado previene la formación del complejo SufBCD, un componente de la maquinaria SUF. [29] Como tal, la inhibición del empalme de inteínas puede servir como una poderosa plataforma para el desarrollo de antimicrobianos.
La investigación actual sobre inhibidores del empalme de inteína se ha centrado en el desarrollo de antimicobacterianos ( M. tb. tiene tres proteínas que contienen inteína), así como agentes activos contra los hongos patógenos Cryptococcus y Aspergillus. [13] El cisplatino y compuestos similares que contienen platino inhiben el empalme de la inteína RecA de M. tb. mediante la coordinación con residuos catalíticos. [30] Los cationes divalentes, como los iones de cobre (II) y zinc (II), funcionan de manera similar para inhibir reversiblemente el empalme. [12] Sin embargo, ninguno de estos métodos es actualmente adecuado para un antibiótico eficaz y seguro. La inteína Prp8 fúngica también es inhibida por cationes divalentes y cisplatino al interferir con el residuo catalítico Cys1. [12] En 2021, Li et al. demostraron que los inhibidores de moléculas pequeñas del empalme de inteína Prp8 eran selectivos y efectivos para retardar el crecimiento de C. neoformans y C. gattii , lo que proporciona evidencia interesante del potencial antimicrobiano de los inhibidores del empalme de inteína. [31]