En biología molecular , las proteínas LSm son una familia de proteínas de unión al ARN que se encuentran en prácticamente todos los organismos celulares . LSm es una contracción de 'like Sm', porque los primeros miembros identificados de la familia de proteínas LSm fueron las proteínas Sm . Las proteínas LSm se definen por una estructura tridimensional característica y su ensamblaje en anillos de seis o siete moléculas de proteína LSm individuales , y desempeñan una gran cantidad de funciones diversas en el procesamiento y la regulación del ARNm .
Las proteínas Sm se descubrieron por primera vez como antígenos a los que se dirigían los denominados anticuerpos anti-Sm en un paciente con una forma de lupus eritematoso sistémico (LES), una enfermedad autoinmune debilitante . Se las denominó proteínas Sm en honor a Stephanie Smith, una paciente que sufría de LES. [1] Posteriormente se descubrieron otras proteínas con estructuras muy similares y se las denominó proteínas LSm. Se siguen identificando y notificando nuevos miembros de la familia de proteínas LSm.
Las proteínas con estructuras similares se agrupan en una jerarquía de familias de proteínas, superfamilias y pliegues. La estructura de la proteína LSm es un ejemplo de una pequeña lámina beta plegada en un barril corto. Las proteínas LSm individuales se ensamblan en un anillo de seis o siete miembros (más apropiadamente llamado toro ), que generalmente se une a una pequeña molécula de ARN para formar un complejo de ribonucleoproteína . El toro de LSm ayuda a la molécula de ARN a asumir y mantener su estructura tridimensional adecuada. Dependiendo de qué proteínas LSm y moléculas de ARN estén involucradas, este complejo de ribonucleoproteína facilita una amplia variedad de procesamiento de ARN, incluida la degradación, la edición, el empalme y la regulación.
Los términos alternativos para la familia LSm son LSm fold y Sm-like fold , y los estilos de capitalización alternativos como lsm , LSM y Lsm son comunes e igualmente aceptables.
La historia del descubrimiento de las primeras proteínas LSm comienza con una mujer joven, Stephanie Smith, a quien en 1959 se le diagnosticó lupus eritematoso sistémico (LES) , y que finalmente sucumbió a las complicaciones de la enfermedad en 1969 a la edad de 22 años. [1] Durante este período, fue tratada en el Hospital Universitario Rockefeller de Nueva York , bajo el cuidado del Dr. Henry Kunkel y el Dr. Eng Tan. Como aquellos con una enfermedad autoinmune , los pacientes con LES producen anticuerpos contra antígenos en los núcleos de sus células , con mayor frecuencia contra su propio ADN . Sin embargo, Kunkel y Tan descubrieron en 1966 que Smith producía anticuerpos contra un conjunto de proteínas nucleares, a las que llamaron " antígeno Smith " ( Sm Ag ). [2] Aproximadamente el 30% de los pacientes con LES producen anticuerpos contra estas proteínas, a diferencia del ADN bicatenario. Este descubrimiento mejoró las pruebas de diagnóstico para el LES, pero se desconocía la naturaleza y la función de este antígeno.
La investigación continuó durante la década de 1970 y principios de la de 1980. Se descubrió que el antígeno Smith era un complejo de moléculas de ácido ribonucleico ( ARN ) y múltiples proteínas. Un conjunto de moléculas de ARN nuclear pequeño ( ARNpn ) ricas en uridina formaba parte de este complejo, y se les dieron los nombres U1 , U2 , U4 , U5 y U6 . Se descubrió que cuatro de estos ARNpn (U1, U2, U4 y U5) estaban fuertemente unidos a varias proteínas pequeñas, que se denominaron SmB , SmD, SmE , SmF y SmG en orden decreciente de tamaño. SmB tiene una variante de empalme alternativo, SmB' , y una proteína muy similar, SmN , reemplaza a SmB'/B en ciertos tejidos (principalmente neuronales). Más tarde se descubrió que SmD era una mezcla de tres proteínas, que se denominaron SmD1 , SmD2 y SmD3 . Estas nueve proteínas (SmB, SmB', SmN, SmD1, SmD2, SmD3, SmE, SmF y SmG) se conocieron como las proteínas del núcleo Sm , o simplemente proteínas Sm . Los snRNA se complejan con las proteínas del núcleo Sm y con otras proteínas para formar partículas en el núcleo de la célula llamadas ribonucleoproteínas nucleares pequeñas , o snRNP . A mediados de la década de 1980, quedó claro que estos snRNP ayudan a formar un complejo grande ( peso molecular de 4,8 MD ), llamado espliceosoma , alrededor del pre-ARNm , escindiendo porciones del pre-ARNm llamadas intrones y empalmando las porciones codificantes ( exones ) juntas. [3] Después de unas cuantas modificaciones más, el pre-ARNm empalmado se convierte en ARN mensajero (ARNm) que luego se exporta desde el núcleo y se traduce en una proteína por los ribosomas .
El snRNA U6 (a diferencia de U1, U2, U4 y U5) no se asocia con las proteínas Sm, a pesar de que el snRNP U6 es un componente central en el espliceosoma . En 1999 se encontró un heterómero proteico que se une específicamente a U6, y consistía en siete proteínas claramente homólogas a las proteínas Sm. Estas proteínas se denominaron proteínas LSm (similares a Sm) ( LSm1 , LSm2 , LSm3 , LSm4 , LSm5 , LSm6 y LSm7 ), y la proteína similar LSm8 se identificó más tarde . En la bacteria Escherichia coli , la proteína similar a Sm HF-I codificada por el gen hfq se describió en 1968 como un factor huésped esencial para la replicación del bacteriófago ARN Q β. El genoma de Saccharomyces cerevisiae (levadura de panadería) se secuenció a mediados de la década de 1990, lo que proporcionó un rico recurso para identificar homólogos de estas proteínas humanas. Posteriormente, a medida que se secuenciaron más genomas eucariotas , se hizo evidente que los eucariotas, en general, comparten homólogos del mismo conjunto de siete proteínas Sm y ocho LSm. [4] Poco después, se encontraron proteínas homólogas a estas proteínas LSm eucariotas en Archaea ( Sm1 y Sm2 ) y Bacteria ( homólogos de Hfq e YlxS ). [5] Las proteínas LSm arqueales son más similares a las proteínas LSm eucariotas que a las proteínas LSm bacterianas. Las proteínas LSm descritas hasta ahora eran proteínas bastante pequeñas, que variaban desde 76 aminoácidos ( peso molecular de 8,7 kD ) para SmG humana hasta 231 aminoácidos (peso molecular de 29 kD) para SmB humana. Pero recientemente, se han descubierto proteínas más grandes que incluyen un dominio estructural LSm además de otros dominios estructurales de proteínas (como LSm10 , LSm11 , LSm12 , LSm13 , LSm14 , LSm15 , LSm16 , ataxina-2 , así como Sm3 arqueal ).
Alrededor de 1995, las comparaciones entre los diversos homólogos de LSm identificaron dos motivos de secuencia , de 32 ácidos nucleicos de longitud (14 aminoácidos), que eran muy similares en cada homólogo de LSm, y estaban separados por una región no conservada de longitud variable. Esto indicó la importancia de estos dos motivos de secuencia (llamados Sm1 y Sm2 ), y sugirió que todos los genes de la proteína LSm evolucionaron a partir de un único gen ancestral. [6] En 1999, se prepararon cristales de proteínas Sm recombinantes , lo que permitió la cristalografía de rayos X y la determinación de su estructura atómica en tres dimensiones. [7] Esto demostró que las proteínas LSm comparten un pliegue tridimensional similar de una hélice alfa corta y una hoja beta plegada de cinco cadenas , posteriormente denominada pliegue LSm . Otras investigaciones encontraron que las proteínas LSm se ensamblan en un toro (anillo en forma de rosquilla) de seis o siete proteínas LSm, y que el ARN se une al interior del toro, con un nucleótido unido a cada proteína LSm.
El fosfato de uridina se une en la Sm1 arqueal entre el bucle β2b/β3a y el bucle β4b/β5. El uracilo se apila entre los residuos de histidina y arginina , se estabiliza mediante enlaces de hidrógeno a un residuo de asparagina y enlaces de hidrógeno entre el residuo de aspartato y la ribosa . Las proteínas LSm se caracterizan por una lámina beta (la estructura secundaria ), plegada en el pliegue LSm (la estructura terciaria ), polimerización en un toro de seis o siete miembros (la estructura cuaternaria ) y unión a oligonucleótidos de ARN . [8] Un paradigma moderno clasifica las proteínas sobre la base de su estructura y es un campo actualmente activo, con tres enfoques principales, SCOP (Clasificación estructural de proteínas ) , CATH ( Clase , Arquitectura , Topología , Superfamilia homóloga ) y FSSP /DALI ( Familias de proteínas estructuralmente similares ) .
La estructura secundaria de una proteína LSm es una pequeña lámina beta antiparalela de cinco hebras , con las hebras identificadas desde el extremo N-terminal hasta el extremo C-terminal como β1, β2, β3, β4, β5. La clase SCOP de todas las proteínas beta y la clase CATH de principalmente beta se definen como estructuras proteínicas que son principalmente láminas beta, por lo que incluyen LSm. El motivo de secuencia SM1 corresponde a las hebras β1, β2, β3, y el motivo de secuencia SM2 corresponde a las hebras β4 y β5. Las primeras cuatro hebras beta son adyacentes entre sí, pero β5 es adyacente a β1, lo que convierte la estructura general en un barril corto. Esta topología estructural se describe como 51234. Una hélice alfa N-terminal corta (de dos a cuatro vueltas) también está presente en la mayoría de las proteínas LSm. Las cadenas β3 y β4 son cortas en algunas proteínas LSm y están separadas por una espiral no estructurada de longitud variable. Las cadenas β2, β3 y β4 están fuertemente dobladas alrededor de 120° grados en sus puntos medios. Las curvas en estas cadenas son a menudo glicina , y las cadenas laterales internas al barril beta son a menudo los residuos hidrofóbicos valina , leucina , isoleucina y metionina .
SCOP simplemente clasifica la estructura LSm como el pliegue tipo Sm , uno de los 149 pliegues diferentes de la proteína beta, sin ninguna agrupación intermedia. La lámina beta de LSm está muy doblada y se describe como una arquitectura de rollo en CATH (una de las 20 arquitecturas de proteína beta diferentes en CATH). Una de las hebras beta (β5 en LSm) cruza el borde abierto del rollo para formar una pequeña topología de barril de tipo SH3 (una de las 33 topologías de rollo beta en CATH). CATH enumera 23 superfamilias homólogas con una topología de barril de tipo SH3, una de las cuales es la estructura LSm ( proteína de unión al ARN en el sistema CATH). SCOP continúa su clasificación estructural después del pliegue en Superfamilia, Familia y Dominio, mientras que CATH continúa en Familia de secuencias, pero estas divisiones se describen de manera más apropiada en la sección "Evolución y filogenia".
La estructura terciaria de barril de tipo SH3 del pliegue LSm está formada por las hebras β2, β3 y β4 fuertemente dobladas (alrededor de 120°), con la estructura de barril cerrada por la hebra β5. Haciendo hincapié en la estructura terciaria, cada hebra beta doblada puede describirse como dos hebras beta más cortas. El pliegue LSm puede verse como un sándwich beta antiparalelo de ocho hebras , con cinco hebras en un plano y tres hebras en un plano paralelo con un ángulo de inclinación de aproximadamente 45° entre las dos mitades del sándwich beta. La hélice alfa N-terminal corta (de dos a cuatro vueltas) se produce en un borde del sándwich beta. Esta hélice alfa y las cadenas beta se pueden etiquetar (desde el extremo N al extremo C ) α, β1, β2a, β2b, β3a, β3b, β4a, β4b, β5 donde a y b se refieren a las dos mitades de una cadena doblada en la descripción de cinco cadenas, o a las cadenas individuales en la descripción de ocho cadenas. Cada cadena (en la descripción de ocho cadenas) está formada por cinco residuos de aminoácidos . Incluyendo las curvas y los bucles entre las cadenas, y la hélice alfa, alrededor de 60 residuos de aminoácidos contribuyen al pliegue LSm, pero esto varía entre homólogos debido a la variación en los bucles entre cadenas, la hélice alfa e incluso las longitudes de las cadenas β3b y β4a.
Las proteínas LSm normalmente se ensamblan en un anillo LSm , un toro de seis o siete miembros , de unos 7 nanómetros de diámetro con un agujero de 2 nanómetros. La condición ancestral es un homohexámero u homoheptámero de subunidades LSm idénticas. Las proteínas LSm en eucariotas forman heteroheptámeros de siete subunidades LSm diferentes, como las proteínas Sm. La unión entre las proteínas LSm se entiende mejor con la descripción de ocho hebras del pliegue LSm. La mitad de cinco hebras del sándwich beta de una subunidad se alinea con la mitad de tres hebras del sándwich beta de la subunidad adyacente, formando una lámina beta retorcida de 8 hebras Aβ4a/Aβ3b/Aβ2a/Aβ1/Aβ5/Bβ4b/Bβ3a/Bβ2b, donde A y B se refieren a las dos subunidades diferentes. Además de los enlaces de hidrógeno entre las cadenas beta Aβ5 y Bβ4b de las dos subunidades de la proteína LSm, existen contactos energéticamente favorables entre las cadenas laterales de aminoácidos hidrófobos en el interior del área de contacto y contactos energéticamente favorables entre las cadenas laterales de aminoácidos hidrófilos alrededor de la periferia del área de contacto.
Los anillos LSm forman complejos de ribonucleoproteína con oligonucleótidos de ARN que varían en fuerza de unión desde complejos muy estables (como los snRNP de clase Sm) hasta complejos transitorios. Los oligonucleótidos de ARN generalmente se unen dentro del orificio (lumen) del toro LSm, un nucleótido por subunidad LSm, pero se han informado sitios de unión de nucleótidos adicionales en la parte superior ( lado de la hélice α ) del anillo. La naturaleza química exacta de esta unión varía, pero los motivos comunes incluyen apilamiento de la base heterocíclica (a menudo uracilo ) entre cadenas laterales planas de dos aminoácidos, enlaces de hidrógeno a la base heterocíclica y/o la ribosa , y puentes salinos al grupo fosfato .
Los distintos tipos de anillos LSm funcionan como andamios o chaperonas para los oligonucleótidos de ARN , ayudando al ARN a asumir y mantener la estructura tridimensional adecuada. En algunos casos, esto permite que el ARN oligonucleótido funcione catalíticamente como ribozima . En otros casos, esto facilita la modificación o degradación del ARN, o el ensamblaje, almacenamiento y transporte intracelular de complejos de ribonucleoproteína . [9]
El anillo Sm se encuentra en el núcleo de todos los eucariotas (aproximadamente 2,5 × 10 6 copias por célula humana en proliferación) y tiene las funciones mejor comprendidas. El anillo Sm es un heteroheptámero . La molécula de ARNm de clase Sm (en la dirección 5' a 3') ingresa al lumen (agujero de rosquilla) en la subunidad SmE y avanza secuencialmente en el sentido de las agujas del reloj (mirando desde el lado de la hélice α) dentro del lumen (agujero de rosquilla) hacia las subunidades SmG, SmD3, SmB, SmD1, SmD2, saliendo por la subunidad SmF. [10] (SmB puede ser reemplazado por la variante de empalme SmB' y por SmN en los tejidos neuronales). El anillo Sm se une permanentemente a los snRNA U1, U2, U4 y U5 que forman cuatro de los cinco snRNP que constituyen el espliceosoma principal . El anillo Sm también se une permanentemente a los snRNA U11 , U12 y U4atac que forman cuatro de los cinco snRNP (incluido el snRNP U5) que constituyen el espliceosoma menor . Ambos espliceosomas son complejos centrales de procesamiento de ARN en la maduración del ARN mensajero a partir del pre-ARNm . También se ha informado que las proteínas Sm son parte del componente ribonucleoproteico de la telomerasa . [11]
Los dos snRNP Lsm2-8 (U6 y U6atac ) tienen la función catalítica clave en los espliceosomas mayor y menor. Estos snRNP no incluyen el anillo Sm, sino que utilizan el anillo heteroheptamérico Lsm2-8 . Los anillos LSm son aproximadamente 20 veces menos abundantes que los anillos Sm. No se conoce el orden de estas siete proteínas LSm en este anillo, pero basándose en la homología de la secuencia de aminoácidos con las proteínas Sm, se especula que el snRNA (en la dirección 5' a 3') puede unirse primero a LSm5, y precede secuencialmente en el sentido de las agujas del reloj a LSm7, LSm4, LSm8, LSm2, LSm3 y sale por la subunidad LSm6. Experimentos con mutaciones de Saccharomyces cerevisiae (levadura en gemación) sugieren que el anillo Lsm2-8 ayuda a la reasociación de los snRNP U4 y U6 en el di-snRNP U4/U6 . [12] (Después de completar la eliminación de exones y el empalme de intrones, estos dos snRNP deben reasociarse para que el espliceosoma inicie otro ciclo de empalme de exones/intrones. En esta función, el anillo Lsm2-8 actúa como una chaperona de ARN en lugar de un andamiaje de ARN). El anillo Lsm2-8 también forma un snRNP con el ARN nucleolar pequeño U8 (snoRNA) que se localiza en el nucléolo . Este complejo de ribonucleoproteína es necesario para procesar el ARN ribosómico y transferir el ARN a sus formas maduras. [13] Se informa que el anillo Lsm2-8 tiene un papel en el procesamiento del ARN pre-P en ARN ARNasa P. A diferencia del anillo Sm, el anillo Lsm2-8 no se une permanentemente a su ARNsn y ARNsno.
Existe un segundo tipo de anillo Sm, en el que LSm10 reemplaza a SmD1 y LSm11 reemplaza a SmD2. LSm11 es una proteína de dos dominios, siendo el dominio C-terminal un dominio LSm. Este anillo heteroheptámero se une al ARNm sn U7 en el ARNm sn U7 . El ARNm sn U7 media el procesamiento del bucle de tallo 3' UTR del ARNm de la histona en el núcleo. [14] Al igual que el anillo Sm, se ensambla en el citoplasma sobre el ARNm sn U7 mediante un complejo SMN especializado.
Un segundo tipo de anillo Lsm es el anillo Lsm1-7 , que tiene la misma estructura que el anillo Lsm2-8 excepto que LSm1 reemplaza a LSm8. A diferencia del anillo Lsm2-8, el anillo Lsm1-7 se localiza en el citoplasma donde ayuda a degradar el ARN mensajero en complejos de ribonucleoproteína . Este proceso controla el recambio del ARN mensajero de modo que la traducción ribosómica del ARNm a proteína responde rápidamente a los cambios en la transcripción del ADN a ARN mensajero por parte de la célula. Se ha demostrado que LSM1-7, junto con Pat1 , desempeña un papel en la formación de cuerpos P después de la deadenilación. [15]
El complejo SMN (descrito en "Biogénesis de snRNP") está compuesto por la proteína SMN y Gemin2-8 . Se ha descubierto que dos de estas, Gemin 6 y Gemin7, tienen la estructura LSm y forman un heterodímero. Estas pueden tener una función de chaperona en el complejo SMN para ayudar a la formación del anillo Sm en los snRNA de clase Sm . [16] El complejo PRMT5 está compuesto por PRMT5 , pICln , WD45 (Mep50) . pICln ayuda a formar el anillo abierto Sm en el complejo SMN. El complejo SMN ayuda en el ensamblaje de snRNP donde el anillo Sm está en la conformación abierta en el complejo SMN y este anillo Sm es cargado en el snRNA por el complejo SMN. [17]
Las proteínas LSm12-16 se han descrito muy recientemente. Se trata de proteínas de dos dominios con un dominio LSm N-terminal y un dominio metil transferasa C-terminal . [18] Se sabe muy poco sobre la función de estas proteínas, pero presumiblemente son miembros de anillos de dominio LSm que interactúan con el ARN. Hay alguna evidencia de que LSm12 posiblemente esté involucrado en la degradación del ARNm y LSm13-16 puede tener papeles en la regulación de la mitosis . Inesperadamente, LSm12 estuvo implicado recientemente en la señalización de calcio al actuar como proteína de unión intermediaria para el segundo mensajero de nucleótidos, NAADP ( fosfato de dinucleótido de adenina y ácido nicotínico ) que activa los canales de Ca 2+ endolisosomales TPC ( canales de dos poros ). [19] Esto ocurrió por la unión de NAADP al dominio LSm, no al dominio AD. [19] Una proteína grande de función desconocida, la ataxina-2 , asociada con la enfermedad neurodegenerativa ataxia espinocerebelosa tipo 2 , también tiene un dominio LSm N-terminal.
Dos proteínas LSm se encuentran en un segundo dominio de la vida, las arqueas . Estas son las proteínas Sm1 y Sm2 ( que no deben confundirse con los motivos de secuencia Sm1 y Sm2 ), y a veces se identifican como proteínas arqueales similares a Sm SmAP1 y SmAP2 por esta razón. [20] Sm1 y Sm2 generalmente forman anillos homoheptámeros , aunque se han observado anillos homohexámeros. Los anillos Sm1 son similares a los anillos Lsm eucariotas en que se forman en ausencia de ARN, mientras que los anillos Sm2 son similares a los anillos Sm eucariotas en que requieren ARN rico en uridina para su formación. Se ha informado que se asocian con el ARN de la ARNasa P , lo que sugiere un papel en el procesamiento del ARN de transferencia , pero su función en las arqueas en este proceso (y posiblemente en el procesamiento de otro ARN como el ARN ribosómico ) es en su mayoría desconocida. Los crenarqueos , una de las dos ramas principales de las arqueas, tienen un tercer tipo conocido de proteína LSm arqueal, la Sm3 . Se trata de una proteína de dos dominios con un dominio LSm N-terminal que forma un anillo homoheptámero . No se sabe nada sobre la función de esta proteína LSm, pero se supone que interactúa con el ARN en estos organismos y probablemente ayuda a procesarlo.
Se han descrito varias proteínas LSm en el tercer dominio de la vida, las bacterias . La proteína Hfq forma anillos de homohexámeros y se descubrió originalmente como necesaria para la infección por el bacteriófago Qβ , aunque claramente esta no es la función nativa de esta proteína en las bacterias. No está presente universalmente en todas las bacterias, pero se ha encontrado en Pseudomonadota , Bacillota , Spirochaetota , Thermotogota , Aquificota y una especie de Archaea . (Este último caso es probablemente un caso de transferencia horizontal de genes ). Hfq es pleiotrópico con una variedad de interacciones, generalmente asociadas con la regulación de la traducción . Estas incluyen el bloqueo de la unión de los ribosomas al ARNm , el marcado del ARNm para la degradación mediante la unión a sus colas de poli-A y la asociación con pequeños ARN reguladores bacterianos (como el ARN DsrA) que controlan la traducción mediante la unión a ciertos ARNm. [21] [22] Una segunda proteína LSm bacteriana es YlxS (a veces también llamada YhbC), que se identificó por primera vez en la bacteria del suelo Bacillus subtilis . Esta es una proteína de dos dominios con un dominio LSm N-terminal . Su función es desconocida, pero se encuentran homólogos de secuencias de aminoácidos en prácticamente todos los genomas bacterianos hasta la fecha, y puede ser una proteína esencial. [23] El dominio medio del canal mecanosensible de conductancia pequeña MscS en Escherichia coli forma un anillo homoheptamérico. [24] Este dominio LSm no tiene una función aparente de unión al ARN, pero el toro homoheptamérico es parte del canal central de esta proteína de membrana.
Los homólogos de LSm se encuentran en los tres dominios de la vida, e incluso pueden encontrarse en cada organismo individual . Se utilizan métodos filogenéticos computacionales para inferir relaciones filogenéticas . La alineación de secuencias entre los diversos homólogos de LSm es la herramienta adecuada para esto, como la alineación de secuencias múltiples de la estructura primaria (secuencia de aminoácidos) y la alineación estructural de la estructura terciaria (estructura tridimensional). Se plantea la hipótesis de que un gen para una proteína LSm estaba presente en el último ancestro universal de toda la vida. [25] Con base en las funciones de las proteínas LSm conocidas, esta proteína LSm original puede haber ayudado a las ribozimas en el procesamiento del ARN para sintetizar proteínas como parte de la hipótesis del mundo del ARN de la vida temprana. Según este punto de vista, este gen se transmitió de ancestro a descendiente, con frecuentes mutaciones , duplicaciones genéticas y transferencias genéticas horizontales ocasionales . En principio, este proceso se puede resumir en un árbol filogenético con la raíz en el último ancestro universal (o anterior), y con las puntas representando el universo de genes LSm existentes en la actualidad.
Según la estructura, las proteínas LSm conocidas se dividen en un grupo que consiste en las proteínas LSm bacterianas (Hfq, YlxS y MscS) y un segundo grupo de todas las demás proteínas LSm, de acuerdo con los árboles filogenéticos publicados más recientemente . [26] Las tres proteínas LSm arqueales (Sm1, Sm2 y Sm3) también se agrupan como un grupo, distinto de las proteínas LSm eucariotas. Tanto las proteínas LSm bacterianas como las arqueales se polimerizan en anillos homoméricos, que es la condición ancestral.
Una serie de duplicaciones genéticas de un único gen LSm eucariota dio lugar a la mayoría (si no todos) de los genes LSm eucariotas conocidos. Cada una de las siete proteínas Sm tiene una mayor homología de secuencia de aminoácidos con una proteína Lsm correspondiente que con las otras proteínas Sm. Esto sugiere que un gen LSm ancestral se duplicó varias veces, dando lugar a siete parálogos . Estos posteriormente divergieron entre sí de modo que el anillo homoheptámero LSm ancestral se convirtió en un anillo heteroheptámero. Con base en las funciones conocidas de las proteínas LSm en eucariotas y arqueas, la función ancestral puede haber sido el procesamiento de ARN preribosómico , ARN pretransferencial y preRNasa P. Luego, según esta hipótesis, los siete genes LSm eucariotas ancestrales se duplicaron nuevamente en siete pares de parálogos Sm/LSm; LSm1/SmB, LSm2/SmD1, LSm3/SmD2, LSm4/SmD3, LSm5/SmE, LSm6/SmF y LSm7/SmG. Estos dos grupos de siete genes LSm (y los dos tipos de anillos LSm correspondientes) evolucionaron hasta un anillo Sm (que requiere ARN) y un anillo Lsm (que se forma sin ARN). El par parálogo LSm1/LSm8 también parece haberse originado antes del último ancestro eucariota común, lo que da un total de al menos 15 genes de la proteína LSm. El par parálogo SmD1/LSm10 y el par parálogo SmD2/LSm11 existen solo en animales , hongos y amebozoides (a veces identificados como el clado unikont ) y parecen estar ausentes en el clado bikont ( cromalveolados , excavatos , plantas y rizaria ). Por lo tanto, estas dos duplicaciones genéticas fueron anteriores a esta división fundamental en el linaje eucariota. El par parálogo SmB/SmN se observa solo en los mamíferos placentarios , lo que data esta duplicación del gen LSm.
Las ribonucleoproteínas nucleares pequeñas (snRNP) se ensamblan en un proceso estrechamente orquestado y regulado que involucra tanto al núcleo celular como al citoplasma . [27]