El sesgo en el uso de codones se refiere a las diferencias en la frecuencia de aparición de codones sinónimos en el ADN codificante . Un codón es una serie de tres nucleótidos (un triplete) que codifica un residuo de aminoácido específico en una cadena polipeptídica o para la terminación de la traducción ( codones de terminación ).
Hay 64 codones diferentes (61 codones que codifican aminoácidos y 3 codones de terminación) pero solo 20 aminoácidos traducidos diferentes. La sobreabundancia en el número de codones permite que muchos aminoácidos sean codificados por más de un codón. Debido a tal redundancia se dice que el código genético está degenerado. Los códigos genéticos de diferentes organismos a menudo están sesgados hacia el uso de uno de los varios codones que codifican el mismo aminoácido sobre los otros, es decir, se encontrará una mayor frecuencia de uno de lo esperado por casualidad. Cómo surgen tales sesgos es un área muy debatida de la evolución molecular . Las tablas de uso de codones que detallan el sesgo de uso de codones genómicos para organismos en GenBank y RefSeq se pueden encontrar en el proyecto HIVE-Codon Usage Tables (HIVE-CUTs) [ enlace muerto ] , [1] que contiene dos bases de datos distintas, CoCoPUTs y TissueCoCoPUTs. Juntas, estas dos bases de datos proporcionan estadísticas completas y actualizadas sobre el uso de codones, pares de codones y dinucleótidos para todos los organismos con información de secuencia disponible y 52 tejidos humanos, respectivamente. [2] [3]
Se reconoce generalmente que los sesgos de codones reflejan las contribuciones de 3 factores principales: conversión génica sesgada por GC que favorece los codones de terminación GC en organismos diploides, sesgos de llegada que reflejan preferencias mutacionales (normalmente favorecen los codones de terminación AT) y selección natural para codones que son favorables con respecto a la traducción. [4] [5] [6] Los codones óptimos en microorganismos de rápido crecimiento, como Escherichia coli o Saccharomyces cerevisiae (levadura de panadería), reflejan la composición de su respectivo grupo de ARN de transferencia genómica (ARNt). [7] Se cree que los codones óptimos ayudan a lograr tasas de traducción más rápidas y una alta precisión. Como resultado de estos factores, se espera que la selección traduccional sea más fuerte en genes altamente expresados , como es de hecho el caso de los organismos mencionados anteriormente. [8] [9] En otros organismos que no muestran altas tasas de crecimiento o que presentan genomas pequeños, la optimización del uso de codones normalmente está ausente, y las preferencias de codones están determinadas por los sesgos mutacionales característicos observados en ese genoma en particular. Ejemplos de esto son Homo sapiens (humano) y Helicobacter pylori . [10] [11] Los organismos que muestran un nivel intermedio de optimización del uso de codones incluyen Drosophila melanogaster (mosca de la fruta), Caenorhabditis elegans ( gusano nematodo ), Strongylocentrotus purpuratus ( erizo de mar ) y Arabidopsis thaliana ( berro de thale ). [12] Se sabe que varias familias virales ( herpesvirus , lentivirus , papilomavirus , poliomavirus , adenovirus y parvovirus ) codifican proteínas estructurales que muestran un uso de codones muy sesgado en comparación con la célula huésped . Se ha sugerido que estos sesgos de codones juegan un papel en la regulación temporal de sus proteínas tardías. [13]
La naturaleza de la optimización del ARNt mediante el uso de codones ha sido objeto de intensos debates. No está claro si el uso de codones impulsa la evolución del ARNt o viceversa. Se ha desarrollado al menos un modelo matemático en el que tanto el uso de codones como la expresión del ARNt coevolucionan de forma retroactiva ( es decir , los codones ya presentes en frecuencias altas impulsan la expresión de sus ARNt correspondientes, y los ARNt expresados normalmente en niveles altos impulsan la frecuencia de sus codones correspondientes). Sin embargo, este modelo no parece tener todavía confirmación experimental. Otro problema es que la evolución de los genes del ARNt ha sido un área de investigación muy inactiva. [ cita requerida ]
Se han propuesto diferentes factores relacionados con el sesgo en el uso de codones, incluido el nivel de expresión génica (que refleja la selección para optimizar el proceso de traducción por abundancia de ARNt), el contenido de guanina-citosina (contenido de GC, que refleja la transferencia génica horizontal o el sesgo mutacional), el sesgo de guanina-citosina (sesgo de GC, que refleja el sesgo mutacional específico de la cadena), la conservación de aminoácidos , la hidropatía de proteínas , la selección transcripcional, la estabilidad del ARN, la temperatura de crecimiento óptima, la adaptación hipersalina y el nitrógeno dietético. [14] [15] [16] [17] [18] [19]
Aunque el mecanismo de selección del sesgo de codones sigue siendo controvertido, las posibles explicaciones para este sesgo se dividen en dos categorías generales. Una explicación gira en torno a la teoría seleccionista , en la que el sesgo de codones contribuye a la eficiencia y/o precisión de la expresión de proteínas y, por lo tanto, sufre una selección positiva . El modelo seleccionista también explica por qué los codones más frecuentes son reconocidos por moléculas de ARNt más abundantes, así como la correlación entre los codones preferidos, los niveles de ARNt y el número de copias de genes . Aunque se ha demostrado que la tasa de incorporación de aminoácidos en codones más frecuentes ocurre a una tasa mucho mayor que la de codones raros, no se ha demostrado que la velocidad de traducción se vea afectada directamente y, por lo tanto, el sesgo hacia codones más frecuentes puede no ser directamente ventajoso. Sin embargo, el aumento en la velocidad de elongación de la traducción aún puede ser indirectamente ventajoso al aumentar la concentración celular de ribosomas libres y potencialmente la tasa de iniciación de los ARN mensajeros (ARNm). [20]
La segunda explicación para el uso de codones puede explicarse por el sesgo mutacional , una teoría que postula que el sesgo de codones existe debido a la no aleatoriedad en los patrones mutacionales. En otras palabras, algunos codones pueden sufrir más cambios y, por lo tanto, dar lugar a frecuencias de equilibrio más bajas, también conocidas como codones "raros". Diferentes organismos también exhiben diferentes sesgos mutacionales, y hay cada vez más evidencia de que el nivel de contenido de GC en todo el genoma es el parámetro más significativo para explicar las diferencias de sesgo de codones entre organismos. Estudios adicionales han demostrado que los sesgos de codones se pueden predecir estadísticamente en procariotas utilizando solo secuencias intergénicas , lo que contradice la idea de fuerzas selectivas en las regiones codificantes y respalda aún más el modelo de sesgo de mutación. Sin embargo, este modelo por sí solo no puede explicar completamente por qué los codones preferidos son reconocidos por ARNt más abundantes. [20]
Para conciliar la evidencia tanto de las presiones mutacionales como de la selección, la hipótesis predominante del sesgo de codones puede explicarse mediante el modelo de equilibrio mutación-selección-deriva . Esta hipótesis establece que la selección favorece a los codones mayores sobre los menores, pero los codones menores pueden persistir debido a la presión mutacional y la deriva genética . También sugiere que la selección es generalmente débil, pero que la intensidad de la selección se escala a una mayor expresión y restricciones más funcionales de las secuencias codificantes. [20]
Debido a que la estructura secundaria del extremo 5' del ARNm influye en la eficiencia de la traducción, los cambios sinónimos en esta región del ARNm pueden producir efectos profundos en la expresión génica. Por lo tanto, el uso de codones en regiones de ADN no codificantes puede desempeñar un papel importante en la estructura secundaria del ARN y la expresión de proteínas posteriores, que pueden sufrir presiones selectivas adicionales. En particular, una estructura secundaria fuerte en el sitio de unión del ribosoma o el codón de iniciación puede inhibir la traducción, y el plegamiento del ARNm en el extremo 5' genera una gran cantidad de variación en los niveles de proteína. [21]
La expresión génica heteróloga se utiliza en muchas aplicaciones biotecnológicas, incluidas la producción de proteínas y la ingeniería metabólica . Debido a que los grupos de ARNt varían entre diferentes organismos, la tasa de transcripción y traducción de una secuencia codificante particular puede ser menos eficiente cuando se coloca en un contexto no nativo. Para un transgén sobreexpresado , el ARNm correspondiente constituye un gran porcentaje del ARN celular total, y la presencia de codones raros a lo largo de la transcripción puede conducir a un uso ineficiente y al agotamiento de los ribosomas y, en última instancia, reducir los niveles de producción de proteínas heterólogas. Además, la composición del gen (por ejemplo, el número total de codones raros y la presencia de codones raros consecutivos) también puede afectar la precisión de la traducción. [22] [23] Sin embargo, el uso de codones optimizados para grupos de ARNt en un huésped particular para sobreexpresar un gen heterólogo también puede causar inanición de aminoácidos y alterar el equilibrio de los grupos de ARNt. Este método de ajuste de codones para que coincidan con las abundancias de ARNt del huésped, llamado optimización de codones , se ha utilizado tradicionalmente para la expresión de un gen heterólogo. Sin embargo, las nuevas estrategias para la optimización de la expresión heteróloga consideran el contenido de nucleótidos global, como el plegamiento local del ARNm, el sesgo de pares de codones, una rampa de codones, la armonización de codones o las correlaciones de codones. [24] [25] Con la cantidad de cambios de nucleótidos introducidos, la síntesis artificial de genes suele ser necesaria para la creación de un gen optimizado de este tipo.
El sesgo de codones especializados también se observa en algunos genes endógenos , como los que participan en la carencia de aminoácidos. Por ejemplo, las enzimas biosintéticas de aminoácidos utilizan preferentemente codones que están mal adaptados a las abundancias normales de ARNt, pero tienen codones que están adaptados a los grupos de ARNt en condiciones de carencia. Por lo tanto, el uso de codones puede introducir un nivel adicional de regulación transcripcional para la expresión génica adecuada en condiciones celulares específicas. [25]
En términos generales, en el caso de los genes altamente expresados, las tasas de elongación de la traducción son más rápidas en las transcripciones con una mayor adaptación de codones a los grupos de ARNt, y más lentas en las transcripciones con codones raros. Esta correlación entre las tasas de traducción de codones y las concentraciones de ARNt afines proporciona una modulación adicional de las tasas de elongación de la traducción, lo que puede proporcionar varias ventajas al organismo. En concreto, el uso de codones puede permitir la regulación global de estas tasas, y los codones raros pueden contribuir a la precisión de la traducción a expensas de la velocidad. [26]
El plegamiento de proteínas in vivo es vectorial , de modo que el extremo N de una proteína sale del ribosoma traductor y queda expuesto al disolvente antes que sus regiones más C-terminales . Como resultado, el plegamiento de proteínas co-traduccional introduce varias restricciones espaciales y temporales en la cadena polipeptídica naciente en su trayectoria de plegamiento. Debido a que las tasas de traducción del ARNm están acopladas al plegamiento de proteínas, y la adaptación de codones está vinculada a la elongación de la traducción, se ha planteado la hipótesis de que la manipulación a nivel de secuencia puede ser una estrategia eficaz para regular o mejorar el plegamiento de proteínas. Varios estudios han demostrado que la pausa de la traducción como resultado de la estructura local del ARNm ocurre para ciertas proteínas, lo que puede ser necesario para un plegamiento adecuado. Además, se ha demostrado que las mutaciones sinónimas tienen consecuencias significativas en el proceso de plegamiento de la proteína naciente e incluso pueden cambiar la especificidad del sustrato de las enzimas. Estos estudios sugieren que el uso de codones influye en la velocidad a la que los polipéptidos emergen vectorialmente del ribosoma, lo que puede afectar aún más las vías de plegamiento de proteínas en todo el espacio estructural disponible. [26]
En el campo de la bioinformática y la biología computacional , se han propuesto y utilizado muchos métodos estadísticos para analizar el sesgo en el uso de codones. [27] Se utilizan métodos como la "frecuencia de codones óptimos" (Fop), [28] la adaptación relativa de codones (RCA) [29] o el índice de adaptación de codones (CAI) [30] para predecir los niveles de expresión génica, mientras que métodos como el " número efectivo de codones " (Nc) y la entropía de Shannon de la teoría de la información se utilizan para medir la uniformidad del uso de codones. [31] Los métodos estadísticos multivariados, como el análisis de correspondencias y el análisis de componentes principales , se utilizan ampliamente para analizar las variaciones en el uso de codones entre genes. [32] Hay muchos programas informáticos para implementar los análisis estadísticos enumerados anteriormente, incluidos CodonW, GCUA, INCA, etc. La optimización de codones tiene aplicaciones en el diseño de genes sintéticos y vacunas de ADN . Hay varios paquetes de software disponibles en línea para este propósito (consulte los enlaces externos). [ cita requerida ]
{{cite journal}}
: CS1 maint: varios nombres: lista de autores ( enlace )