La región codificante de un gen , también conocida como secuencia codificante ( CDS ), es la porción del ADN o ARN de un gen que codifica una proteína . [1] Estudiar la longitud, composición, regulación, empalme, estructuras y funciones de las regiones codificantes en comparación con las regiones no codificantes en diferentes especies y períodos de tiempo puede proporcionar una cantidad significativa de información importante sobre la organización y evolución de los genes de procariotas y eucariotas . [2] Esto puede ayudar aún más a mapear el genoma humano y desarrollar una terapia génica. [3]
Aunque este término también se utiliza a veces indistintamente con exón , no es exactamente lo mismo: el exón está compuesto por la región codificante, así como por las regiones no traducidas 3' y 5' del ARN, y por lo tanto, un exón estaría parcialmente formado por regiones codificantes. Las regiones no traducidas 3' y 5' del ARN, que no codifican proteínas, se denominan regiones no codificantes y no se analizan en esta página. [4]
A menudo se confunden las regiones codificantes y los exomas , pero existe una clara distinción entre estos términos. Mientras que el exoma se refiere a todos los exones de un genoma, la región codificante se refiere a una sección singular del ADN o ARN que codifica específicamente un determinado tipo de proteína.
En 1978, Walter Gilbert publicó "Why Genes in Pieces" ("Por qué los genes en pedazos"), donde comenzó a explorar la idea de que el gen es un mosaico, es decir, que cada cadena completa de ácido nucleico no está codificada de manera continua, sino que está interrumpida por regiones "silenciosas" no codificantes. Esta fue la primera indicación de que era necesario distinguir entre las partes del genoma que codifican proteínas, ahora llamadas regiones codificantes, y las que no lo hacen. [5]
La evidencia sugiere que existe una interdependencia general entre los patrones de composición de bases y la disponibilidad de la región codificante. [6] Se cree que la región codificante contiene un mayor contenido de GC que las regiones no codificantes. Hay otras investigaciones que descubrieron que cuanto más larga es la cadena codificante, mayor es el contenido de GC. Las cadenas codificantes cortas son comparativamente pobres en GC, similar al bajo contenido de GC de los codones de terminación de traducción de composición de bases como TAG, TAA y TGA. [7]
Las áreas ricas en GC también son donde el tipo de mutación puntual de proporción se altera ligeramente: hay más transiciones , que son cambios de purina a purina o de pirimidina a pirimidina, en comparación con transversiones , que son cambios de purina a pirimidina o de pirimidina a purina. Las transiciones tienen menos probabilidades de cambiar el aminoácido codificado y siguen siendo una mutación silenciosa (especialmente si ocurren en el tercer nucleótido de un codón), lo que suele ser beneficioso para el organismo durante la traducción y la formación de proteínas. [8]
Esto indica que las regiones codificantes esenciales (ricas en genes) tienen un mayor contenido de GC y son más estables y resistentes a la mutación en comparación con las regiones accesorias y no esenciales (pobres en genes). [9] Sin embargo, todavía no está claro si esto se produjo a través de una mutación neutral y aleatoria o mediante un patrón de selección . [10] También existe un debate sobre si los métodos utilizados, como las ventanas genéticas, para determinar la relación entre el contenido de GC y la región codificante son precisos e imparciales. [11]
En el ADN , la región codificante está flanqueada por la secuencia promotora en el extremo 5' de la cadena molde y la secuencia de terminación en el extremo 3'. Durante la transcripción , la ARN polimerasa (ARNP) se une a la secuencia promotora y se desplaza a lo largo de la cadena molde hasta la región codificante. A continuación, la ARNNP añade nucleótidos de ARN complementarios a la región codificante para formar el ARNm , sustituyendo el uracilo en lugar de la timina . [12] Esto continúa hasta que la ARNNP alcanza la secuencia de terminación. [12]
Después de la transcripción y la maduración, el ARNm maduro formado abarca múltiples partes importantes para su traducción final en proteína . La región codificante en un ARNm está flanqueada por la región no traducida 5' (5'-UTR) y la región no traducida 3' (3'-UTR), [1] la tapa 5' y la cola Poly-A . Durante la traducción , el ribosoma facilita la unión de los ARNt a la región codificante, 3 nucleótidos a la vez ( codones ). [13] Los ARNt transfieren sus aminoácidos asociados a la cadena polipeptídica en crecimiento , formando finalmente la proteína definida en la región codificante de ADN inicial.
La región codificante se puede modificar para regular la expresión genética.
La alquilación es una forma de regulación de la región codificante. [15] El gen que se ha transcrito puede silenciarse si se selecciona una secuencia específica. Las bases de esta secuencia se bloquearían utilizando grupos alquilo , que crean el efecto silenciador . [16]
Si bien la regulación de la expresión génica gestiona la abundancia de ARN o proteína que se produce en una célula, la regulación de estos mecanismos puede ser controlada por una secuencia reguladora que se encuentra antes de que comience el marco de lectura abierto en una cadena de ADN. La secuencia reguladora determinará entonces la ubicación y el momento en que se producirá la expresión de una región codificante de proteína. [17]
El empalme del ARN determina en última instancia qué parte de la secuencia se traduce y se expresa, y este proceso implica cortar intrones y unir exones. Sin embargo, el lugar donde corta el espliceosoma de ARN está guiado por el reconocimiento de los sitios de empalme , en particular el sitio de empalme 5', que es uno de los sustratos para el primer paso del empalme. [18] Las regiones codificantes están dentro de los exones, que se unen covalentemente para formar el ARN mensajero maduro .
Las mutaciones en la región codificante pueden tener efectos muy diversos en el fenotipo del organismo. Si bien algunas mutaciones en esta región del ADN/ARN pueden producir cambios beneficiosos, otras pueden ser perjudiciales y, a veces, incluso letales para la supervivencia de un organismo. Por el contrario, los cambios en la región no codificante no siempre producen cambios detectables en el fenotipo.
Existen varias formas de mutaciones que pueden ocurrir en las regiones codificantes. Una forma son las mutaciones silenciosas , en las que un cambio en los nucleótidos no da como resultado ningún cambio en el aminoácido después de la transcripción y la traducción. [20] También existen mutaciones sin sentido , donde las alteraciones de bases en la región codificante codifican un codón de terminación prematuro, produciendo una proteína final más corta. Las mutaciones puntuales , o cambios de un solo par de bases en la región codificante, que codifican diferentes aminoácidos durante la traducción, se denominan mutaciones sin sentido . Otros tipos de mutaciones incluyen mutaciones de cambio de marco, como inserciones o deleciones . [20]
Algunas formas de mutaciones son hereditarias ( mutaciones de la línea germinal ) o se transmiten de un progenitor a su descendencia. [21] Estas regiones codificantes mutadas están presentes en todas las células del organismo. Otras formas de mutaciones se adquieren ( mutaciones somáticas ) durante la vida de un organismo y pueden no ser constantes de célula a célula. [21] Estos cambios pueden ser causados por mutágenos , carcinógenos u otros agentes ambientales (p. ej., rayos UV ). Las mutaciones adquiridas también pueden ser el resultado de errores de copia durante la replicación del ADN y no se transmiten a la descendencia. Los cambios en la región codificante también pueden ser de novo (nuevos); se cree que estos cambios ocurren poco después de la fertilización , lo que da como resultado una mutación presente en el ADN de la descendencia mientras que está ausente tanto en los espermatozoides como en los óvulos. [21]
Existen múltiples mecanismos de transcripción y traducción para prevenir la letalidad debido a mutaciones perjudiciales en la región codificante. Dichas medidas incluyen la corrección de errores por parte de algunas ADN polimerasas durante la replicación, la reparación de errores de apareamiento después de la replicación [22] y la " hipótesis del tambaleo ", que describe la degeneración de la tercera base dentro de un codón de ARNm [23] .
Si bien es bien sabido que el genoma de un individuo puede tener amplias diferencias en comparación con el genoma de otro, investigaciones recientes han descubierto que algunas regiones codificantes están muy restringidas o son resistentes a la mutación entre individuos de la misma especie. Esto es similar al concepto de restricción interespecie en secuencias conservadas . Los investigadores denominaron a estas secuencias altamente restringidas regiones codificantes restringidas (CCR), y también han descubierto que dichas regiones pueden estar involucradas en una selección altamente purificadora . En promedio, hay aproximadamente 1 mutación que altera las proteínas cada 7 bases codificantes, pero algunas CCR pueden tener más de 100 bases en secuencia sin mutaciones que alteren las proteínas observadas, algunas sin siquiera mutaciones sinónimas. [24] Estos patrones de restricción entre genomas pueden proporcionar pistas sobre las fuentes de enfermedades raras del desarrollo o potencialmente incluso letalidad embrionaria. Las variantes clínicamente validadas y las mutaciones de novo en las CCR se han relacionado previamente con trastornos como la encefalopatía epiléptica infantil , el retraso del desarrollo y la enfermedad cardíaca grave. [24]
Si bien la identificación de marcos de lectura abiertos dentro de una secuencia de ADN es sencilla, la identificación de secuencias codificantes no lo es, porque la célula traduce solo un subconjunto de todos los marcos de lectura abiertos a proteínas. [26] Actualmente, la predicción CDS utiliza el muestreo y la secuenciación de ARNm de las células, aunque todavía existe el problema de determinar qué partes de un ARNm dado se traducen realmente a proteína. La predicción CDS es un subconjunto de la predicción genética , esta última también incluye la predicción de secuencias de ADN que codifican no solo proteínas sino también otros elementos funcionales como genes de ARN y secuencias reguladoras.
Tanto en procariotas como en eucariotas , la superposición de genes ocurre con relativa frecuencia en los virus de ADN y ARN como una ventaja evolutiva para reducir el tamaño del genoma mientras se conserva la capacidad de producir varias proteínas a partir de las regiones codificantes disponibles. [27] [28] Tanto para el ADN como para el ARN, las alineaciones por pares pueden detectar regiones codificantes superpuestas, incluidos marcos de lectura abiertos cortos en virus, pero requerirían una cadena codificante conocida para comparar la cadena codificante superpuesta potencial. [29] Un método alternativo que use secuencias de un solo genoma no requeriría múltiples secuencias de genoma para ejecutar comparaciones, pero requeriría al menos 50 nucleótidos superpuestos para ser sensible. [30]
{{cite book}}
: |journal=
ignorado ( ayuda ){{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )