Región codificante

La región codificante de un gen , también conocida como secuencia codificante ( CDS ), es la porción del ADN o ARN de un gen que codifica una proteína . ^[1] Estudiar la longitud, composición, regulación, empalme, estructuras y funciones de las regiones codificantes en comparación con las regiones no codificantes en diferentes especies y períodos de tiempo puede proporcionar una cantidad significativa de información importante sobre la organización genética y la evolución de procariotas y eucariotas . ^[2] Esto puede ayudar aún más a mapear el genoma humano y desarrollar terapia genética. ^[3]

Definición

Aunque este término también se usa a veces indistintamente con exón , no es exactamente lo mismo: el exón está compuesto por la región codificante así como por las regiones no traducidas 3' y 5' del ARN, por lo que, por lo tanto, un exón sería compuesto parcialmente por regiones codificantes. Las regiones 3' y 5' no traducidas del ARN, que no codifican proteínas, se denominan regiones no codificantes y no se analizan en esta página. ^[4]

A menudo existe confusión entre regiones codificantes y exomas y existe una clara distinción entre estos términos. Mientras que el exoma se refiere a todos los exones dentro de un genoma, la región codificante se refiere a una sección singular del ADN o ARN que codifica específicamente un determinado tipo de proteína.

Historia

En 1978, Walter Gilbert publicó "Why Genes in Pieces", que comenzó a explorar la idea de que el gen es un mosaico: que cada cadena completa de ácido nucleico no está codificada continuamente sino que está interrumpida por regiones "silenciosas" no codificantes. Este fue el primer indicio de que era necesario hacer una distinción entre las partes del genoma que codifican proteínas, ahora llamadas regiones codificantes, y aquellas que no. ^[5]

Composición

**Tipos de mutación puntual:** las transiciones (azul) son elevadas en comparación con las transversiones (rojo) en regiones codificantes ricas en GC.

La evidencia sugiere que existe una interdependencia general entre los patrones de composición de bases y la disponibilidad de regiones codificantes. ^[6] Se cree que la región codificante contiene un mayor contenido de GC que las regiones no codificantes. Hay investigaciones adicionales que descubrieron que cuanto más larga es la cadena codificante, mayor es el contenido de GC. Las cadenas codificantes cortas son comparativamente todavía pobres en GC, similar al bajo contenido de GC de los codones de parada de traducción de la composición de bases como TAG, TAA y TGA. ^[7]

Las áreas ricas en GC también son donde el tipo de mutación puntual de proporción se altera ligeramente: hay más transiciones , que son cambios de purina a purina o de pirimidina a pirimidina, en comparación con transversiones , que son cambios de purina a pirimidina o de pirimidina a purina. Es menos probable que las transiciones cambien el aminoácido codificado y sigan siendo una mutación silenciosa (especialmente si ocurren en el tercer nucleótido de un codón), lo que suele ser beneficioso para el organismo durante la traducción y la formación de proteínas. ^[8]

Esto indica que las regiones codificantes esenciales (ricas en genes) tienen mayor contenido de GC y son más estables y resistentes a la mutación en comparación con las regiones accesorias y no esenciales (pobres en genes). ^[9] Sin embargo, todavía no está claro si esto se produjo a través de una mutación neutral y aleatoria o mediante un patrón de selección . ^[10] También existe un debate sobre si los métodos utilizados, como las ventanas genéticas, para determinar la relación entre el contenido de GC y la región codificante son precisos e imparciales. ^[11]

Estructura y función

En el ADN , la región codificante está flanqueada por la secuencia promotora en el extremo 5' de la cadena molde y la secuencia de terminación en el extremo 3'. Durante la transcripción , la ARN polimerasa (RNAP) se une a la secuencia promotora y se mueve a lo largo de la cadena plantilla hasta la región codificante. Luego, la RNAP agrega nucleótidos de ARN complementarios a la región codificante para formar el ARNm , sustituyendo la timina por uracilo . ^[12] Esto continúa hasta que la RNAP alcanza la secuencia de terminación. ^[12]

Después de la transcripción y maduración, el ARNm maduro formado abarca múltiples partes importantes para su eventual traducción en proteína . La región codificante de un ARNm está flanqueada por la región 5' no traducida (5'-UTR) y la región 3' no traducida (3'-UTR), ^[1] la tapa 5' y la cola Poly-A . Durante la traducción , el ribosoma facilita la unión de los ARNt a la región codificante, 3 nucleótidos a la vez ( codones ). ^[13] Los ARNt transfieren sus aminoácidos asociados a la cadena polipeptídica en crecimiento , formando finalmente la proteína definida en la región codificante del ADN inicial.

Regulación

La región codificante puede modificarse para regular la expresión génica.

La alquilación es una forma de regulación de la región codificante. ^[15] El gen que se habría transcrito se puede silenciar apuntando a una secuencia específica. Las bases de esta secuencia se bloquearían mediante grupos alquilo , que crean el efecto silenciador . ^[dieciséis]

Si bien la regulación de la expresión genética gestiona la abundancia de ARN o proteína producida en una célula, la regulación de estos mecanismos puede controlarse mediante una secuencia reguladora que se encuentra antes de que comience el marco de lectura abierto en una hebra de ADN. La secuencia reguladora determinará entonces la ubicación y el momento en que se producirá la expresión de una región codificante de proteína. ^[17]

El empalme del ARN determina en última instancia qué parte de la secuencia se traduce y expresa, y este proceso implica cortar intrones y unir exones. Sin embargo, el lugar donde se corta el espliceosoma de ARN está guiado por el reconocimiento de los sitios de empalme , en particular el sitio de empalme 5', que es uno de los sustratos para el primer paso del empalme. ^[18] Las regiones codificantes están dentro de los exones, que se unen covalentemente para formar el ARN mensajero maduro .

Mutaciones

Las mutaciones en la región codificante pueden tener efectos muy diversos sobre el fenotipo del organismo. Si bien algunas mutaciones en esta región del ADN/ARN pueden provocar cambios ventajosos, otras pueden ser perjudiciales y, a veces, incluso letales para la supervivencia de un organismo. Por el contrario, es posible que los cambios en la región no codificante no siempre den como resultado cambios detectables en el fenotipo.

Tipos de mutación

Existen varias formas de mutaciones que pueden ocurrir en las regiones codificantes. Una forma son las mutaciones silenciosas , en las que un cambio en los nucleótidos no da como resultado ningún cambio en los aminoácidos después de la transcripción y la traducción. ^[20] También existen mutaciones sin sentido , donde las alteraciones de bases en la región codificante codifican un codón de parada prematuro, produciendo una proteína final más corta. Las mutaciones puntuales , o cambios de un solo par de bases en la región codificante, que codifican diferentes aminoácidos durante la traducción, se denominan mutaciones sin sentido . Otros tipos de mutaciones incluyen mutaciones por desplazamiento del marco de lectura , como inserciones o eliminaciones . ^[20]

Formación

Algunas formas de mutaciones son hereditarias ( mutaciones de la línea germinal ) o se transmiten de padres a hijos. ^[21] Estas regiones codificantes mutadas están presentes en todas las células del organismo. Otras formas de mutaciones se adquieren ( mutaciones somáticas ) durante la vida de un organismo y pueden no ser constantes de una célula a otra. ^[21] Estos cambios pueden ser causados por mutágenos , carcinógenos u otros agentes ambientales (por ejemplo, rayos UV ). Las mutaciones adquiridas también pueden ser el resultado de errores de copia durante la replicación del ADN y no se transmiten a la descendencia. Los cambios en la región de codificación también pueden ser de novo (nuevo); Se cree que tales cambios ocurren poco después de la fertilización , lo que resulta en una mutación presente en el ADN de la descendencia mientras que está ausente tanto en los espermatozoides como en los óvulos. ^[21]

Prevención

Existen múltiples mecanismos de transcripción y traducción para prevenir la letalidad debida a mutaciones nocivas en la región codificante. Dichas medidas incluyen la corrección por parte de algunas ADN polimerasas durante la replicación, la reparación de errores de coincidencia después de la replicación ^[22] y la ' hipótesis de la oscilación ' que describe la degeneración de la tercera base dentro de un codón de ARNm. ^[23]

Regiones de codificación restringidas (CCR)

Si bien es bien sabido que el genoma de un individuo puede tener grandes diferencias en comparación con el genoma de otro, investigaciones recientes han descubierto que algunas regiones codificantes están muy limitadas o son resistentes a la mutación entre individuos de la misma especie. Esto es similar al concepto de restricción entre especies en secuencias conservadas . Los investigadores denominaron a estas secuencias altamente restringidas regiones codificantes restringidas (CCR) y también descubrieron que dichas regiones pueden estar involucradas en una selección de alta purificación . En promedio, hay aproximadamente 1 mutación que altera las proteínas cada 7 bases codificantes, pero algunos CCR pueden tener más de 100 bases en secuencia sin que se observen mutaciones que alteren las proteínas, algunos incluso sin mutaciones sinónimas. ^[24] Estos patrones de restricción entre genomas pueden proporcionar pistas sobre las fuentes de enfermedades raras del desarrollo o incluso de letalidad embrionaria. Las variantes clínicamente validadas y las mutaciones de novo en los CCR se han relacionado previamente con trastornos como la encefalopatía epiléptica infantil , el retraso en el desarrollo y la enfermedad cardíaca grave. ^[24]

Detección de secuencia de codificación

Si bien la identificación de marcos de lectura abiertos dentro de una secuencia de ADN es sencilla, la identificación de secuencias codificantes no lo es, porque la célula traduce sólo un subconjunto de todos los marcos de lectura abiertos en proteínas. ^[26] Actualmente, la predicción CDS utiliza muestreo y secuenciación de ARNm de células, aunque todavía existe el problema de determinar qué partes de un ARNm determinado se traducen realmente en proteína. La predicción CDS es un subconjunto de la predicción de genes , esta última también incluye la predicción de secuencias de ADN que codifican no solo proteínas sino también otros elementos funcionales como genes de ARN y secuencias reguladoras.

Tanto en procariotas como en eucariotas , la superposición de genes ocurre con relativa frecuencia tanto en virus de ADN como de ARN como una ventaja evolutiva para reducir el tamaño del genoma y al mismo tiempo conservar la capacidad de producir diversas proteínas a partir de las regiones codificantes disponibles. ^[27]^[28] Tanto para el ADN como para el ARN, las alineaciones por pares pueden detectar regiones codificantes superpuestas, incluidos marcos de lectura abiertos cortos en los virus, pero requerirían una cadena codificante conocida con la que comparar la posible cadena codificante superpuesta. ^[29] Un método alternativo que utiliza secuencias de un solo genoma no requeriría múltiples secuencias de genoma para ejecutar comparaciones, pero requeriría al menos 50 nucleótidos superpuestos para ser sensible. ^[30]

Ver también

Hebra codificante: hebra de ADN que codifica una proteína.
Exón La porción completa de la cadena que se transcribe.
ARNm maduro La porción del producto de transcripción del ARNm que se traduce
Estructura genética Los demás elementos que componen un gen.
Gen anidado Toda la secuencia codificante se encuentra dentro de los límites de un gen externo más grande.
ADN no codificante Partes de genomas que no codifican genes codificadores de proteínas
Moléculas de ARN no codificantes que no codifican proteínas, por lo que no tienen CDS
ADN no funcional Partes de genomas sin función biológica relevante

Referencias

^ ab Twyman, Richard (1 de agosto de 2003). "Estructura genética". El Fideicomiso de Bienvenida. Archivado desde el original el 28 de marzo de 2007 . Consultado el 6 de abril de 2003 .
^ Höglund M, Säll T, Röhme D (febrero de 1990). "Sobre el origen de secuencias de codificación a partir de marcos de lectura abiertos aleatorios". Revista de evolución molecular . 30 (2): 104-108. Código Bib : 1990JMolE..30..104H. doi :10.1007/bf02099936. ISSN 0022-2844. S2CID 5978109.
^ Sakharkar MK, Chow VT, Kangueane P (2004). "Distribuciones de exones e intrones en el genoma humano". Biología in silico . 4 (4): 387–93. PMID 15217358.
^ Parnell, Laurence D. (1 de enero de 2012). "Avances en Tecnologías y Diseño de Estudios". En Bouchard, C.; Ordovás, JM (eds.). Avances recientes en nutrigenética y nutrigenómica . vol. 108. Prensa académica. págs. 17–50. doi :10.1016/B978-0-12-398397-8.00002-2. ISBN 9780123983978. PMID 22656372 . Consultado el 7 de noviembre de 2019 . {{cite book}}: |journal=ignorado ( ayuda )
^ Gilbert W (febrero de 1978). "¿Por qué genes en pedazos?". Naturaleza . 271 (5645): 501. Código bibliográfico : 1978Natur.271..501G. doi : 10.1038/271501a0 . PMID 622185. S2CID 4216649.
^ Lercher MJ, Urrutia AO, Pavlícek A, Hurst LD (octubre de 2003). "Una unificación de estructuras en mosaico en el genoma humano". Genética Molecular Humana . 12 (19): 2411–5. doi : 10.1093/hmg/ddg251 . PMID 12915446.
^ Oliver JL, Marín A (septiembre de 1996). "Una relación entre el contenido de GC y la longitud de la secuencia de codificación". Revista de evolución molecular . 43 (3): 216–23. Código Bib : 1996JMolE..43..216O. doi :10.1007/pl00006080. PMID 8703087.
^ "ROSALIND | Glosario | Región codificante de genes". rosalind.info . Consultado el 31 de octubre de 2019 .
^ Vinogradov AE (abril de 2003). "Hélice de ADN: la importancia de ser rico en GC". Investigación de ácidos nucleicos . 31 (7): 1838–44. doi :10.1093/nar/gkg296. PMC 152811 . PMID 12654999.
^ Bohlin J, Eldholm V, Pettersson JH, Brynildsrud O, Snipen L (febrero de 2017). "La composición de nucleótidos de los genomas microbianos indica patrones diferenciales de selección en los genomas centrales y accesorios". Genómica BMC . 18 (1): 151. doi : 10.1186/s12864-017-3543-7 . PMC 5303225 . PMID 28187704.
^ Sémon M, Mouchiroud D, Duret L (febrero de 2005). "Relación entre la expresión genética y el contenido de GC en mamíferos: significación estadística y relevancia biológica". Genética Molecular Humana . 14 (3): 421–7. doi : 10.1093/hmg/ddi038 . PMID 15590696.
^ ab Descripción general de la transcripción. (Dakota del Norte). Obtenido de https://www.khanacademy.org/science/biology/gene-expression-central-dogma/transcription-of-dna-into-rna/a/overview-of-transcription.
^ Clancy, Suzanne (2008). "Traducción: ADN a ARNm a proteína". Citable: por educación natural .
^ Plociam (8 de agosto de 2005), inglés: La estructura de un ARNm eucariota maduro. Un ARNm completamente procesado incluye la tapa 5', la UTR 5', la región codificante, la UTR 3' y la cola poli(A). , recuperado 2019-11-19
^ Shinohara K, Sasaki S, Minoshima M, Bando T, Sugiyama H (13 de febrero de 2006). "La alquilación de la cadena plantilla de la región codificante provoca un silenciamiento genético eficaz". Investigación de ácidos nucleicos . 34 (4): 1189–95. doi :10.1093/nar/gkl005. PMC 1383623 . PMID 16500890.
^ "Término de ontología del gen de alquilación de ADN (GO: 0006305)". www.informatics.jax.org . Consultado el 30 de octubre de 2019 .
^ Shafee T, Lowe R (2017). "Estructura de genes eucariotas y procarióticos". WikiRevista de Medicina . 4 (1). doi : 10.15347/wjm/2017.002 .
^ Konarska MM (1998). "Reconocimiento del sitio de empalme 5 'por parte del espliceosoma". Acta Biochimica Polonica . 45 (4): 869–81. doi : 10.18388/abp.1998_4346 . PMID 10397335.
^ Jonsta247 (10 de mayo de 2013), inglés: ejemplo de mutación silenciosa , consultado el 19 de noviembre de 2019{{citation}}: Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
^ ab Yang, J. (23 de marzo de 2016). ¿Qué son las mutaciones genéticas? Obtenido de https://www.singerinstruments.com/resource/what-are-genetic-mutation/.
^ abc ¿Qué es una mutación genética y cómo ocurren las mutaciones? - Referencia del hogar de genética - NIH. (Dakota del Norte). Obtenido de https://ghr.nlm.nih.gov/primer/mutationsanddisorders/genemutation.
^ "Revisión y reparación de ADN (artículo)". Academia Khan . Consultado el 22 de mayo de 2023 .
^ Peretó J. (2011) Hipótesis del bamboleo (Genética). En: Gargaud M. et al. (eds) Enciclopedia de Astrobiología. Springer, Berlín, Heidelberg
^ ab Havrilla, JM, Pedersen, BS, Layer, RM y Quinlan, AR (2018). Un mapa de regiones codificantes restringidas en el genoma humano. Genética de la naturaleza , 88–95. doi :10.1101/220814
^ Romiguier J, Roux C (2017). "Sesgos analíticos asociados con el contenido de GC en la evolución molecular". Genet delantero . 8 : 16. doi : 10.3389/fgene.2017.00016 . PMC 5309256 . PMID 28261263.
^ Furuno M, Kasukawa T, Saito R, Adachi J, Suzuki H, Baldarelli R, et al. (junio de 2003). "Anotación CDS en secuencia de ADNc completa". Investigación del genoma . 13 (6B). Prensa del laboratorio Cold Spring Harbor: 1478–87. doi :10.1101/gr.1060303. PMC 403693 . PMID 12819146.
^ Rogozin IB, Spiridonov AN, Sorokin AV, Wolf YI, Jordan IK, Tatusov RL, Koonin EV (mayo de 2002). "Selección purificadora y direccional en genes procarióticos superpuestos". Tendencias en Genética . 18 (5): 228–32. doi :10.1016/S0168-9525(02)02649-5. PMID 12047938.
^ Chirico N, Vianelli A, Belshaw R (diciembre de 2010). "Por qué los genes se superponen en los virus". Actas. Ciencias Biologicas . 277 (1701): 3809–17. doi :10.1098/rspb.2010.1052. PMC 2992710 . PMID 20610432.
^ Firth AE, Brown CM (febrero de 2005). "Detección de secuencias codificantes superpuestas con alineaciones por pares". Bioinformática . 21 (3): 282–92. doi : 10.1093/bioinformática/bti007 . PMID 15347574.
^ Schlub TE, Buchmann JP, Holmes EC (octubre de 2018). Malik H (ed.). "Un método simple para detectar genes candidatos superpuestos en virus utilizando secuencias de genoma único". Biología Molecular y Evolución . 35 (10): 2572–2581. doi :10.1093/molbev/msy155. PMC 6188560 . PMID 30099499.