Las secuencias de ADN no codificante ( ADNnc ) son componentes del ADN de un organismo que no codifican secuencias de proteínas . Parte del ADN no codificante se transcribe en moléculas funcionales de ARN no codificante (p. ej., ARN de transferencia , microARN , piARN , ARN ribosómico y ARN reguladores ). Otras regiones funcionales de la fracción de ADN no codificante incluyen secuencias reguladoras que controlan la expresión génica ; regiones de unión al andamio ; orígenes de la replicación del ADN ; centrómeros ; y telómeros . Algunas regiones no codificantes parecen ser en su mayoría no funcionales, como los intrones , pseudogenes , ADN intergénico y fragmentos de transposones y virus . Las regiones que son completamente no funcionales se denominan ADN basura .
En las bacterias , las regiones codificantes suelen ocupar el 88% del genoma. [1] El 12% restante no codifica proteínas, pero gran parte todavía tiene función biológica a través de genes donde el transcrito de ARN es funcional (genes no codificantes) y secuencias reguladoras, lo que significa que casi todo el genoma bacteriano tiene una función. . [1] La cantidad de ADN codificante en los eucariotas suele ser una fracción mucho menor del genoma porque los genomas eucariotas contienen grandes cantidades de ADN repetitivo que no se encuentra en los procariotas. El genoma humano contiene entre un 1 y un 2% de ADN codificante. [2] [3] Se desconoce el número exacto porque existen disputas sobre el número de exones codificantes funcionales y sobre el tamaño total del genoma humano. Esto significa que entre el 98% y el 99% del genoma humano está formado por ADN no codificante y esto incluye muchos elementos funcionales, como genes no codificantes y secuencias reguladoras.
El tamaño del genoma en eucariotas puede variar en un amplio rango, incluso entre especies estrechamente relacionadas. Esta desconcertante observación se conoció originalmente como la paradoja del valor C, donde "C" se refiere al tamaño del genoma haploide. [4] La paradoja se resolvió con el descubrimiento de que la mayoría de las diferencias se debían a la expansión y contracción del ADN repetitivo y no al número de genes. Algunos investigadores especularon que este ADN repetitivo era en su mayor parte ADN basura . Las razones de los cambios en el tamaño del genoma aún se están investigando y este problema se llama Enigma del valor C. [5]
Esto llevó a la observación de que el número de genes no parece correlacionarse con las nociones percibidas de complejidad porque el número de genes parece ser relativamente constante, una cuestión denominada paradoja del valor G. [6] Por ejemplo, se ha informado que el genoma del unicelular Polychaos dubium (anteriormente conocido como Amoeba dubia ) contiene más de 200 veces la cantidad de ADN en humanos (es decir, más de 600 mil millones de pares de bases frente a un poco más de 3 mil millones en humanos). [7] El genoma del pez globo Takifugu rubripes tiene sólo aproximadamente una octava parte del tamaño del genoma humano, pero parece tener un número comparable de genes. Los genes ocupan aproximadamente el 30% del genoma del pez globo y el ADN codificante es aproximadamente el 10%. (ADN no codificante = 90%). El tamaño reducido del genoma del pez globo se debe a una reducción en la longitud de los intrones y a un ADN menos repetitivo. [8] [9]
Utricularia gibba , unaplanta de vejiga , tiene un genoma nuclear muy pequeño (100,7 Mb) en comparación con la mayoría de las plantas. [10] [11] Probablemente evolucionó a partir de un genoma ancestral que tenía un tamaño de 1.500 Mb. [11] El genoma de la vejiga tiene aproximadamente el mismo número de genes que otras plantas, pero la cantidad total de ADN codificante llega a aproximadamente el 30% del genoma. [10] [11]
El resto del genoma (70% de ADN no codificante) consta de promotores y secuencias reguladoras que son más cortas que las de otras especies de plantas. [10] Los genes contienen intrones, pero hay menos y son más pequeños que los intrones de otros genomas de plantas. [10] Hay genes no codificantes, incluidas muchas copias de genes de ARN ribosómico. [11] El genoma también contiene secuencias de telómeros y centrómeros como se esperaba. [11] Gran parte del ADN repetitivo observado en otros eucariotas ha sido eliminado del genoma de la vejiga desde que ese linaje se separó del de otras plantas. Aproximadamente el 59% del genoma de la vejiga consta de secuencias relacionadas con transposones, pero dado que el genoma es mucho más pequeño que otros genomas, esto representa una reducción considerable en la cantidad de este ADN. [11] Los autores del artículo original de 2013 señalan que las afirmaciones de elementos funcionales adicionales en el ADN no codificante de los animales no parecen aplicarse a los genomas de las plantas. [10]
Según un artículo del New York Times, durante la evolución de esta especie, "... la basura genética que no servía para ningún propósito fue eliminada y lo necesario se conservó". [12] Según Victor Albert de la Universidad de Buffalo, la planta es capaz de eliminar su llamado ADN basura y "tener una planta multicelular perfectamente buena con muchas células, órganos, tipos de tejidos y flores diferentes, y puedes hacerlo". sin la basura no es necesaria." [13]
Hay dos tipos de genes : genes codificantes de proteínas y genes no codificantes . [14] Los genes no codificantes son una parte importante del ADN no codificante e incluyen genes para el ARN de transferencia y el ARN ribosómico . Estos genes fueron descubiertos en la década de 1960. Los genomas procarióticos contienen genes para otros ARN no codificantes, pero los genes de ARN no codificantes son mucho más comunes en los eucariotas.
Las clases típicas de genes no codificantes en eucariotas incluyen genes para ARN nucleares pequeños (ARNsn), ARN nucleolares pequeños (ARNsno), microARN (miARN), ARN de interferencia cortos (ARNip), ARN que interactúan con PIWI (ARNpi) y ARN largos no codificantes ( lncRNA). Además, existen varios genes de ARN únicos que producen ARN catalíticos . [15]
Los genes no codificantes representan sólo un pequeño porcentaje de los genomas procarióticos [16] , pero pueden representar una fracción mucho mayor en los genomas eucariotas. [17] En los seres humanos, los genes no codificantes ocupan al menos el 6% del genoma, en gran parte porque hay cientos de copias de genes de ARN ribosómico. [ cita necesaria ] Los genes codificadores de proteínas ocupan aproximadamente el 38% del genoma; una fracción que es mucho mayor que la región codificante porque los genes contienen intrones grandes. [ cita necesaria ]
El número total de genes no codificantes en el genoma humano es controvertido. Algunos científicos piensan que sólo hay unos 5.000 genes no codificantes mientras que otros creen que puede haber más de 100.000 (ver el artículo sobre ARN no codificante ). La diferencia se debe en gran medida al debate sobre la cantidad de genes de lncRNA. [18]
Los promotores son segmentos de ADN cerca del extremo 5' del gen donde comienza la transcripción. Son los sitios donde se une la ARN polimerasa para iniciar la síntesis de ARN. Cada gen tiene un promotor no codificante.
Los elementos reguladores son sitios que controlan la transcripción de un gen cercano. Casi siempre son secuencias donde los factores de transcripción se unen al ADN y estos factores de transcripción pueden activar la transcripción (activadores) o reprimir la transcripción (represores). Los elementos reguladores se descubrieron en los años 1960 y sus características generales se determinaron en los años 1970 mediante el estudio de factores de transcripción específicos en bacterias y bacteriófagos . [ cita necesaria ]
Los promotores y las secuencias reguladoras representan una clase abundante de ADN no codificante, pero en su mayoría consisten en una colección de secuencias relativamente cortas, por lo que no ocupan una fracción muy grande del genoma. La cantidad exacta de ADN regulador en el genoma de los mamíferos no está clara porque es difícil distinguir entre sitios de unión de factores de transcripción falsos y aquellos que son funcionales. Las características de unión de las proteínas de unión al ADN típicas se caracterizaron en la década de 1970 y las propiedades bioquímicas de los factores de transcripción predicen que en células con genomas grandes, la mayoría de los sitios de unión no serán biológicamente funcionales. [ cita necesaria ]
Muchas secuencias reguladoras se encuentran cerca de los promotores, generalmente aguas arriba del sitio de inicio de la transcripción del gen. Algunos ocurren dentro de un gen y algunos se encuentran aguas abajo del sitio de terminación de la transcripción. En eucariotas, existen algunas secuencias reguladoras que se ubican a una distancia considerable de la región promotora. Estas secuencias reguladoras distantes a menudo se denominan potenciadores , pero no existe una definición rigurosa de potenciador que los distinga de otros sitios de unión de factores de transcripción. [19] [20]
Los intrones son las partes de un gen que se transcriben en la secuencia de ARN precursora , pero que finalmente se eliminan mediante el corte y empalme del ARN durante el procesamiento para convertirlo en ARN maduro. Los intrones se encuentran en ambos tipos de genes: genes codificadores de proteínas y genes no codificantes. Están presentes en procariotas pero son mucho más comunes en genomas eucariotas. [ cita necesaria ]
Los intrones del grupo I y del grupo II ocupan sólo un pequeño porcentaje del genoma cuando están presentes. Los intrones spliceosomales (ver Figura) solo se encuentran en eucariotas y pueden representar una proporción sustancial del genoma. En los seres humanos, por ejemplo, los intrones de los genes que codifican proteínas cubren el 37% del genoma. Combinando eso con aproximadamente el 1% de secuencias codificantes significa que los genes codificadores de proteínas ocupan aproximadamente el 38% del genoma humano. Los cálculos para los genes no codificantes son más complicados porque existe una considerable disputa sobre el número total de genes no codificantes, pero tomar sólo los ejemplos bien definidos significa que los genes no codificantes ocupan al menos el 6% del genoma. [21] [2]
Los libros de texto estándar de bioquímica y biología molecular describen nucleótidos no codificantes en ARNm ubicados entre el extremo 5' del gen y el codón de inicio de la traducción. Estas regiones se denominan regiones 5' no traducidas o 5'-UTR. Al final del gen se encuentran regiones similares llamadas regiones 3' no traducidas (3'-UTR). Las 5'-UTR y 3'UTR son muy cortas en las bacterias, pero pueden tener varios cientos de nucleótidos de longitud en los eucariotas. Contienen elementos cortos que controlan el inicio de la traducción (5'-UTR) y la terminación de la transcripción (3'-UTR), así como elementos reguladores que pueden controlar la estabilidad, el procesamiento y la orientación del ARNm a diferentes regiones de la célula. [22] [23] [24]
La síntesis de ADN comienza en sitios específicos llamados orígenes de replicación . Estas son regiones del genoma donde se ensambla la maquinaria de replicación del ADN y se desenrolla el ADN para comenzar la síntesis de ADN. En la mayoría de los casos, la replicación se produce en ambas direcciones desde el origen de la replicación.
Las características principales de los orígenes de replicación son secuencias a las que se unen proteínas de iniciación específicas. Un origen de replicación típico cubre entre 100 y 200 pares de bases de ADN. Los procariotas tienen un origen de replicación por cromosoma o plásmido, pero suele haber múltiples orígenes en los cromosomas eucariotas. El genoma humano contiene alrededor de 100.000 orígenes de replicación que representan aproximadamente el 0,3% del genoma. [25] [26] [27]
Los centrómeros son los sitios donde las fibras del huso se unen a los cromosomas recién replicados para segregarlos en células hijas cuando la célula se divide. Cada cromosoma eucariota tiene un único centrómero funcional que se ve como una región constreñida en un cromosoma en metafase condensado. El ADN centromérico consta de una serie de secuencias de ADN repetitivas que a menudo ocupan una fracción significativa del genoma porque cada centrómero puede tener millones de pares de bases de longitud. En humanos, por ejemplo, se han determinado las secuencias de los 24 centrómeros [29] y representan aproximadamente el 6% del genoma. Sin embargo, es poco probable que todo este ADN no codificante sea esencial, ya que existe una variación considerable en la cantidad total de ADN centromérico en diferentes individuos. [30] Los centrómeros son otro ejemplo de secuencias funcionales de ADN no codificante que se conocen desde hace casi medio siglo y es probable que sean más abundantes que el ADN codificante.
Los telómeros son regiones de ADN repetitivo al final de un cromosoma , que brindan protección contra el deterioro cromosómico durante la replicación del ADN . Estudios recientes han demostrado que los telómeros funcionan para ayudar a su propia estabilidad. El ARN que contiene repeticiones teloméricas (TERRA) son transcritos derivados de los telómeros. Se ha demostrado que TERRA mantiene la actividad de la telomerasa y alarga los extremos de los cromosomas. [31]
Tanto los genomas procarióticos como los eucaróticos están organizados en grandes bucles de ADN unido a proteínas. En eucariotas, las bases de los bucles se denominan regiones de unión a andamios (SAR) y consisten en tramos de ADN que se unen a un complejo de ARN/proteína para estabilizar el bucle. Hay alrededor de 100.000 bucles en el genoma humano y cada uno consta de aproximadamente 100 pb de ADN. La cantidad total de ADN dedicada a los SAR representa aproximadamente el 0,3% del genoma humano. [32]
Los pseudogenes son en su mayoría genes antiguos que han dejado de funcionar debido a una mutación, pero el término también se refiere a secuencias de ADN inactivas que se derivan de ARN producidos por genes funcionales ( pseudogenes procesados ). Los pseudogenes son sólo una pequeña fracción del ADN no codificante en los genomas procarióticos porque se eliminan mediante selección negativa. En algunos eucariotas, sin embargo, los pseudogenes pueden acumularse porque la selección no es lo suficientemente poderosa como para eliminarlos (ver Teoría casi neutral de la evolución molecular ).
El genoma humano contiene alrededor de 15.000 pseudogenes derivados de genes codificadores de proteínas y un número desconocido derivados de genes no codificantes. [33] Pueden cubrir una fracción sustancial del genoma (~5%) ya que muchos de ellos contienen secuencias de intrones anteriores.
Los pseudogenes son ADN basura por definición y evolucionan a un ritmo neutro como se espera del ADN basura. [34] Algunos pseudogenes anteriores han adquirido secundariamente una función y esto lleva a algunos científicos a especular que la mayoría de los pseudogenes no son basura porque tienen una función aún por descubrir. [35]
Los transposones y retrotransposones son elementos genéticos móviles . Las secuencias repetidas de retrotransposones , que incluyen elementos nucleares intercalados largos (LINE) y elementos nucleares intercalados cortos (SINE), representan una gran proporción de las secuencias genómicas en muchas especies. Las secuencias Alu , clasificadas como elemento nuclear corto intercalado, son los elementos móviles más abundantes en el genoma humano. Se han encontrado algunos ejemplos de SINE que ejercen control transcripcional de algunos genes que codifican proteínas. [36] [37] [38]
Las secuencias endógenas de retrovirus son el producto de la transcripción inversa de genomas de retrovirus en genomas de células germinales . La mutación dentro de estas secuencias retrotranscritas puede inactivar el genoma viral. [39]
Más del 8% del genoma humano está formado por secuencias de retrovirus endógenos (en su mayoría descompuestas), como parte de la fracción de más del 42% que se deriva claramente de retrotransposones, mientras que otro 3% puede identificarse como restos de transposones de ADN . Se espera que gran parte de la mitad restante del genoma, que actualmente carece de un origen explicado, haya encontrado su origen en elementos transponibles que estuvieron activos hace tanto tiempo (> 200 millones de años) que mutaciones aleatorias los han vuelto irreconocibles. [40] La variación del tamaño del genoma en al menos dos tipos de plantas es principalmente el resultado de secuencias de retrotransposones. [41] [42]
El ADN altamente repetitivo consiste en tramos cortos de ADN que se repiten muchas veces en tándem (uno tras otro). Los segmentos repetidos suelen tener entre 2 pb y 10 pb, pero se conocen otros más largos. El ADN altamente repetitivo es raro en procariotas pero común en eucariotas, especialmente aquellos con genomas grandes. A veces se le llama ADN satélite .
La mayor parte del ADN altamente repetitivo se encuentra en centrómeros y telómeros (ver arriba) y la mayor parte es funcional, aunque parte puede ser redundante. La otra fracción significativa reside en repeticiones cortas en tándem (STR; también llamadas microsatélites ) que consisten en tramos cortos de una repetición simple como ATC. Hay alrededor de 350.000 STR en el genoma humano y están dispersos por todo el genoma con una longitud promedio de aproximadamente 25 repeticiones. [43] [44]
Las variaciones en el número de repeticiones STR pueden causar enfermedades genéticas cuando se encuentran dentro de un gen, pero la mayoría de estas regiones parecen ser ADN basura no funcional donde el número de repeticiones puede variar considerablemente de un individuo a otro. Esta es la razón por la que estas diferencias de longitud se utilizan ampliamente en la toma de huellas dactilares del ADN .
El ADN basura es ADN que no tiene ninguna función biológicamente relevante, como pseudogenes y fragmentos de transposones que alguna vez estuvieron activos. Los genomas de bacterias y virus tienen muy poco ADN basura [45] [46], pero algunos genomas eucariotas pueden tener una cantidad sustancial de ADN basura. [47] No se ha determinado la cantidad exacta de ADN no funcional en humanos y otras especies con genomas grandes y existe una considerable controversia en la literatura científica. [48] [49]
El ADN no funcional en los genomas bacterianos se encuentra principalmente en la fracción intergénica del ADN no codificante, pero en los genomas eucariotas también se puede encontrar dentro de los intrones . Hay muchos ejemplos de elementos de ADN funcionales en el ADN no codificante, y es erróneo equiparar el ADN no codificante con el ADN basura.
Los estudios de asociación de todo el genoma (GWAS) identifican vínculos entre alelos y rasgos observables como fenotipos y enfermedades. La mayoría de las asociaciones se dan entre polimorfismos de un solo nucleótido (SNP) y el rasgo que se examina y la mayoría de estos SNP se encuentran en ADN no funcional. La asociación establece un vínculo que ayuda a mapear la región del ADN responsable del rasgo, pero no necesariamente identifica las mutaciones que causan la enfermedad o la diferencia fenotípica. [50] [51] [52] [53] [54]
Los SNP que están estrechamente vinculados a rasgos son los que tienen más probabilidades de identificar una mutación causal. (La asociación se conoce como desequilibrio de vínculo estrecho ). Aproximadamente el 12% de estos polimorfismos se encuentran en regiones codificantes; alrededor del 40% se encuentran en intrones; y la mayoría del resto se encuentran en regiones intergénicas, incluidas secuencias reguladoras. [51]