Las secuencias de ADN no codificante ( ncDNA ) son componentes del ADN de un organismo que no codifican secuencias de proteínas . Parte del ADN no codificante se transcribe en moléculas de ARN no codificante funcionales (por ejemplo, ARN de transferencia , microARN , piARN , ARN ribosómico y ARN reguladores ). Otras regiones funcionales de la fracción de ADN no codificante incluyen secuencias reguladoras que controlan la expresión génica ; regiones de unión del andamiaje ; orígenes de replicación del ADN ; centrómeros ; y telómeros . Algunas regiones no codificantes parecen ser en su mayoría no funcionales, como intrones , pseudogenes , ADN intergénico y fragmentos de transposones y virus . Las regiones que son completamente no funcionales se denominan ADN basura .
En las bacterias , las regiones codificantes ocupan típicamente el 88% del genoma. [1] El 12% restante no codifica proteínas, pero gran parte de él todavía tiene función biológica a través de genes donde la transcripción de ARN es funcional (genes no codificantes) y secuencias reguladoras, lo que significa que casi todo el genoma bacteriano tiene una función. [1] La cantidad de ADN codificante en eucariotas suele ser una fracción mucho menor del genoma porque los genomas eucariotas contienen grandes cantidades de ADN repetitivo que no se encuentra en procariotas. El genoma humano contiene entre un 1 y un 2% de ADN codificante. [2] [3] El número exacto no se conoce porque existen disputas sobre el número de exones codificantes funcionales y sobre el tamaño total del genoma humano. Esto significa que el 98-99% del genoma humano consiste en ADN no codificante y esto incluye muchos elementos funcionales como genes no codificantes y secuencias reguladoras.
El tamaño del genoma en eucariotas puede variar en un amplio rango, incluso entre especies estrechamente relacionadas. Esta observación desconcertante se conoció originalmente como la paradoja del valor C , donde "C" se refiere al tamaño del genoma haploide. [4] La paradoja se resolvió con el descubrimiento de que la mayoría de las diferencias se debían a la expansión y contracción del ADN repetitivo y no al número de genes. Algunos investigadores especularon que este ADN repetitivo era en su mayoría ADN basura . Las razones de los cambios en el tamaño del genoma aún se están resolviendo y este problema se llama el enigma del valor C. [5]
Esto llevó a la observación de que el número de genes no parece correlacionarse con las nociones percibidas de complejidad porque el número de genes parece ser relativamente constante, un problema denominado la paradoja del valor G. [6] Por ejemplo, se ha informado que el genoma del unicelular Polychaos dubium (antes conocido como Amoeba dubia ) contiene más de 200 veces la cantidad de ADN en humanos (es decir, más de 600 mil millones de pares de bases frente a un poco más de 3 mil millones en humanos). [7] El genoma del pez globo Takifugu rubripes tiene solo una octava parte del tamaño del genoma humano, pero parece tener un número comparable de genes. Los genes ocupan aproximadamente el 30% del genoma del pez globo y el ADN codificante es aproximadamente el 10%. (ADN no codificante = 90%.) El tamaño reducido del genoma del pez globo se debe a una reducción en la longitud de los intrones y un ADN menos repetitivo. [8] [9]
Utricularia gibba , una planta utricularia , tiene un genoma nuclear muy pequeño (100,7 Mb) en comparación con la mayoría de las plantas. [10] [11] Es probable que haya evolucionado a partir de un genoma ancestral que tenía un tamaño de 1.500 Mb. [11] El genoma de la utricularia tiene aproximadamente la misma cantidad de genes que otras plantas, pero la cantidad total de ADN codificante llega a aproximadamente el 30% del genoma. [10] [11]
El resto del genoma (70% de ADN no codificante) consiste en promotores y secuencias reguladoras que son más cortas que las de otras especies de plantas. [10] Los genes contienen intrones, pero hay menos cantidad y son más pequeños que los intrones de otros genomas de plantas. [10] Hay genes no codificantes, incluidas muchas copias de genes de ARN ribosómico. [11] El genoma también contiene secuencias de telómeros y centrómeros, como se esperaba. [11] Gran parte del ADN repetitivo observado en otros eucariotas ha sido eliminado del genoma de la utricularia desde que ese linaje se separó de los de otras plantas. Alrededor del 59% del genoma de la utricularia consiste en secuencias relacionadas con transposones, pero dado que el genoma es mucho más pequeño que otros genomas, esto representa una reducción considerable en la cantidad de este ADN. [11] Los autores del artículo original de 2013 señalan que las afirmaciones de elementos funcionales adicionales en el ADN no codificante de los animales no parecen aplicarse a los genomas de las plantas. [10]
Según un artículo del New York Times, durante la evolución de esta especie, "... la basura genética que no servía para nada fue eliminada, y se conservó lo necesario". [12] Según Victor Albert, de la Universidad de Buffalo, la planta es capaz de eliminar su llamado ADN basura y "tener una planta multicelular perfectamente buena con muchas células, órganos, tipos de tejidos y flores diferentes, y se puede hacer sin la basura. La basura no es necesaria". [13]
Existen dos tipos de genes : los que codifican proteínas y los que no codifican . [14] Los genes que no codifican son una parte importante del ADN no codificante e incluyen los genes del ARN de transferencia y del ARN ribosómico . Estos genes se descubrieron en la década de 1960. Los genomas procariotas contienen genes para varios otros ARN no codificantes, pero los genes del ARN no codificante son mucho más comunes en los eucariotas.
Las clases típicas de genes no codificantes en eucariotas incluyen genes para ARN nucleares pequeños (snRNA), ARN nucleolares pequeños (sno RNA), microARN (miRNA), ARN interferentes cortos (siRNA), ARN que interactúan con PIWI (piRNA) y ARN no codificantes largos (lncRNA). Además, hay una serie de genes de ARN únicos que producen ARN catalíticos . [15]
Los genes no codificantes representan sólo un pequeño porcentaje de los genomas procariotas [16], pero pueden representar una fracción mucho mayor en los genomas eucariotas. [17] En los seres humanos, los genes no codificantes ocupan al menos el 6% del genoma, en gran medida porque hay cientos de copias de genes de ARN ribosómico. [ cita requerida ] Los genes codificantes de proteínas ocupan alrededor del 38% del genoma; una fracción que es mucho mayor que la región codificante porque los genes contienen intrones grandes. [ cita requerida ]
El número total de genes no codificantes en el genoma humano es controvertido. Algunos científicos creen que sólo hay unos 5.000 genes no codificantes, mientras que otros creen que puede haber más de 100.000 (véase el artículo sobre el ARN no codificante ). La diferencia se debe en gran medida al debate sobre el número de genes lncRNA. [18]
Los promotores son segmentos de ADN que se encuentran cerca del extremo 5' del gen, donde comienza la transcripción. Son los sitios donde se une la ARN polimerasa para iniciar la síntesis de ARN. Cada gen tiene un promotor no codificante.
Los elementos reguladores son sitios que controlan la transcripción de un gen cercano. Casi siempre son secuencias donde los factores de transcripción se unen al ADN y estos factores de transcripción pueden activar la transcripción (activadores) o reprimirla (represores). Los elementos reguladores se descubrieron en la década de 1960 y sus características generales se determinaron en la década de 1970 mediante el estudio de factores de transcripción específicos en bacterias y bacteriófagos . [ cita requerida ]
Los promotores y las secuencias reguladoras representan una clase abundante de ADN no codificante, pero en su mayoría consisten en una colección de secuencias relativamente cortas, por lo que no ocupan una fracción muy grande del genoma. La cantidad exacta de ADN regulador en el genoma de los mamíferos no está clara porque es difícil distinguir entre los sitios de unión de factores de transcripción espurios y los que son funcionales. Las características de unión de las proteínas de unión al ADN típicas se caracterizaron en la década de 1970 y las propiedades bioquímicas de los factores de transcripción predicen que en células con genomas grandes, la mayoría de los sitios de unión no serán biológicamente funcionales. [ cita requerida ]
Muchas secuencias reguladoras se encuentran cerca de los promotores, generalmente aguas arriba del sitio de inicio de la transcripción del gen. Algunas se encuentran dentro de un gen y unas pocas se encuentran aguas abajo del sitio de terminación de la transcripción. En los eucariotas, hay algunas secuencias reguladoras que se encuentran a una distancia considerable de la región promotora. Estas secuencias reguladoras distantes a menudo se denominan potenciadores , pero no existe una definición rigurosa de potenciador que lo distinga de otros sitios de unión de factores de transcripción. [19] [20]
Los intrones son las partes de un gen que se transcriben en la secuencia de ARN precursor , pero que finalmente se eliminan mediante el empalme del ARN durante el procesamiento para obtener ARN maduro. Los intrones se encuentran en ambos tipos de genes: genes codificantes de proteínas y genes no codificantes. Están presentes en los procariotas, pero son mucho más comunes en los genomas eucariotas. [ cita requerida ]
Los intrones de los grupos I y II ocupan sólo un pequeño porcentaje del genoma cuando están presentes. Los intrones espliceosómicos (véase la figura) sólo se encuentran en eucariotas y pueden representar una proporción sustancial del genoma. En los seres humanos, por ejemplo, los intrones de los genes codificadores de proteínas cubren el 37% del genoma. Combinando eso con alrededor del 1% de secuencias codificantes significa que los genes codificadores de proteínas ocupan alrededor del 38% del genoma humano. Los cálculos para los genes no codificantes son más complicados porque existe una considerable controversia sobre el número total de genes no codificantes, pero tomando sólo los ejemplos bien definidos significa que los genes no codificantes ocupan al menos el 6% del genoma. [21] [2]
Los libros de texto estándar de bioquímica y biología molecular describen nucleótidos no codificantes en el ARNm ubicados entre el extremo 5' del gen y el codón de inicio de la traducción. Estas regiones se denominan regiones 5' no traducidas o 5'-UTR. En el extremo del gen se encuentran regiones similares llamadas regiones 3' no traducidas (3'-UTR). Las 5'-UTR y 3'UTR son muy cortas en las bacterias, pero pueden tener varios cientos de nucleótidos de longitud en los eucariotas. Contienen elementos cortos que controlan el inicio de la traducción (5'-UTR) y la terminación de la transcripción (3'-UTR), así como elementos reguladores que pueden controlar la estabilidad, el procesamiento y la orientación del ARNm a diferentes regiones de la célula. [22] [23] [24]
La síntesis de ADN comienza en sitios específicos llamados orígenes de replicación . Se trata de regiones del genoma donde se ensambla la maquinaria de replicación del ADN y se desenrolla el ADN para comenzar la síntesis de ADN. En la mayoría de los casos, la replicación se produce en ambas direcciones desde el origen de replicación.
Las características principales de los orígenes de replicación son secuencias donde se unen proteínas de iniciación específicas. Un origen de replicación típico cubre alrededor de 100-200 pares de bases de ADN. Los procariotas tienen un origen de replicación por cromosoma o plásmido, pero generalmente hay múltiples orígenes en los cromosomas eucariotas. El genoma humano contiene alrededor de 100.000 orígenes de replicación que representan aproximadamente el 0,3% del genoma. [25] [26] [27]
Los centrómeros son los sitios donde las fibras del huso se unen a los cromosomas recién replicados para segregarlos en células hijas cuando la célula se divide. Cada cromosoma eucariota tiene un único centrómero funcional que se ve como una región constreñida en un cromosoma metafásico condensado. El ADN centromérico consiste en una serie de secuencias de ADN repetitivas que a menudo ocupan una fracción significativa del genoma porque cada centrómero puede tener millones de pares de bases de longitud. En los humanos, por ejemplo, se han determinado las secuencias de los 24 centrómeros [29] y representan aproximadamente el 6% del genoma. Sin embargo, es poco probable que todo este ADN no codificante sea esencial ya que existe una variación considerable en la cantidad total de ADN centromérico en diferentes individuos. [30] Los centrómeros son otro ejemplo de secuencias de ADN no codificante funcionales que se conocen desde hace casi medio siglo y es probable que sean más abundantes que el ADN codificante.
Los telómeros son regiones de ADN repetitivo en el extremo de un cromosoma , que brindan protección contra el deterioro cromosómico durante la replicación del ADN . Estudios recientes han demostrado que los telómeros funcionan para ayudar a su propia estabilidad. El ARN que contiene repeticiones teloméricas (TERRA) son transcripciones derivadas de los telómeros. Se ha demostrado que TERRA mantiene la actividad de la telomerasa y alarga los extremos de los cromosomas. [31]
Tanto los genomas procariotas como los eucariotas están organizados en grandes bucles de ADN unido a proteínas. En los eucariotas, las bases de los bucles se denominan regiones de unión al andamiaje (SAR, por sus siglas en inglés) y consisten en tramos de ADN que se unen a un complejo ARN/proteína para estabilizar el bucle. Hay alrededor de 100.000 bucles en el genoma humano y cada uno consta de aproximadamente 100 pb de ADN. La cantidad total de ADN dedicado a las SAR representa aproximadamente el 0,3% del genoma humano. [32]
Los pseudogenes son en su mayoría genes antiguos que se han vuelto no funcionales debido a una mutación, pero el término también se refiere a secuencias de ADN inactivas que se derivan de ARN producidos por genes funcionales ( pseudogenes procesados ). Los pseudogenes son solo una pequeña fracción del ADN no codificante en los genomas procariotas porque se eliminan por selección negativa. Sin embargo, en algunos eucariotas, los pseudogenes pueden acumularse porque la selección no es lo suficientemente poderosa como para eliminarlos (véase Teoría casi neutral de la evolución molecular ).
El genoma humano contiene alrededor de 15.000 pseudogenes derivados de genes codificantes de proteínas y un número desconocido derivado de genes no codificantes. [33] Pueden cubrir una fracción sustancial del genoma (~5%) ya que muchos de ellos contienen antiguas secuencias de intrones.
Los pseudogenes son ADN basura por definición y evolucionan a un ritmo neutral como se espera para el ADN basura. [34] Algunos pseudogenes anteriores han adquirido una función de manera secundaria y esto lleva a algunos científicos a especular que la mayoría de los pseudogenes no son basura porque tienen una función aún por descubrir. [35]
Los transposones y retrotransposones son elementos genéticos móviles . Las secuencias repetidas de retrotransposones , que incluyen elementos nucleares intercalados largos (LINE) y elementos nucleares intercalados cortos (SINE), representan una gran proporción de las secuencias genómicas en muchas especies. Las secuencias Alu , clasificadas como un elemento nuclear intercalado corto, son los elementos móviles más abundantes en el genoma humano. Se han encontrado algunos ejemplos de SINE que ejercen control transcripcional de algunos genes codificadores de proteínas. [36] [37] [38]
Las secuencias de retrovirus endógenos son el producto de la transcripción inversa de los genomas de retrovirus en los genomas de las células germinales . La mutación dentro de estas secuencias retrotranscritas puede inactivar el genoma viral. [39]
Más del 8% del genoma humano está formado por secuencias de retrovirus endógenos (en su mayoría desintegradas), como parte de la fracción de más del 42% que se deriva reconociblemente de retrotransposones, mientras que otro 3% puede identificarse como restos de transposones de ADN . Se espera que gran parte de la mitad restante del genoma que actualmente no tiene un origen explicado haya encontrado su origen en elementos transponibles que estuvieron activos hace tanto tiempo (> 200 millones de años) que las mutaciones aleatorias los han vuelto irreconocibles. [40] La variación del tamaño del genoma en al menos dos tipos de plantas es principalmente el resultado de secuencias de retrotransposones. [41] [42]
El ADN altamente repetitivo consiste en fragmentos cortos de ADN que se repiten muchas veces en tándem (uno tras otro). Los segmentos repetidos suelen tener entre 2 y 10 pb, pero se conocen otros más largos. El ADN altamente repetitivo es poco frecuente en procariotas, pero común en eucariotas, especialmente en aquellas con genomas grandes. A veces se lo denomina ADN satélite .
La mayor parte del ADN altamente repetitivo se encuentra en los centrómeros y los telómeros (ver arriba) y la mayor parte es funcional, aunque parte puede ser redundante. La otra fracción significativa reside en repeticiones cortas en tándem (STRs, también llamadas microsatélites ) que consisten en tramos cortos de una repetición simple como ATC. Hay alrededor de 350.000 STR en el genoma humano y están dispersos por todo el genoma con una longitud promedio de aproximadamente 25 repeticiones. [43] [44]
Las variaciones en el número de repeticiones de STR pueden causar enfermedades genéticas cuando se encuentran dentro de un gen, pero la mayoría de estas regiones parecen ser ADN basura no funcional, en el que el número de repeticiones puede variar considerablemente de un individuo a otro. Por eso, estas diferencias de longitud se utilizan ampliamente en la identificación genética .
El ADN basura es ADN que no tiene una función biológicamente relevante, como los pseudogenes y los fragmentos de transposones que alguna vez estuvieron activos. Los genomas de bacterias y virus tienen muy poco ADN basura [45] [46] pero algunos genomas eucariotas pueden tener una cantidad sustancial de ADN basura. [47] No se ha determinado la cantidad exacta de ADN no funcional en humanos y otras especies con genomas grandes y existe una considerable controversia en la literatura científica. [48] [49]
El ADN no funcional en los genomas bacterianos se encuentra principalmente en la fracción intergénica del ADN no codificante, pero en los genomas eucariotas también puede encontrarse dentro de los intrones . Hay muchos ejemplos de elementos de ADN funcionales en el ADN no codificante, y es erróneo equiparar el ADN no codificante con el ADN basura.
Los estudios de asociación de todo el genoma (GWAS) identifican vínculos entre alelos y rasgos observables, como fenotipos y enfermedades. La mayoría de las asociaciones se dan entre polimorfismos de un solo nucleótido (SNP) y el rasgo que se examina, y la mayoría de estos SNP se encuentran en ADN no funcional. La asociación establece un vínculo que ayuda a mapear la región de ADN responsable del rasgo, pero no identifica necesariamente las mutaciones que causan la enfermedad o la diferencia fenotípica. [50] [51] [52] [53] [54]
Los SNP que están estrechamente vinculados a los rasgos son los que tienen más probabilidades de identificar una mutación causal. (La asociación se conoce como desequilibrio de ligamiento estrecho ). Alrededor del 12% de estos polimorfismos se encuentran en regiones codificantes; alrededor del 40% se encuentran en intrones; y la mayoría del resto se encuentra en regiones intergénicas, incluidas las secuencias reguladoras. [51]