Las secuencias repetidas (también conocidas como elementos repetitivos , unidades repetitivas o repeticiones ) son patrones cortos o largos que se presentan en múltiples copias a lo largo del genoma . En muchos organismos, una fracción significativa del ADN genómico es repetitiva, y más de dos tercios de la secuencia consiste en elementos repetitivos en los humanos. [1] Algunas de estas secuencias repetidas son necesarias para mantener estructuras importantes del genoma, como los telómeros o los centrómeros . [2]
Las secuencias repetidas se clasifican en diferentes clases según características como la estructura, la longitud, la ubicación, el origen y el modo de multiplicación. La disposición de elementos repetitivos a lo largo del genoma puede consistir en conjuntos directamente adyacentes llamados repeticiones en tándem o en repeticiones dispersas por todo el genoma llamadas repeticiones intercaladas . [3] Las repeticiones en tándem y las repeticiones intercaladas se clasifican además en subclases según la longitud de la secuencia repetida y/o el modo de multiplicación.
Si bien algunas secuencias repetidas de ADN son importantes para el funcionamiento celular y el mantenimiento del genoma, otras secuencias repetitivas pueden ser perjudiciales. Muchas secuencias repetitivas de ADN se han relacionado con enfermedades humanas, como la enfermedad de Huntington y la ataxia de Friedreich. Algunos elementos repetitivos son neutros y se producen cuando hay una ausencia de selección para secuencias específicas, dependiendo de cómo se produce la transposición o el entrecruzamiento . [2] Sin embargo, una abundancia de repeticiones neutrales aún puede influir en la evolución del genoma a medida que se acumulan con el tiempo. En general, las secuencias repetidas son un área importante de atención porque pueden proporcionar información sobre las enfermedades humanas y la evolución del genoma. [2]
En la década de 1950, Barbara McClintock observó por primera vez la transposición de ADN e ilustró las funciones del centrómero y el telómero en el Simposio de Cold Spring Harbor. [4] El trabajo de McClintock sentó las bases para el descubrimiento de secuencias repetidas porque la transposición, la estructura del centrómero y la estructura del telómero son posibles a través de elementos repetitivos, pero esto no se comprendía por completo en ese momento. El término "secuencia repetida" fue utilizado por primera vez por Roy John Britten y DE Kohne en 1968; descubrieron que más de la mitad de los genomas eucariotas eran ADN repetitivo a través de sus experimentos sobre la reasociación del ADN. [5] Aunque las secuencias repetitivas de ADN estaban conservadas y eran ubicuas, su papel biológico aún era desconocido. En la década de 1990, se realizaron más investigaciones para dilucidar la dinámica evolutiva de las repeticiones de minisatélites y microsatélites debido a su importancia en la ciencia forense basada en ADN y la ecología molecular . Las repeticiones dispersas en el ADN se reconocieron cada vez más como una fuente potencial de variación y regulación genética . Los descubrimientos de enfermedades nocivas relacionadas con el ADN repetitivo estimularon un mayor interés en esta área de estudio. [6] En la década de 2000, los datos de la secuenciación completa del genoma eucariota permitieron la identificación de diferentes promotores, potenciadores y ARN reguladores, todos ellos codificados por regiones repetitivas. Hoy en día, las funciones estructurales y reguladoras de las secuencias repetitivas de ADN siguen siendo un área activa de investigación.
Es probable que muchas secuencias repetidas sean restos no funcionales y en descomposición de elementos transponibles , por lo que se los ha etiquetado como ADN " basura " o " egoísta ". [7] [8] [9] Sin embargo, ocasionalmente algunas repeticiones pueden ser aptas para otras funciones. [10]
Las repeticiones en tándem son secuencias repetidas que están directamente adyacentes entre sí en el genoma. [11] Las repeticiones en tándem pueden variar en la cantidad de nucleótidos que comprenden la secuencia repetida, así como en la cantidad de veces que se repite la secuencia. Cuando la secuencia repetida tiene solo de 2 a 10 nucleótidos de longitud, la repetición se denomina repetición en tándem corta (STR) o microsatélite . [12] Cuando la secuencia repetida tiene de 10 a 60 nucleótidos de longitud, la repetición se denomina minisatélite . [13] Para minisatélites y microsatélites, la cantidad de veces que la secuencia se repite en un solo locus puede variar de dos a cientos de veces.
Las repeticiones en tándem tienen una amplia variedad de funciones biológicas en el genoma. Por ejemplo, los minisatélites suelen ser puntos calientes de recombinación homóloga meiótica en organismos eucariotas. [14] La recombinación se produce cuando dos cromosomas homólogos se alinean, se rompen y se vuelven a unir para intercambiar piezas. La recombinación es importante como fuente de diversidad genética, como mecanismo para reparar el ADN dañado y como paso necesario en la segregación adecuada de los cromosomas en la meiosis. [14] La presencia de ADN de secuencia repetida facilita la alineación de las áreas de homología, controlando así cuándo y dónde se produce la recombinación.
Además de desempeñar un papel importante en la recombinación, las repeticiones en tándem también desempeñan papeles estructurales importantes en el genoma. Por ejemplo, los telómeros están compuestos principalmente de repeticiones en tándem TTAGGG. [15] Estas repeticiones se pliegan en estructuras cuádruplex G altamente organizadas que protegen los extremos del ADN cromosómico de la degradación. [16] Los elementos repetitivos también se enriquecen en el medio de los cromosomas. Los centrómeros son las regiones altamente compactas de los cromosomas que unen las cromátidas hermanas y también permiten que el huso mitótico adhiera y separe las cromátidas hermanas durante la división celular. [17] Los centrómeros están compuestos de una repetición en tándem de 177 pares de bases llamada repetición satélite α. [16] La heterocromatina pericentromérica, el ADN que rodea al centrómero y es importante para el mantenimiento estructural, está compuesta por una mezcla de diferentes subfamilias satélites que incluyen los satélites α, β y γ, así como las repeticiones HSATII, HSATIII y sn5. [18]
Algunas secuencias repetitivas, como las que cumplen funciones estructurales que se han analizado anteriormente, desempeñan funciones necesarias para el funcionamiento biológico adecuado. Otras repeticiones en tándem tienen funciones perjudiciales que provocan enfermedades. Sin embargo, muchas otras repeticiones en tándem tienen funciones desconocidas o poco comprendidas. [19]
Las repeticiones intercaladas son secuencias de ADN idénticas o similares que se encuentran en diferentes lugares del genoma. [20] Las repeticiones intercaladas se distinguen de las repeticiones en tándem en que las secuencias repetidas no están directamente adyacentes entre sí, sino que pueden estar dispersas entre diferentes cromosomas o muy separadas en el mismo cromosoma. La mayoría de las repeticiones intercaladas son elementos transponibles (ET), secuencias móviles que se pueden "cortar y pegar" o "copiar y pegar" en diferentes lugares del genoma. [21] Los ET se denominaban originalmente "genes saltarines" por su capacidad de moverse, pero este término es un tanto engañoso, ya que no todos los ET son genes discretos. [22]
Los elementos transponibles que se transcriben en ARN, se transcriben de forma inversa en ADN y luego se reintegran en el genoma se denominan retrotransposones . [21] Así como las repeticiones en tándem se subcategorizan aún más según la longitud de la secuencia repetitiva, existen muchos tipos diferentes de retrotransposones. Los elementos nucleares intercalados largos ( LINE ) suelen tener una longitud de 3 a 7 kilobases. [23] Los elementos nucleares intercalados cortos ( SINE ) suelen tener entre 100 y 300 pares de bases y no más de 600 pares de bases. [23] Los retrotransposones de repetición terminal larga (LTR) son una tercera clase principal de retrotransposones y se caracterizan por secuencias altamente repetitivas como extremos de la repetición. [21] Cuando un elemento transponible no pasa por el ARN como intermediario, se denomina transposón de ADN . [21] Otros sistemas de clasificación se refieren a los retrotransposones como elementos transponibles de “Clase I” y a los transposones de ADN como elementos transponibles de “Clase II”. [22]
Se estima que los elementos transponibles constituyen el 45% del genoma humano. [24] Dado que la propagación incontrolada de los TE podría causar estragos en el genoma, se han desarrollado muchos mecanismos reguladores para silenciar su propagación, incluida la metilación del ADN, las modificaciones de las histonas, los ARN no codificantes (ARNnc), incluido el ARN interferente pequeño (ARNip), los remodeladores de la cromatina, las variantes de las histonas y otros factores epigenéticos. [22] Sin embargo, los TE desempeñan una amplia variedad de funciones biológicas importantes. Cuando se introducen en un nuevo huésped, como un virus, aumentan la diversidad genética. [22] En algunos casos, los organismos huéspedes encuentran nuevas funciones para las proteínas que surgen de la expresión de TE en un proceso evolutivo llamado exaptación de TE. [22] Investigaciones recientes también sugieren que los TE sirven para mantener la estructura de la cromatina de orden superior y la organización del genoma en 3D. [25] Además, los TE contribuyen a regular la expresión de otros genes al servir como potenciadores distales y sitios de unión de factores de transcripción. [26]
La prevalencia de elementos intercalados en el genoma ha llamado la atención y ha obligado a realizar más investigaciones sobre sus orígenes y funciones. Se han caracterizado algunos elementos intercalados específicos, como la repetición Alu y LINE1.
Se descubrió que la recombinación homóloga entre secuencias cromosómicas repetidas en células somáticas de Nicotiana tabacum aumentaba con la exposición a la mitomicina C , un agente alquilante bifuncional que reticula las cadenas de ADN. [27] Este aumento en la recombinación se atribuyó al aumento de la reparación recombinatoria intracromosómica. [27] Mediante este proceso, el ADN dañado por la mitomicina C en una secuencia se repara utilizando información intacta de la otra secuencia repetida.
Mientras que las repeticiones en tándem y las intercaladas se distinguen según su ubicación en el genoma, las repeticiones directas e invertidas se distinguen según el orden de las bases de los nucleótidos. Las repeticiones directas se producen cuando una secuencia de nucleótidos se repite con la misma direccionalidad. Las repeticiones invertidas se producen cuando una secuencia de nucleótidos se repite en la dirección inversa. Por ejemplo, una repetición directa de "CATCAT" sería otra repetición de "CATCAT". Por el contrario, la repetición invertida sería "ATGATG". Cuando no hay nucleótidos que separen la repetición invertida, como "CATCATATGATG", la secuencia se denomina repetición palindrómica. Las repeticiones invertidas pueden desempeñar funciones estructurales en el ADN y el ARN formando bucles de tallo y cruciformes. [28]
En el caso de los seres humanos, algunas secuencias repetidas de ADN están asociadas a enfermedades. En concreto, las secuencias repetidas en tándem son la base de varias enfermedades humanas , en particular las enfermedades por repetición de trinucleótidos, como la enfermedad de Huntington , el síndrome del cromosoma X frágil , varias ataxias espinocerebelosas , la distrofia miotónica y la ataxia de Friedreich . [29] Las expansiones de repeticiones de trinucleótidos en la línea germinal a lo largo de generaciones sucesivas pueden provocar manifestaciones cada vez más graves de la enfermedad. Estas expansiones de repeticiones de trinucleótidos pueden producirse por deslizamiento de la cadena durante la replicación del ADN o durante la síntesis de reparación del ADN . [29] Se ha observado que los genes que contienen repeticiones CAG patógenas a menudo codifican proteínas que tienen un papel en la respuesta al daño del ADN y que las expansiones de repeticiones pueden perjudicar vías específicas de reparación del ADN. [30] La reparación defectuosa de los daños del ADN en secuencias repetidas puede provocar una mayor expansión de estas secuencias, lo que establece un círculo vicioso de patología. [30]
La enfermedad de Huntington es un trastorno neurodegenerativo que se debe a la expansión de la secuencia de trinucleótidos repetida CAG en el exón 1 del gen huntingtina ( HTT ). Este gen es responsable de codificar la proteína huntingtina que desempeña un papel en la prevención de la apoptosis, [31] también conocida como muerte celular, y la reparación del daño oxidativo del ADN . [32] En la enfermedad de Huntington, la expansión de la secuencia de trinucleótidos CAG codifica una proteína huntingtina mutante con un dominio de poliglutamina expandido. [33] Este dominio hace que la proteína forme agregados en las células nerviosas impidiendo la función celular normal y dando como resultado la neurodegeneración.
El síndrome del cromosoma X frágil es causado por la expansión de la secuencia de ADN CCG en el gen FMR1 en el cromosoma X. [34] Este gen produce la proteína de unión al ARN FMRP. En el caso del síndrome del cromosoma X frágil, la secuencia repetida hace que el gen sea inestable y, por lo tanto, silencia el gen FMR1. [35] Debido a que el gen reside en el cromosoma X, las mujeres que tienen dos cromosomas X se ven menos afectadas que los hombres que solo tienen un cromosoma X y un cromosoma Y porque el segundo cromosoma X puede compensar el silenciamiento del gen en el otro cromosoma X.
La enfermedad de las ataxias espinocerebelosas tiene secuencias repetidas de trinucleótidos CAG que subyacen a varios tipos de ataxias espinocerebelosas (SCA: SCA1 ; SCA2; SCA3; SCA6; SCA7; SCA12; SCA17 ). [36] De manera similar a la enfermedad de Huntington, la cola de poliglutamina creada debido a esta expansión de trinucleótidos causa la agregación de proteínas, lo que impide la función celular normal y causa neurodegeneración. [37]
La ataxia de Friedreich es un tipo de ataxia que tiene una secuencia de repetición expandida GAA en el gen de la frataxina. [38] El gen de la frataxina es responsable de producir la proteína frataxina, que es una proteína mitocondrial involucrada en la producción de energía y la respiración celular. [39] La secuencia expandida GAA da como resultado el silenciamiento del primer intrón, lo que resulta en la pérdida de la función de la proteína frataxina. La pérdida de un gen FXN funcional conduce a problemas con el funcionamiento mitocondrial en su conjunto y puede presentarse fenotípicamente en los pacientes como dificultad para caminar.
La distrofia miotónica es un trastorno que se presenta como debilidad muscular y consta de dos tipos principales: DM1 y DM2. [40] Ambos tipos de distrofia miotónica se deben a secuencias de ADN expandidas. En DM1, la secuencia de ADN que se expande es CTG, mientras que en DM2 es CCTG. Estas dos secuencias se encuentran en genes diferentes; la secuencia expandida en DM2 se encuentra en el gen ZNF9 y la secuencia expandida en DM1 se encuentra en el gen DMPK . Los dos genes no codifican proteínas a diferencia de otros trastornos como la enfermedad de Huntington o el síndrome del cromosoma X frágil. Sin embargo, se ha demostrado que existe un vínculo entre la toxicidad del ARN y las secuencias repetidas en DM1 y DM2.
No todas las enfermedades causadas por secuencias repetidas de ADN son enfermedades de repetición de trinucleótidos. Las enfermedades como la esclerosis lateral amiotrófica y la demencia frontotemporal son causadas por secuencias repetidas de hexanucleótidos GGGGCC en el gen C9orf72 , lo que provoca toxicidad del ARN que conduce a la neurodegeneración. [41] [36]
El ADN repetitivo es difícil de secuenciar utilizando técnicas de secuenciación de última generación porque el ensamblaje de secuencias a partir de lecturas cortas simplemente no puede determinar la longitud de una parte repetitiva. Este problema es particularmente grave en el caso de los microsatélites, que están formados por minúsculas unidades repetidas de entre 1 y 6 pb. [42] Aunque son difíciles de secuenciar, estas repeticiones cortas tienen un gran valor en la identificación de huellas dactilares del ADN y en los estudios evolutivos. Muchos investigadores han dejado de lado históricamente las secuencias repetitivas al analizar y publicar datos del genoma completo debido a limitaciones técnicas. [43]
Bustos et al. propusieron un método para secuenciar largos tramos de ADN repetitivo. [42] El método combina el uso de un vector lineal para la estabilización y la exonucleasa III para la eliminación de regiones ricas en repeticiones de secuencias simples (SSR) continuas. Primero, los fragmentos ricos en SSR se clonan en un vector lineal que puede incorporar de manera estable repeticiones en tándem de hasta 30 kb. La expresión de repeticiones está prohibida por los terminadores transcripcionales en el vector. El segundo paso implica el uso de la exonucleasa III. La enzima puede eliminar nucleótidos en el extremo 3', lo que da como resultado la producción de una eliminación unidireccional de fragmentos SSR. Finalmente, este producto que ha eliminado fragmentos se multiplica y se analiza con PCR de colonias. Luego, la secuencia se construye mediante una secuenciación ordenada de un conjunto de clones que contienen diferentes deleciones.