Las secuencias repetidas (también conocidas como elementos repetitivos , unidades repetitivas o repeticiones ) son patrones cortos o largos que se presentan en múltiples copias a lo largo del genoma . En muchos organismos, una fracción significativa del ADN genómico es repetitiva; en los seres humanos, más de dos tercios de la secuencia consisten en elementos repetitivos. [1] Algunas de estas secuencias repetidas son necesarias para mantener estructuras genómicas importantes, como los telómeros o los centrómeros . [2]
Las secuencias repetidas se clasifican en diferentes clases según características como estructura, longitud, ubicación, origen y modo de multiplicación. La disposición de elementos repetitivos a lo largo del genoma puede consistir en conjuntos directamente adyacentes llamados repeticiones en tándem o en repeticiones dispersas por todo el genoma llamadas repeticiones intercaladas . [3] Las repeticiones en tándem y las repeticiones intercaladas se clasifican además en subclases según la longitud de la secuencia repetida y/o el modo de multiplicación.
Si bien algunas secuencias repetidas de ADN son importantes para el funcionamiento celular y el mantenimiento del genoma, otras secuencias repetitivas pueden ser perjudiciales. Muchas secuencias repetitivas de ADN se han relacionado con enfermedades humanas como la enfermedad de Huntington y la ataxia de Friedreich. Algunos elementos repetitivos son neutrales y ocurren cuando hay ausencia de selección para secuencias específicas dependiendo de cómo se produce la transposición o el entrecruzamiento . [2] Sin embargo, una gran cantidad de repeticiones neutras aún puede influir en la evolución del genoma a medida que se acumulan con el tiempo. En general, las secuencias repetidas son un área importante de atención porque pueden proporcionar información sobre las enfermedades humanas y la evolución del genoma. [2]
En la década de 1950, Barbara McClintock observó por primera vez la transposición del ADN e ilustró las funciones del centrómero y los telómeros en el Simposio Cold Spring Harbor. [4] El trabajo de McClintock sentó las bases para el descubrimiento de secuencias repetidas porque la transposición, la estructura del centrómero y la estructura de los telómeros son posibles a través de elementos repetitivos, aunque esto no se entendía completamente en ese momento. El término "secuencia repetida" fue utilizado por primera vez por Roy John Britten y DE Kohne en 1968; Descubrieron que más de la mitad de los genomas eucariotas eran ADN repetitivo gracias a sus experimentos sobre reasociación de ADN. [5] Aunque las secuencias repetitivas de ADN estaban conservadas y eran ubicuas, su papel biológico aún se desconocía. En la década de 1990, se llevaron a cabo más investigaciones para dilucidar la dinámica evolutiva de las repeticiones de minisatélites y microsatélites debido a su importancia en la ecología molecular y forense basada en el ADN . Las repeticiones dispersas en ADN fueron reconocidas cada vez más como una fuente potencial de variación y regulación genética . Los descubrimientos de enfermedades nocivas y repetitivas relacionadas con el ADN estimularon un mayor interés en esta área de estudio. [6] En la década de 2000, los datos de la secuenciación completa del genoma eucariota permitieron la identificación de diferentes promotores, potenciadores y ARN reguladores, todos codificados por regiones repetitivas. Hoy en día, las funciones estructurales y reguladoras de las secuencias repetitivas de ADN siguen siendo un área activa de investigación.
Es probable que muchas secuencias repetidas sean restos no funcionales y en descomposición de elementos transponibles , que han sido etiquetados como ADN " basura " o " egoísta ". [7] [8] [9] Sin embargo, ocasionalmente algunas repeticiones pueden exaptarse para otras funciones. [10]
Las repeticiones en tándem son secuencias repetidas que están directamente adyacentes entre sí en el genoma. [11] Las repeticiones en tándem pueden variar en el número de nucleótidos que componen la secuencia repetida, así como en el número de veces que se repite la secuencia. Cuando la secuencia repetida tiene solo de 2 a 10 nucleótidos de largo, la repetición se denomina repetición corta en tándem (STR) o microsatélite . [12] Cuando la secuencia repetida tiene entre 10 y 60 nucleótidos de longitud, la repetición se denomina minisatélite . [13] Para minisatélites y microsatélites, el número de veces que la secuencia se repite en un solo locus puede oscilar entre dos y cientos de veces.
Las repeticiones en tándem tienen una amplia variedad de funciones biológicas en el genoma. Por ejemplo, los minisatélites son a menudo puntos críticos de recombinación homóloga meiótica en organismos eucariotas. [14] La recombinación ocurre cuando dos cromosomas homólogos se alinean, se rompen y se vuelven a unir para intercambiar piezas. La recombinación es importante como fuente de diversidad genética, como mecanismo para reparar el ADN dañado y como paso necesario en la segregación adecuada de los cromosomas en la meiosis. [14] La presencia de ADN de secuencia repetida facilita la alineación de las áreas de homología, controlando así cuándo y dónde se produce la recombinación.
Además de desempeñar un papel importante en la recombinación, las repeticiones en tándem también desempeñan funciones estructurales importantes en el genoma. Por ejemplo, los telómeros se componen principalmente de repeticiones TTAGGG en tándem. [15] Estas repeticiones se pliegan en estructuras cuádruples G altamente organizadas que protegen los extremos del ADN cromosómico de la degradación. [16] Los elementos repetitivos también se enriquecen en el medio de los cromosomas. Los centrómeros son las regiones altamente compactas de los cromosomas que unen las cromátidas hermanas y también permiten que el huso mitótico se una y separe las cromátidas hermanas durante la división celular. [17] Los centrómeros están compuestos por una repetición en tándem de 177 pares de bases denominada repetición del satélite α. [16] La heterocromatina pericentromérica, el ADN que rodea el centrómero y es importante para el mantenimiento estructural, se compone de una mezcla de diferentes subfamilias de satélites que incluyen los satélites α, β y γ, así como repeticiones HSATII, HSATIII y sn5. [18] [19]
Algunas secuencias repetitivas, como aquellas con funciones estructurales analizadas anteriormente, desempeñan funciones necesarias para el funcionamiento biológico adecuado. Otras repeticiones en tándem tienen funciones nocivas que provocan enfermedades. Sin embargo, muchas otras repeticiones en tándem tienen funciones desconocidas o poco comprendidas. [20]
Las repeticiones intercaladas son secuencias de ADN idénticas o similares que se encuentran en diferentes ubicaciones del genoma. [21] Las repeticiones intercaladas se distinguen de las repeticiones en tándem en que las secuencias repetidas no están directamente adyacentes entre sí, sino que pueden estar dispersas entre diferentes cromosomas o muy separadas en el mismo cromosoma. La mayoría de las repeticiones intercaladas son elementos transponibles (TE), secuencias móviles que pueden "cortarse y pegarse" o "copiarse y pegarse" en diferentes lugares del genoma. [22] Los TE fueron originalmente llamados "genes saltadores" por su capacidad de moverse, sin embargo, este término es algo engañoso ya que no todos los TE son genes discretos. [23]
Los elementos transponibles que se transcriben en ARN, se transcriben de forma inversa en ADN y luego se reintegran en el genoma se denominan retrotransposones . [22] Así como las repeticiones en tándem se subclasifican según la longitud de la secuencia repetida, existen muchos tipos diferentes de retrotransposones. Los elementos nucleares intercalados largos ( LINE ) suelen tener entre 3 y 7 kilobases de longitud. [24] Los elementos nucleares cortos intercalados ( SINE ) suelen tener entre 100 y 300 pares de bases y no más de 600 pares de bases. [24] Los retrotransposones repetidos de terminales largos (LTR) son una tercera clase principal de retrotransposones y se caracterizan por secuencias altamente repetitivas como extremos de la repetición. [22] Cuando un elemento transponible no pasa a través del ARN como intermediario, se denomina transposón de ADN . [22] Otros sistemas de clasificación se refieren a los retrotransposones como elementos transponibles de "Clase I" y a los transposones de ADN como "Clase II". [23]
Se estima que los elementos transponibles constituyen el 45% del genoma humano. [25] Dado que la propagación incontrolada de TE podría causar estragos en el genoma, muchos mecanismos reguladores han evolucionado para silenciar su propagación, incluida la metilación del ADN, modificaciones de histonas, ARN no codificantes (ARNnc), incluidos pequeños ARN de interferencia (ARNip), remodeladores de cromatina, variantes de histonas y otros factores epigenéticos. [23] Sin embargo, los TE desempeñan una amplia variedad de funciones biológicas importantes. Cuando los TE se introducen en un nuevo huésped, como por ejemplo un virus, aumentan la diversidad genética. [23] En algunos casos, los organismos huéspedes encuentran nuevas funciones para las proteínas que surgen de la expresión de TE en un proceso evolutivo llamado exaptación de TE. [23] Investigaciones recientes también sugieren que los TE sirven para mantener la estructura de la cromatina de orden superior y la organización del genoma 3D. [26] Además, los TE contribuyen a regular la expresión de otros genes al actuar como potenciadores distales y sitios de unión de factores de transcripción. [27]
La prevalencia de elementos intercalados en el genoma ha atraído la atención para realizar más investigaciones sobre sus orígenes y funciones. Se han caracterizado algunos elementos intercalados específicos, como la repetición Alu y LINE1.
Se descubrió que la recombinación homóloga entre secuencias cromosómicas repetidas en células somáticas de Nicotiana tabacum aumenta con la exposición a mitomicina C , un agente alquilante bifuncional que entrecruza las cadenas de ADN. [28] Este aumento en la recombinación se atribuyó al aumento de la reparación recombinante intracromosómica. [28] Mediante este proceso, el ADN dañado por mitomicina C en una secuencia se repara utilizando información intacta de la otra secuencia repetida.
Mientras que las repeticiones en tándem e intercaladas se distinguen según su ubicación en el genoma, las repeticiones directas e invertidas se distinguen según el orden de las bases de nucleótidos. Las repeticiones directas ocurren cuando una secuencia de nucleótidos se repite con la misma direccionalidad. Las repeticiones invertidas ocurren cuando una secuencia de nucleótidos se repite en dirección inversa. Por ejemplo, una repetición directa de "CATCAT" sería otra repetición de "CATCAT". En cambio, la repetida invertida sería "ATGATG". Cuando no hay nucleótidos que separen la repetición invertida, como "CATCATATGATG", la secuencia se denomina repetición palindrómica. Las repeticiones invertidas pueden desempeñar funciones estructurales en el ADN y el ARN formando bucles de tallo y cruciformes. [29]
Para los humanos, algunas secuencias repetidas de ADN están asociadas con enfermedades. Específicamente, las secuencias repetidas en tándem subyacen a varias enfermedades humanas , particularmente enfermedades por repetición de trinucleótidos como la enfermedad de Huntington , el síndrome de X frágil , varias ataxias espinocerebelosas , la distrofia miotónica y la ataxia de Friedreich . [30] Las expansiones de repetición de trinucleótidos en la línea germinal a lo largo de generaciones sucesivas pueden provocar manifestaciones cada vez más graves de la enfermedad. Estas expansiones de repetición de trinucleótidos pueden ocurrir mediante deslizamiento de hebras durante la replicación del ADN o durante la síntesis de reparación del ADN . [30] Se ha observado que los genes que contienen repeticiones CAG patógenas a menudo codifican proteínas que a su vez tienen un papel en la respuesta al daño del ADN y que las expansiones repetidas pueden alterar vías específicas de reparación del ADN. [31] La reparación defectuosa de los daños del ADN en secuencias repetidas puede causar una mayor expansión de estas secuencias, estableciendo así un círculo vicioso de patología. [31]
La enfermedad de Huntington es un trastorno neurodegenerativo que se debe a la expansión de la secuencia repetida de trinucleótidos CAG en el exón 1 del gen de la Huntingtina ( HTT ). Este gen es responsable de codificar la proteínahuntintina, que desempeña un papel en la prevención de la apoptosis, [32] también conocida como muerte celular, y en la reparación del daño oxidativo del ADN . [33] En la enfermedad de Huntington, la expansión de la secuencia de trinucleótidos CAG codifica una proteínahuntingtina mutante con un dominio de poliglutamina expandido. [34] Este dominio hace que la proteína forme agregados en las células nerviosas, lo que impide la función celular normal y produce neurodegeneración.
El síndrome de X frágil es causado por la expansión de la secuencia de ADN CCG en el gen FMR1 del cromosoma X. [35] Este gen produce la proteína de unión a ARN FMRP. En el caso del síndrome de X frágil, la secuencia repetida hace que el gen sea inestable y por tanto silencia el gen FMR1. [36] Debido a que el gen reside en el cromosoma X, las mujeres que tienen dos cromosomas X se ven menos afectadas que los hombres que solo tienen un cromosoma X y un cromosoma Y porque el segundo cromosoma X puede compensar el silenciamiento del gen en el otro cromosoma X. cromosoma.
La enfermedad de las ataxias espinocerebelosas tiene secuencias repetidas de trinucleótidos CAG que subyacen a varios tipos de ataxias espinocerebelosas (SCAs- SCA1 ; SCA2; SCA3; SCA6; SCA7; SCA12; SCA17 ). [37] De manera similar a la enfermedad de Huntington, la cola de poliglutamina creada debido a esta expansión de trinucleótidos causa agregación de proteínas, impidiendo la función celular normal y causando neurodegeneración. [38]
La ataxia de Friedreich es un tipo de ataxia que tiene una secuencia repetida expandida GAA en el gen de la frataxina. [39] El gen frataxina es responsable de producir la proteína frataxina, que es una proteína mitocondrial involucrada en la producción de energía y la respiración celular. [40] La secuencia GAA expandida da como resultado el silenciamiento del primer intrón, lo que resulta en la pérdida de función en la proteína frataxina. La pérdida de un gen FXN funcional provoca problemas con el funcionamiento mitocondrial en su conjunto y puede presentarse fenotípicamente en los pacientes como dificultad para caminar.
La distrofia miotónica es un trastorno que se presenta como debilidad muscular y consta de dos tipos principales: DM1 y DM2. [41] Ambos tipos de distrofia miotónica se deben a secuencias de ADN expandidas. En DM1 la secuencia de ADN que se expande es CTG mientras que en DM2 es CCTG. Estas dos secuencias se encuentran en genes diferentes: la secuencia expandida en DM2 se encuentra en el gen ZNF9 y la secuencia expandida en DM1 se encuentra en el gen DMPK . Los dos genes no codifican proteínas a diferencia de otros trastornos como la enfermedad de Huntington o el síndrome de X frágil. Sin embargo, se ha demostrado que existe un vínculo entre la toxicidad del ARN y las secuencias repetidas en DM1 y DM2.
No todas las enfermedades causadas por secuencias repetidas de ADN son enfermedades por repetición de trinucleótidos. Las enfermedades, la esclerosis lateral amiotrófica y la demencia frontotemporal, son causadas por secuencias repetidas del hexanucleótido GGGGCC en el gen C9orf72 , lo que provoca toxicidad del ARN que conduce a la neurodegeneración. [42] [37]
Es difícil secuenciar el ADN repetitivo utilizando técnicas de secuenciación de próxima generación porque el ensamblaje de secuencias a partir de lecturas cortas simplemente no puede determinar la longitud de una parte repetitiva. Este problema es particularmente grave en el caso de los microsatélites, que están formados por pequeñas unidades repetidas de 1 a 6 pb. [43] Aunque son difíciles de secuenciar, estas repeticiones cortas tienen un gran valor en las huellas digitales del ADN y en los estudios evolutivos. Históricamente, muchos investigadores han omitido secuencias repetitivas al analizar y publicar datos del genoma completo debido a limitaciones técnicas. [44]
Bustos. et al. propuso un método para secuenciar largos tramos de ADN repetitivo. [43] El método combina el uso de un vector lineal para la estabilización y la exonucleasa III para la eliminación de regiones ricas en repeticiones de secuencia simple continua (SSR). En primer lugar, los fragmentos ricos en SSR se clonan en un vector lineal que puede incorporar de forma estable repeticiones en tándem de hasta 30 kb. Los terminadores transcripcionales del vector prohíben la expresión de repeticiones. El segundo paso implica el uso de exonucleasa III. La enzima puede eliminar el nucleótido en el extremo 3', lo que da como resultado la producción de una eliminación unidireccional de fragmentos SSR. Finalmente, este producto que tiene fragmentos delecionados se multiplica y analiza con PCR de colonias. Luego, la secuencia se construye mediante una secuenciación ordenada de un conjunto de clones que contienen diferentes eliminaciones.