La variación del número de copias ( CNV ) es un fenómeno en el que se repiten secciones del genoma y el número de repeticiones en el genoma varía entre individuos. [1] La variación del número de copias es un tipo de variación estructural : específicamente, es un tipo de evento de duplicación o deleción que afecta a un número considerable de pares de bases. [2] Aproximadamente dos tercios de todo el genoma humano pueden estar compuestos de repeticiones [3] y entre el 4,8 y el 9,5 % del genoma humano puede clasificarse como variaciones del número de copias. [4] En los mamíferos , las variaciones del número de copias juegan un papel importante en la generación de la variación necesaria en la población, así como en el fenotipo de la enfermedad. [1]
Las variaciones en el número de copias se pueden clasificar en dos grupos principales: repeticiones cortas y repeticiones largas. Sin embargo, no hay límites claros entre los dos grupos y la clasificación depende de la naturaleza de los loci de interés. Las repeticiones cortas incluyen principalmente repeticiones de dinucleótidos (dos nucleótidos repetidos, p. ej., ACACAC...) y repeticiones de trinucleótidos. Las repeticiones largas incluyen repeticiones de genes completos. Esta clasificación basada en el tamaño de la repetición es el tipo de clasificación más obvio, ya que el tamaño es un factor importante para examinar los tipos de mecanismos que probablemente dieron lugar a las repeticiones, [5] de ahí los probables efectos de estas repeticiones en el fenotipo.
Uno de los ejemplos más conocidos de una variación corta en el número de copias es la repetición de trinucleótidos de los pares de bases CAG en el gen huntingtina responsable del trastorno neurológico enfermedad de Huntington . [6] Para este caso particular, una vez que el trinucleótido CAG se repite más de 36 veces en una expansión de repetición de trinucleótidos , es probable que la enfermedad de Huntington se desarrolle en el individuo y es probable que sea heredada por su descendencia. [6] El número de repeticiones del trinucleótido CAG está inversamente correlacionado con la edad de aparición de la enfermedad de Huntington. [7] A menudo se piensa que estos tipos de repeticiones cortas se deben a errores en la actividad de la polimerasa durante la replicación , incluido el deslizamiento de la polimerasa, el cambio de plantilla y el cambio de horquilla, que se analizarán en detalle más adelante. El tamaño de repetición corto de estas variaciones en el número de copias se presta a errores en la polimerasa, ya que estas regiones repetidas son propensas a un reconocimiento erróneo por parte de la polimerasa y las regiones replicadas pueden replicarse nuevamente, lo que lleva a copias adicionales de la repetición. [8] Además, si estas repeticiones de trinucleótidos están en el mismo marco de lectura en la porción codificante de un gen, puede conducir a una cadena larga del mismo aminoácido , posiblemente creando agregados de proteínas en la célula, [7] y si estas repeticiones cortas caen en la porción no codificante del gen, puede afectar la expresión y regulación genética . Por otro lado, un número variable de repeticiones de genes completos se identifica con menos frecuencia en el genoma. Un ejemplo de una repetición de un gen completo es el gen de la alfa-amilasa 1 ( AMY1 ) que codifica la alfa-amilasa que tiene una variación significativa en el número de copias entre diferentes poblaciones con diferentes dietas. [9] Aunque el mecanismo específico que permite que el gen AMY1 aumente o disminuya su número de copias todavía es un tema de debate, algunas hipótesis sugieren que la unión de extremos no homólogos o la unión de extremos mediada por microhomología es probablemente responsable de estas repeticiones de genes completos. [9] Las repeticiones de genes enteros tienen efectos inmediatos en la expresión de ese gen en particular, y el hecho de que la variación del número de copias del gen AMY1 se haya relacionado con la dieta es un ejemplo notable de adaptación evolutiva humana reciente. [9]Aunque estos son los grupos generales en los que se agrupan las variaciones del número de copias, la cantidad exacta de pares de bases que afectan las variaciones del número de copias depende de los loci específicos de interés. Actualmente, utilizando datos de todas las variaciones del número de copias informadas, el tamaño medio de la variante del número de copias es de alrededor de 118 kb y la mediana es de alrededor de 18 kb. [10]
En términos de la arquitectura estructural de las variaciones del número de copias, la investigación ha sugerido y definido regiones de puntos calientes en el genoma donde las variaciones del número de copias son cuatro veces más enriquecidas. [2] Estas regiones de puntos calientes se definieron como regiones que contienen repeticiones largas que son 90-100% similares conocidas como duplicaciones segmentarias, ya sea en tándem o intercaladas y, lo más importante, estas regiones de puntos calientes tienen una mayor tasa de reordenamiento cromosómico . [2] Se pensaba que estos reordenamientos cromosómicos a gran escala dan lugar a la variación normal y enfermedades genéticas , incluidas las variaciones del número de copias. [1] Además, estos puntos calientes de variación del número de copias son consistentes en muchas poblaciones de diferentes continentes, lo que implica que estos puntos calientes fueron adquiridos independientemente por todas las poblaciones y transmitidos a través de generaciones, o fueron adquiridos en la evolución humana temprana antes de que las poblaciones se dividieran, lo último parece más probable. [1] Por último, los sesgos espaciales de la ubicación en la que las variaciones del número de copias se distribuyen más densamente no parecen ocurrir en el genoma. [1] Aunque originalmente se detectó mediante hibridación in situ fluorescente y análisis de microsatélites que las repeticiones del número de copias se localizan en regiones que son altamente repetitivas, como los telómeros , los centrómeros y la heterocromatina , [11] estudios recientes de todo el genoma han concluido lo contrario. [2] Es decir, las regiones subteloméricas y las regiones pericentroméricas son donde se encuentran la mayoría de los puntos calientes de reordenamiento cromosómico, y no hay un aumento considerable en las variaciones del número de copias en esa región. [2] Además, estas regiones de puntos calientes de reordenamiento cromosómico no tienen números de genes disminuidos, lo que nuevamente implica que hay un sesgo espacial mínimo de la ubicación genómica de las variaciones del número de copias. [2]
Inicialmente, se pensaba que la variación del número de copias ocupaba una porción extremadamente pequeña e insignificante del genoma a través de observaciones citogenéticas . [12] Las variaciones del número de copias generalmente se asociaban solo con pequeñas repeticiones en tándem o trastornos genéticos específicos, [13] por lo tanto, las variaciones del número de copias inicialmente solo se examinaban en términos de loci específicos. Sin embargo, los avances tecnológicos llevaron a un número cada vez mayor de formas altamente precisas de identificar y estudiar las variaciones del número de copias. Las variaciones del número de copias se estudiaron originalmente mediante técnicas citogenéticas, que son técnicas que permiten observar la estructura física del cromosoma. [12] Una de estas técnicas es la hibridación in situ fluorescente (FISH), que implica la inserción de sondas fluorescentes que requieren un alto grado de complementariedad en el genoma para unirse. [10] La hibridación genómica comparativa también se usaba comúnmente para detectar variaciones del número de copias mediante visualización de fluoróforos y luego comparar la longitud de los cromosomas. [10]
Los recientes avances en las tecnologías genómicas dieron lugar a muchos métodos importantes que tienen una resolución genómica extremadamente alta y, como resultado, se ha informado de un número cada vez mayor de variaciones en el número de copias en el genoma. [10] Inicialmente, estos avances implicaban el uso de una matriz de cromosomas artificiales bacterianos (BAC) con alrededor de 1 megabase de intervalos en todo el gen, [14] los BAC también pueden detectar variaciones en el número de copias en puntos críticos de reordenamiento, lo que permite la detección de 119 nuevas variaciones en el número de copias. [2] La secuenciación genómica de alto rendimiento ha revolucionado el campo de la genómica humana y se han realizado estudios in silico para detectar variaciones en el número de copias en el genoma. [2] Las secuencias de referencia se han comparado con otras secuencias de interés utilizando fósmidos controlando estrictamente que los clones de fósmidos tengan 40 kb. [15] Las lecturas finales de secuenciación proporcionarían información adecuada para alinear la secuencia de referencia con la secuencia de interés, y cualquier desalineación se nota fácilmente, por lo que se concluye que son variaciones en el número de copias dentro de esa región del clon. [15] Este tipo de técnica de detección ofrece una alta resolución genómica y una localización precisa de la repetición en el genoma, y también puede detectar otros tipos de variación estructural como las inversiones. [10]
Además, otra forma de detectar la variación del número de copias es utilizando polimorfismos de un solo nucleótido (SNP). [10] Debido a la abundancia de datos de SNP humanos, la dirección de la detección de la variación del número de copias ha cambiado para utilizar estos SNP. [16] Basándose en el hecho de que la recombinación humana es relativamente rara y que muchos eventos de recombinación ocurren en regiones específicas del genoma conocidas como puntos calientes de recombinación, el desequilibrio de ligamiento se puede utilizar para identificar variaciones en el número de copias. [16] Se han realizado esfuerzos para asociar variaciones en el número de copias con SNP de haplotipos específicos mediante el análisis del desequilibrio de ligamiento, utilizando estas asociaciones, uno puede reconocer variaciones en el número de copias en el genoma utilizando SNP como marcadores. Las técnicas de secuenciación de próxima generación, que incluyen secuenciación de lectura corta y larga, se utilizan cada vez más hoy en día y han comenzado a reemplazar las técnicas basadas en matrices para detectar variaciones en el número de copias. [17] [18]
Existen dos tipos principales de mecanismos moleculares para la formación de variaciones en el número de copias: los homólogos y los no homólogos. [5] Aunque se han propuesto muchas sugerencias, la mayoría de estas teorías son especulaciones y conjeturas. No hay evidencia concluyente que correlacione una variación específica en el número de copias con un mecanismo específico.
Una de las teorías más reconocidas que conduce a variaciones en el número de copias, así como a deleciones e inversiones, son las recombinaciones homólogas no alélicas . [19] Durante la recombinación meiótica , los cromosomas homólogos se aparean y forman roturas de doble cadena en dos extremos que conducen a las uniones de Holliday . Sin embargo, en el mecanismo aberrante, durante la formación de las uniones de Holliday, las roturas de doble cadena se desalinean y el cruce aterriza en posiciones no alélicas en el mismo cromosoma. Cuando se resuelve la unión de Holliday, el evento de cruce desigual permite la transferencia de material genético entre los dos cromosomas homólogos y, como resultado, se repite una parte del ADN en ambos homólogos. [19] Dado que las regiones repetidas ya no se segregan de forma independiente , se hereda la región duplicada del cromosoma. Otro tipo de mecanismo basado en la recombinación homóloga que puede conducir a la variación del número de copias se conoce como replicación inducida por rotura. [20] Cuando se produce una rotura de doble cadena en el genoma de forma inesperada, la célula activa vías que median la reparación de la rotura. [20] Los errores en la reparación de la rotura, de forma similar a la recombinación homóloga no alélica, pueden conducir a un aumento del número de copias de una región particular del genoma. Durante la reparación de una rotura de doble cadena, el extremo roto puede invadir su cromosoma homólogo en lugar de volver a unirse a la cadena original. [20] Al igual que en el mecanismo de recombinación homóloga no alélica, se transfiere una copia adicional de una región particular a otro cromosoma, lo que conduce a un evento de duplicación. Además, se ha descubierto que las proteínas de cohesión ayudan en el sistema de reparación de roturas de doble cadena mediante la fijación de los dos extremos en estrecha proximidad, lo que evita la invasión intercromosómica de los extremos. [21] Si por alguna razón, como la activación del ARN ribosómico , la actividad de la cohesión se ve afectada, puede haber un aumento local de los errores de reparación de roturas de doble cadena. [21]
La otra clase de mecanismos posibles que se plantean como causantes de variaciones en el número de copias son los mecanismos no homólogos. Para distinguirlos de los mecanismos homólogos, hay que entender el concepto de homología. El apareamiento homólogo de cromosomas implica el uso de cadenas de ADN que son muy similares entre sí (~97 %) y estas cadenas deben ser más largas que una longitud determinada para evitar apareamientos cortos pero muy similares. [5] Los apareamientos no homólogos, por otro lado, dependen de solo unos pocos pares de bases de similitud entre dos cadenas, por lo tanto, es posible que los materiales genéticos se intercambien o dupliquen en el proceso de reparaciones de doble cadena basadas en la no homología. [5]
Un tipo de mecanismo basado en la no homología es el mecanismo de unión de extremos no homólogos o de unión de extremos de microhomología . [22] Estos mecanismos también están involucrados en la reparación de roturas de doble cadena, pero no requieren homología o una microhomología limitada. [5] Cuando se reparan estas cadenas, a menudo hay pequeñas deleciones o inserciones añadidas en la cadena reparada. Es posible que los retrotransposones se inserten en el genoma a través de este sistema de reparación. [22] Si los retrotransposones se insertan en una posición no alélica en el cromosoma, la recombinación meiótica puede hacer que la inserción se recombine en la misma cadena que una copia ya existente de la misma región. Otro mecanismo es el ciclo de rotura-fusión-puente que involucra cromátidas hermanas que han perdido su región telomérica debido a roturas de doble cadena. [23] Se propone que estas cromátidas hermanas se fusionarán para formar un cromosoma dicéntrico y luego se segregarán en dos núcleos diferentes. [23] Debido a que separar el cromosoma dicéntrico causa una ruptura de doble cadena, las regiones finales pueden fusionarse con otras rupturas de doble cadena y repetir el ciclo. [23] La fusión de dos cromátidas hermanas puede causar una duplicación invertida y cuando estos eventos se repiten a lo largo del ciclo, la región invertida se repetirá, lo que provocará un aumento en el número de copias. [23] El último mecanismo que puede provocar variaciones en el número de copias es el deslizamiento de la polimerasa, que también se conoce como cambio de plantilla. [24] Durante la replicación normal del ADN, se requiere que la polimerasa de la cadena rezagada desbloquee y vuelva a bloquear la región de replicación de forma continua. [24] Cuando ya existen repeticiones a pequeña escala en la secuencia de ADN, la polimerasa puede "confundirse" cuando vuelve a bloquear para continuar la replicación y, en lugar de bloquear los pares de bases correctos, puede cambiar algunos pares de bases y replicar una parte de la región repetida de nuevo. [24] Cabe señalar que, aunque esto se ha observado experimentalmente y es un mecanismo ampliamente aceptado, las interacciones moleculares que llevaron a este error siguen siendo desconocidas. Además, debido a que este tipo de mecanismo requiere que la polimerasa salte alrededor de la cadena de ADN y es poco probable que la polimerasa pueda volver a sujetarse en otro locus a algunas kilobases de distancia, esto es más aplicable a repeticiones cortas como repeticiones de dinucleótidos o trinucleótidos. [25]
La amilasa es una enzima de la saliva que es responsable de la descomposición del almidón en monosacáridos , y un tipo de amilasa está codificada por el gen alfa-amilasa ( AMY1 ). [9] El locus AMY1 , así como la enzima amilasa, es uno de los genes más estudiados y secuenciados del genoma humano. Sus homólogos también se encuentran en otros primates y, por lo tanto, es probable que el gen AMY1 de primates sea ancestral del gen AMY1 humano y se haya adaptado temprano en la evolución de los primates. [9] AMY1 es uno de los genes más estudiados que tiene un amplio rango de números variables de copias en diferentes poblaciones humanas. [9] El gen AMY1 es también uno de los pocos genes que se han estudiado que mostraron evidencia convincente que correlaciona su función proteica con su número de copias. [9] Se sabe que el número de copias altera los niveles de transcripción y traducción de un gen en particular, sin embargo, la investigación ha demostrado que la relación entre los niveles de proteína y el número de copias es variable. [26] En los genes AMY1 de los euroamericanos se encontró que la concentración de amilasa salival está estrechamente correlacionada con el número de copias del gen AMY1 . [9] Como resultado, se planteó la hipótesis de que el número de copias del gen AMY1 está estrechamente correlacionado con su función proteica, que es digerir el almidón. [9]
Se ha descubierto que el número de copias del gen AMY1 está correlacionado con diferentes niveles de almidón en las dietas de diferentes poblaciones. [9] Ocho poblaciones de diferentes continentes se clasificaron en dietas altas en almidón y dietas bajas en almidón y su número de copias del gen AMY1 se visualizó utilizando FISH y qPCR de alta resolución . [9] Se encontró que las poblaciones con dieta alta en almidón que consisten en las poblaciones japonesa, hadza y euroamericana tenían un número de copias AMY1 promedio significativamente más alto (dos veces más alto) que las poblaciones con dieta baja en almidón, incluidas las poblaciones Biaka, Mbuti, Datog y Yakut. [9] Se planteó la hipótesis de que los niveles de almidón en la dieta regular de una persona, el sustrato para AMY1, pueden afectar directamente el número de copias del gen AMY1 . [9] Dado que se concluyó que el número de copias de AMY1 está directamente correlacionado con la amilasa salival, [9] cuanto más almidón esté presente en la dieta diaria de la población, más favorable evolutivamente es tener múltiples copias del gen AMY1 . El gen AMY1 fue el primer gen que proporcionó evidencia sólida de la evolución a nivel genético molecular . [26] Además, utilizando hibridación genómica comparativa , se compararon las variaciones del número de copias de todos los genomas de la población japonesa con los de la población Yakut. [9] Se encontró que la variación del número de copias del gen AMY1 era significativamente diferente de la variación del número de copias en otros genes o regiones del genoma, lo que sugiere que el gen AMY1 estaba bajo una fuerte presión selectiva que tenía poca o ninguna influencia en las otras variaciones del número de copias. [9] Finalmente, se comparó la variabilidad de la longitud de 783 microsatélites entre las dos poblaciones con la variabilidad del número de copias del gen AMY1 . Se encontró que el rango del número de copias del gen AMY1 era mayor que el de más del 97% de los microsatélites examinados. [9] Esto implica que la selección natural jugó un papel considerable en la configuración del número promedio de genes AMY1 en estas dos poblaciones. [9] Sin embargo, como solo se estudiaron seis poblaciones, es importante considerar la posibilidad de que haya otros factores en su dieta o cultura que influyeron en el número de copias de AMY1 además del almidón.
Aunque no está claro cuándo comenzó a aumentar el número de copias del gen AMY1 , se sabe y confirma que el gen AMY1 existía en los primeros primates. Se descubrió que los chimpancés , los parientes evolutivos más cercanos a los humanos, tenían dos copias diploides del gen AMY1 que es idéntico en longitud al gen AMY1 humano, [9] que es significativamente menor que la de los humanos. Por otro lado, se descubrió que los bonobos , también un pariente cercano de los humanos modernos, tenían más de dos copias diploides del gen AMY1 . [9] No obstante, se secuenciaron y analizaron los genes AMY1 de los bonobos , y se descubrió que las secuencias codificantes de los genes AMY1 estaban interrumpidas, lo que puede conducir a la producción de amilasa salival disfuncional. [9] Se puede inferir de los resultados que el aumento en el número de copias de AMY1 de los bonobos probablemente no esté correlacionado con la cantidad de almidón en su dieta. Se planteó además la hipótesis de que el aumento del número de copias comenzó recientemente durante la evolución temprana de los homínidos , ya que ninguno de los grandes simios tenía más de dos copias del gen AMY1 que producía proteína funcional. [9] Además, se especuló que el aumento del número de copias de AMY1 comenzó hace unos 20.000 años, cuando los humanos pasaron de un estilo de vida de cazadores-recolectores a sociedades agrícolas , que también fue cuando los humanos dependían en gran medida de tubérculos con alto contenido de almidón. [9] Esta hipótesis, aunque lógica, carece de evidencia experimental debido a las dificultades para recopilar información sobre el cambio de las dietas humanas, especialmente en tubérculos con alto contenido de almidón, ya que no se pueden observar o probar directamente. Los recientes avances en la secuenciación del ADN han permitido a los investigadores secuenciar ADN más antiguo, como el de los neandertales , con un cierto grado de precisión. Tal vez la secuenciación del ADN neandertal pueda proporcionar un marcador temporal de cuándo aumentó el número de copias del gen AMY1 y ofrecer información sobre la dieta humana y la evolución genética.
Actualmente se desconoce qué mecanismo dio lugar a la duplicación inicial del gen de la amilasa, y puede implicar que la inserción de las secuencias retrovirales se debió a la unión de extremos no homólogos, lo que provocó la duplicación del gen AMY1 . [27] Sin embargo, actualmente no hay evidencia que respalde esta teoría y, por lo tanto, esta hipótesis sigue siendo una conjetura. El origen reciente del gen multicopia AMY1 implica que, dependiendo del entorno, el número de copias del gen AMY1 puede aumentar y disminuir muy rápidamente en relación con los genes que no interactúan tan directamente con el medio ambiente. [26] El gen AMY1 es un excelente ejemplo de cómo la dosis génica afecta la supervivencia de un organismo en un entorno determinado. Las múltiples copias del gen AMY1 dan a quienes dependen en mayor medida de dietas ricas en almidón una ventaja evolutiva, por lo tanto, el alto número de copias del gen persiste en la población. [26]
Entre las neuronas del cerebro humano , las variaciones en el número de copias derivadas somáticamente son frecuentes. [28] Las variaciones en el número de copias muestran una amplia variabilidad (entre el 9 y el 100 % de las neuronas cerebrales en diferentes estudios). La mayoría de las alteraciones tienen un tamaño de entre 2 y 10 Mb y las deleciones superan con creces a las amplificaciones. [28]
La duplicación y triplicación genómica del gen parece ser una causa rara de la enfermedad de Parkinson , aunque más común que las mutaciones puntuales. [29]
Las variantes del número de copias en el gen RCL1 están asociadas con una variedad de fenotipos neuropsiquiátricos en niños. [30]
Recientemente, ha habido un debate sobre la conexión de las variaciones en el número de copias con las familias de genes . Las familias de genes se definen como un conjunto de genes relacionados que cumplen funciones similares pero tienen pequeñas diferencias temporales o espaciales y estos genes probablemente derivaron de un gen ancestral . [26] La razón principal por la que las variaciones en el número de copias están conectadas con las familias de genes es que existe la posibilidad de que los genes de una familia puedan haber derivado de un gen ancestral que se duplicó en diferentes copias. [26] Las mutaciones se acumulan a través del tiempo en los genes y con la selección natural actuando sobre los genes, algunas mutaciones conducen a ventajas ambientales que permiten que esos genes se hereden y, finalmente, se separen familias de genes claras. Un ejemplo de una familia de genes que puede haberse creado debido a las variaciones en el número de copias es la familia de genes de globina . La familia de genes de globina es una red elaborada de genes que consta de genes de globina alfa y beta que incluyen genes que se expresan tanto en embriones como en adultos, así como pseudogenes . [31] Estos genes de globina en la familia de las globinas están todos bien conservados y solo difieren en una pequeña porción del gen, lo que indica que se derivaron de un gen ancestral común, quizás debido a la duplicación del gen de globina inicial. [31]
Las investigaciones han demostrado que las variaciones en el número de copias son significativamente más comunes en los genes que codifican proteínas que interactúan directamente con el medio ambiente que en las proteínas que participan en actividades celulares básicas. [32] Se sugirió que el efecto de la dosis génica que acompaña a la variación del número de copias puede conducir a efectos perjudiciales si se alteran las funciones celulares esenciales, por lo que las proteínas implicadas en las vías celulares están sujetas a una fuerte selección purificadora . [32] Además, las proteínas funcionan juntas e interactúan con proteínas de otras vías, por lo que es importante ver los efectos de la selección natural en las vías biomoleculares en lugar de en las proteínas individuales. Dicho esto, se encontró que las proteínas en la periferia de la vía se enriquecen en variaciones del número de copias, mientras que las proteínas en el centro de las vías se agotan en variaciones del número de copias. [33] Se explicó que las proteínas en la periferia de la vía interactúan con menos proteínas y, por lo tanto, un cambio en la dosis de proteína afectado por un cambio en el número de copias puede tener un efecto menor en el resultado general de la vía celular. [33]