La secuenciación de lectura enlazada , un tipo de tecnología de secuenciación de ADN , utiliza una técnica especializada que etiqueta las moléculas de ADN con códigos de barras únicos antes de fragmentarlas. A diferencia de la tecnología de secuenciación tradicional, en la que el ADN se divide en fragmentos pequeños y luego se secuencia individualmente, lo que da como resultado longitudes de lectura cortas que dificultan la reconstrucción precisa de la secuencia de ADN original, los códigos de barras únicos de la secuenciación de lectura enlazada permiten a los científicos unir fragmentos de ADN que provienen de la misma molécula de ADN. Un beneficio fundamental de esta tecnología radica en las pequeñas cantidades de ADN necesarias para obtener una gran cantidad de información genómica , lo que combina de manera eficaz las ventajas de las tecnologías de lectura larga y lectura corta . [1]
Este método de secuenciación fue desarrollado originalmente por 10x Genomics en 2015 y se lanzó bajo el nombre de 'GemCode' o 'Chromium'. GemCode empleó un método de código de barras basado en perlas de gel para amalgamar fragmentos cortos de ADN. [2] Los fragmentos más largos producidos por esto podrían luego secuenciarse utilizando tecnología validada como la secuenciación de próxima generación de Illumina . [2] [3] La misma empresa presentó una versión actualizada de la secuenciación de lectura enlazada en 2018, denominada 'Linked-Reads V2'. Mientras que GemCode utiliza un solo código de barras para etiquetar tanto la perla de gel como el fragmento de ADN, Linked-Reads V2 utiliza códigos de barras separados para mejorar la detección de variantes genéticas.
El grupo que desarrolló la tecnología de secuenciación de lectura enlazada publicó su primer artículo sobre esta tecnología en 2016. Los autores de este artículo desarrollaron la tecnología de secuenciación de lectura enlazada inicialmente para secuenciar los genomas de individuos sanos y pacientes con cáncer para determinar mutaciones somáticas , variaciones en el número de copias y variaciones estructurales en los genomas del cáncer. [2] Más tarde ese año, otro grupo de investigación combinó la tecnología de secuenciación de lectura enlazada con la tecnología de secuenciación de lectura larga para ensamblar el genoma humano. [3] Ambos estudios demostraron la utilidad de la secuenciación de lectura enlazada en el análisis integral del genoma y en la comprensión de las enfermedades genéticas. Sin embargo, en 2019, una demanda relacionada con la infracción de patentes dio lugar a que 10x Genomics descontinuara su línea de productos de lectura enlazada.
La secuenciación de lectura enlazada se basa en microfluidos y solo necesita nanogramos de ADN de entrada. [2] Un nanogramo de ADN se puede distribuir en más de 100.000 particiones de gotitas, donde los fragmentos de ADN se codifican con barras y se someten a reacciones en cadena de la polimerasa (PCR) . [2] Como resultado, los fragmentos de ADN (o lecturas ) que comparten el mismo código de barras se pueden agrupar como si vinieran de una única secuencia de ADN de entrada larga. [2] Y se puede ensamblar información de largo alcance a partir de lecturas cortas.
Pasos de la secuenciación de lectura enlazada: [2]
Durante la secuenciación de códigos de barras, las muestras de ADN de alto peso molecular que contienen la secuencia de ADN deseada, que varía de cincuenta a varios cientos de kilobases de tamaño, se combinan con perlas de gel que contienen códigos de barras únicos, enzimas y reactivos de secuenciación. [2] El dispositivo microfluídico puede dividir las moléculas de ADN de entrada en gotas individuales de tamaño nanométrico de emulsión de agua en aceite, llamadas GEM. [2] Cada GEM contiene perlas de gel recubiertas con el mismo código de barras y cebadores, y una pequeña cantidad de ADN. [2] Los cebadores son complementarios a regiones específicas de la molécula de ADN, lo que permite la amplificación del ADN en las gotas a través de PCR. [2] Los códigos de barras permiten la identificación y agrupación de lecturas de secuenciación que se originan a partir del mismo fragmento largo, lo que es crucial para el análisis posterior. [2]
Los fragmentos de ADN con código de barras se amplifican mediante PCR para crear una biblioteca de fragmentos de ADN con códigos de barras idénticos. Todos los fragmentos derivados de una molécula de ADN determinada se etiquetan con el mismo código de barras. [4] Este paso aumenta la cantidad de ADN para secuenciar y reduce las posibilidades de perder fragmentos de ADN únicos durante la secuenciación. Las gotas (o GEM) se recogen posteriormente en un tubo y la emulsión se rompe, liberando las secuencias de ADN amplificadas y con código de barras.
La tecnología de secuenciación estándar de última generación de Illumina se puede utilizar para secuenciar bibliotecas. [5] Durante la secuenciación, los códigos de barras se leen junto con las secuencias de ADN, lo que permite a los investigadores y científicos agrupar fragmentos de ADN que se originan a partir de la misma molécula de ADN. [5] Aunque cada fragmento de ADN normalmente no está completamente secuenciado, la información de muchos fragmentos superpuestos en la misma región genómica se puede combinar para reconstruir los largos tramos del genoma. [5] Por lo tanto, un genoma se puede ensamblar fácilmente desde cero sin ninguna referencia previa.
Los datos de secuenciación en bruto se procesan luego mediante bioinformática (por ejemplo, el software de análisis GemCode desarrollado por 10x Genomics) para eliminar las lecturas de baja calidad y asignarlas a sus respectivos códigos de barras. [2] Las lecturas se pueden alinear con un genoma de referencia o ensamblar de novo para generar contigs de largo alcance . El paso de alineación de lecturas es importante para determinar el orden y la orientación de los fragmentos largos de ADN y para identificar variaciones genómicas, como inserciones o deleciones . [ cita requerida ]
La secuenciación de lectura enlazada puede facilitar el ensamblaje de novo del genoma , que implica reconstruir un genoma desde cero sin ninguna referencia previa. La secuenciación de lectura enlazada permite el ensamblaje de grandes regiones genómicas y ayuda a mejorar la integridad y contigüidad del genoma resultante. Esto puede ser particularmente útil para estudiar organismos que carecen de un genoma de referencia de alta calidad, como organismos no modelo u organismos con genomas complejos. [6] Muchos científicos han estado utilizando la tecnología de secuenciación de lectura enlazada para el ensamblaje de novo del genoma recientemente en una variedad de organismos, incluidos humanos, plantas y animales. [7] [6] [8] Por ejemplo, el Dr. Evan Eichler y su grupo de investigación utilizaron la secuenciación de lectura enlazada para ensamblar el genoma del orangután , que anteriormente había sido difícil de estudiar debido a su genoma complejo. [8] El ensamblaje del genoma resultante ayudó a los científicos a estudiar nuevos conocimientos sobre la historia evolutiva de los primates y la base genética de las enfermedades humanas. [8] Además, las lecturas alineadas o ensambladas se pueden utilizar para otras investigaciones genéticas o análisis posteriores, como la fase de haplotipos.
El haplotipo se refiere a un grupo de variantes genéticas heredadas juntas en un cromosoma de un padre debido a su ligamiento genético . La fase de haplotipo (también llamada estimación de haplotipo ) se refiere al proceso de reconstrucción de haplotipos individuales, importante para determinar la base genética de las enfermedades. [9] La secuenciación de lectura enlazada permite una cobertura consistente de genes relacionados con diferentes enfermedades, lo que ayuda a los científicos a obtener todas las regiones que llevan mutaciones de genes específicos. [10] Por ejemplo, en 2018, un grupo de investigadores utilizó la tecnología de secuenciación de lectura enlazada para secuenciar información genética de una mujer embarazada que era portadora de la mutación de distrofia muscular de Duchenne (DMD). [10] La secuenciación de lectura enlazada les permite identificar los haplotipos maternos y determinar la presencia de los alelos mutantes en el ADN fetal. [10] Este diagnóstico prenatal no invasivo de DMD demuestra la aplicabilidad clínica de la secuenciación de lectura enlazada.
Las variaciones estructurales , como deleciones, duplicaciones , inversiones, translocaciones y otros reordenamientos, son comunes en los genomas humanos. [4] Estas variaciones pueden tener impactos significativos en las funciones del genoma y se han relacionado con muchas enfermedades. La tecnología de secuenciación de lecturas enlazadas etiqueta todas las lecturas que se originan a partir del mismo fragmento largo de ADN con el mismo código de barras, por lo que permite la detección de una gran cantidad de variantes estructurales. [4] La complejidad de las variantes estructurales se puede resolver con la secuenciación de lecturas enlazadas y proporciona una imagen completa del panorama genómico. Muchos científicos ya han estado utilizando la secuenciación de lecturas enlazadas para identificar y caracterizar variantes estructurales en diversas poblaciones, incluidas personas con trastornos genéticos o cánceres [11].
El análisis del transcriptoma es el estudio de todas las transcripciones de ARN que produce el genoma de un organismo. Los investigadores han utilizado la secuenciación de lecturas enlazadas para ensamblar isoformas de transcripción y eventos de empalme alternativo . [12] La información sobre los eventos de empalme alternativo puede brindar información sobre la regulación de la expresión génica en el transcriptoma humano [12]
La epigenética se refiere al estudio de los cambios hereditarios en las actividades genéticas que son distintas de los cambios en las secuencias de ADN. El análisis epigenético implica el estudio de las interacciones entre el ADN y las proteínas, las modificaciones de las histonas y la metilación del ADN . La secuenciación de lecturas enlazadas se ha utilizado para estudiar los patrones de metilación del ADN en muchos estudios. [13] [14] Por ejemplo, en 2021, un estudio investigó las diferencias de metilación del ADN en las células de sangre periférica entre gemelos, en los que uno de ellos tenía la enfermedad de Alzheimer y el otro era cognitivamente normal. [13] La tecnología de secuenciación de lecturas enlazadas permitió a los investigadores identificar más de 3000 regiones metiladas diferencialmente entre estos gemelos discordantes para la enfermedad de Alzheimer , y la investigación de estas regiones metiladas diferencialmente finalmente condujo a la identificación de genes enriquecidos en procesos de desarrollo neurológico, señalización neuronal y funciones del sistema inmunológico [13]
En 2018, Bio-Rad Laboratories presentó una demanda contra 10x Genomics alegando que su tecnología de lectura vinculada infringía tres patentes que habían sido licenciadas por Bio-Rad en la Universidad de Chicago . [15] Un jurado otorgó a Bio-Rad una suma de $23,930,716. 10x Genomics presentó una moción de juicio como cuestión de derecho (JMOL), pero fue denegada en 2019, y los procedimientos judiciales concluyeron en 2020. Después de esta demanda, 10x Genomics suspendió su ensayo de lectura vinculada. [15] Se hizo una excepción para los productos de lectura vinculada que ya habían sido vendidos por la empresa antes de la demanda, lo que permitió a 10x Genomics continuar brindando a esos investigadores servicios como soporte y mantenimiento de garantía para esta tecnología. [ cita requerida ]