Secuenciación de lectura enlazada

La secuenciación de lectura enlazada , un tipo de tecnología de secuenciación de ADN , utiliza una técnica especializada que etiqueta las moléculas de ADN con códigos de barras únicos antes de fragmentarlas. A diferencia de la tecnología de secuenciación tradicional, en la que el ADN se divide en fragmentos pequeños y luego se secuencia individualmente, lo que da como resultado longitudes de lectura cortas que dificultan la reconstrucción precisa de la secuencia de ADN original, los códigos de barras únicos de la secuenciación de lectura enlazada permiten a los científicos unir fragmentos de ADN que provienen de la misma molécula de ADN. Un beneficio fundamental de esta tecnología radica en las pequeñas cantidades de ADN necesarias para obtener una gran cantidad de información genómica , lo que combina de manera eficaz las ventajas de las tecnologías de lectura larga y lectura corta . ^[1]

Historia

Este método de secuenciación fue desarrollado originalmente por 10x Genomics en 2015 y se lanzó bajo el nombre de 'GemCode' o 'Chromium'. GemCode empleó un método de código de barras basado en perlas de gel para amalgamar fragmentos cortos de ADN. ^[2] Los fragmentos más largos producidos por esto podrían luego secuenciarse utilizando tecnología validada como la secuenciación de próxima generación de Illumina . ^[2]^[3] La misma empresa presentó una versión actualizada de la secuenciación de lectura enlazada en 2018, denominada 'Linked-Reads V2'. Mientras que GemCode utiliza un solo código de barras para etiquetar tanto la perla de gel como el fragmento de ADN, Linked-Reads V2 utiliza códigos de barras separados para mejorar la detección de variantes genéticas.

El grupo que desarrolló la tecnología de secuenciación de lectura enlazada publicó su primer artículo sobre esta tecnología en 2016. Los autores de este artículo desarrollaron la tecnología de secuenciación de lectura enlazada inicialmente para secuenciar los genomas de individuos sanos y pacientes con cáncer para determinar mutaciones somáticas , variaciones en el número de copias y variaciones estructurales en los genomas del cáncer. ^[2] Más tarde ese año, otro grupo de investigación combinó la tecnología de secuenciación de lectura enlazada con la tecnología de secuenciación de lectura larga para ensamblar el genoma humano. ^[3] Ambos estudios demostraron la utilidad de la secuenciación de lectura enlazada en el análisis integral del genoma y en la comprensión de las enfermedades genéticas. Sin embargo, en 2019, una demanda relacionada con la infracción de patentes dio lugar a que 10x Genomics descontinuara su línea de productos de lectura enlazada.

Método

Descripción general

La secuenciación de lectura enlazada se basa en microfluidos y solo necesita nanogramos de ADN de entrada. ^[2] Un nanogramo de ADN se puede distribuir en más de 100.000 particiones de gotitas, donde los fragmentos de ADN se codifican con barras y se someten a reacciones en cadena de la polimerasa (PCR) . ^[2] Como resultado, los fragmentos de ADN (o lecturas ) que comparten el mismo código de barras se pueden agrupar como si vinieran de una única secuencia de ADN de entrada larga. ^[2] Y se puede ensamblar información de largo alcance a partir de lecturas cortas.

Pasos de la secuenciación de lectura enlazada: ^[2]

Preparación de la muestra: se extrae ADN de una muestra (por ejemplo, sangre) y se corta en fragmentos de 50 a 200 kilopares de bases de longitud.
Secuenciación de código de barras: cada fragmento de ADN se etiqueta con un código de barras único a través de un proceso conocido como "Emulsión de perlas de gel" (GEM).
Preparación de la biblioteca : los fragmentos de ADN con código de barras se amplifican con PCR para generar bibliotecas de secuenciación.
Secuenciación: con la tecnología de secuenciación de próxima generación de Illumina , genere entre millones y miles de millones de lecturas de secuencias cortas que representan fragmentos de las moléculas de ADN originales.
Procesamiento de códigos de barras: agrupa lecturas cortas en fragmentos más largos según los códigos de barras.
Análisis posterior: las lecturas procesadas se alinean con un genoma de referencia o se utilizan para el ensamblaje de novo de genomas complejos, la fase de haplotipos o la identificación de variaciones estructurales.

Secuenciación de códigos de barras

Durante la secuenciación de códigos de barras, las muestras de ADN de alto peso molecular que contienen la secuencia de ADN deseada, que varía de cincuenta a varios cientos de kilobases de tamaño, se combinan con perlas de gel que contienen códigos de barras únicos, enzimas y reactivos de secuenciación. ^[2] El dispositivo microfluídico puede dividir las moléculas de ADN de entrada en gotas individuales de tamaño nanométrico de emulsión de agua en aceite, llamadas GEM. ^[2] Cada GEM contiene perlas de gel recubiertas con el mismo código de barras y cebadores, y una pequeña cantidad de ADN. ^[2] Los cebadores son complementarios a regiones específicas de la molécula de ADN, lo que permite la amplificación del ADN en las gotas a través de PCR. ^[2] Los códigos de barras permiten la identificación y agrupación de lecturas de secuenciación que se originan a partir del mismo fragmento largo, lo que es crucial para el análisis posterior. ^[2]

Preparación y secuenciación de la biblioteca

Los fragmentos de ADN con código de barras se amplifican mediante PCR para crear una biblioteca de fragmentos de ADN con códigos de barras idénticos. Todos los fragmentos derivados de una molécula de ADN determinada se etiquetan con el mismo código de barras. ^[4] Este paso aumenta la cantidad de ADN para secuenciar y reduce las posibilidades de perder fragmentos de ADN únicos durante la secuenciación. Las gotas (o GEM) se recogen posteriormente en un tubo y la emulsión se rompe, liberando las secuencias de ADN amplificadas y con código de barras.

La tecnología de secuenciación estándar de última generación de Illumina se puede utilizar para secuenciar bibliotecas. ^[5] Durante la secuenciación, los códigos de barras se leen junto con las secuencias de ADN, lo que permite a los investigadores y científicos agrupar fragmentos de ADN que se originan a partir de la misma molécula de ADN. ^[5] Aunque cada fragmento de ADN normalmente no está completamente secuenciado, la información de muchos fragmentos superpuestos en la misma región genómica se puede combinar para reconstruir los largos tramos del genoma. ^[5] Por lo tanto, un genoma se puede ensamblar fácilmente desde cero sin ninguna referencia previa.

Tratamiento

Los datos de secuenciación en bruto se procesan luego mediante bioinformática (por ejemplo, el software de análisis GemCode desarrollado por 10x Genomics) para eliminar las lecturas de baja calidad y asignarlas a sus respectivos códigos de barras. ^{[2] Las lecturas se pueden alinear con un genoma de referencia o ensamblar de novo para generar}contigs de largo alcance . El paso de alineación de lecturas es importante para determinar el orden y la orientación de los fragmentos largos de ADN y para identificar variaciones genómicas, como inserciones o deleciones . ^{[ cita requerida ]}

Aplicaciones

Ensamblaje del genoma de novo

La secuenciación de lectura enlazada puede facilitar el ensamblaje de novo del genoma , que implica reconstruir un genoma desde cero sin ninguna referencia previa. La secuenciación de lectura enlazada permite el ensamblaje de grandes regiones genómicas y ayuda a mejorar la integridad y contigüidad del genoma resultante. Esto puede ser particularmente útil para estudiar organismos que carecen de un genoma de referencia de alta calidad, como organismos no modelo u organismos con genomas complejos. ^[6] Muchos científicos han estado utilizando la tecnología de secuenciación de lectura enlazada para el ensamblaje de novo del genoma recientemente en una variedad de organismos, incluidos humanos, plantas y animales. ^[7]^[6]^[8] Por ejemplo, el Dr. Evan Eichler y su grupo de investigación utilizaron la secuenciación de lectura enlazada para ensamblar el genoma del orangután , que anteriormente había sido difícil de estudiar debido a su genoma complejo. ^[8] El ensamblaje del genoma resultante ayudó a los científicos a estudiar nuevos conocimientos sobre la historia evolutiva de los primates y la base genética de las enfermedades humanas. ^[8] Además, las lecturas alineadas o ensambladas se pueden utilizar para otras investigaciones genéticas o análisis posteriores, como la fase de haplotipos.

Fase de haplotipos

El haplotipo se refiere a un grupo de variantes genéticas heredadas juntas en un cromosoma de un padre debido a su ligamiento genético . La fase de haplotipo (también llamada estimación de haplotipo ) se refiere al proceso de reconstrucción de haplotipos individuales, importante para determinar la base genética de las enfermedades. ^[9] La secuenciación de lectura enlazada permite una cobertura consistente de genes relacionados con diferentes enfermedades, lo que ayuda a los científicos a obtener todas las regiones que llevan mutaciones de genes específicos. ^[10] Por ejemplo, en 2018, un grupo de investigadores utilizó la tecnología de secuenciación de lectura enlazada para secuenciar información genética de una mujer embarazada que era portadora de la mutación de distrofia muscular de Duchenne (DMD). ^[10] La secuenciación de lectura enlazada les permite identificar los haplotipos maternos y determinar la presencia de los alelos mutantes en el ADN fetal. ^[10] Este diagnóstico prenatal no invasivo de DMD demuestra la aplicabilidad clínica de la secuenciación de lectura enlazada.

Análisis de variación estructural

Las variaciones estructurales , como deleciones, duplicaciones , inversiones, translocaciones y otros reordenamientos, son comunes en los genomas humanos. ^[4] Estas variaciones pueden tener impactos significativos en las funciones del genoma y se han relacionado con muchas enfermedades. La tecnología de secuenciación de lecturas enlazadas etiqueta todas las lecturas que se originan a partir del mismo fragmento largo de ADN con el mismo código de barras, por lo que permite la detección de una gran cantidad de variantes estructurales. ^[4] La complejidad de las variantes estructurales se puede resolver con la secuenciación de lecturas enlazadas y proporciona una imagen completa del panorama genómico. Muchos científicos ya han estado utilizando la secuenciación de lecturas enlazadas para identificar y caracterizar variantes estructurales en diversas poblaciones, incluidas personas con trastornos genéticos o cánceres ^[11].

Análisis del transcriptoma

El análisis del transcriptoma es el estudio de todas las transcripciones de ARN que produce el genoma de un organismo. Los investigadores han utilizado la secuenciación de lecturas enlazadas para ensamblar isoformas de transcripción y eventos de empalme alternativo . ^[12] La información sobre los eventos de empalme alternativo puede brindar información sobre la regulación de la expresión génica en el transcriptoma humano ^[12]

Análisis epigenético

La epigenética se refiere al estudio de los cambios hereditarios en las actividades genéticas que son distintas de los cambios en las secuencias de ADN. El análisis epigenético implica el estudio de las interacciones entre el ADN y las proteínas, las modificaciones de las histonas y la metilación del ADN . La secuenciación de lecturas enlazadas se ha utilizado para estudiar los patrones de metilación del ADN en muchos estudios. ^[13]^[14] Por ejemplo, en 2021, un estudio investigó las diferencias de metilación del ADN en las células de sangre periférica entre gemelos, en los que uno de ellos tenía la enfermedad de Alzheimer y el otro era cognitivamente normal. ^[13] La tecnología de secuenciación de lecturas enlazadas permitió a los investigadores identificar más de 3000 regiones metiladas diferencialmente entre estos gemelos discordantes para la enfermedad de Alzheimer , y la investigación de estas regiones metiladas diferencialmente finalmente condujo a la identificación de genes enriquecidos en procesos de desarrollo neurológico, señalización neuronal y funciones del sistema inmunológico ^[13]

Usar

Ventajas

Amplia gama de aplicaciones genómicas y cuestiones científicas, incluido el ensamblaje de genomas de novo, la fase de haplotipos, el análisis de variantes estructurales y el análisis del transcriptoma y la epigenética.
Precisión y escalabilidad.
El método requiere pequeñas cantidades de ADN de entrada, lo que puede resultar beneficioso para muestras pequeñas o estudios de células individuales. ^[2]
Más rentable por muestra en comparación con tecnologías de lectura larga como la secuenciación Oxford Nanopore . ^[3]
Las bibliotecas producidas mediante lectura vinculada se pueden procesar utilizando la secuenciación de lectura corta de Illumina, lo que aumenta la accesibilidad. ^[2]^[3]

Limitaciones

Complejidad de la construcción de la biblioteca: esta tecnología requiere una preparación de ADN de alto peso molecular para producir moléculas de ADN lo suficientemente largas para la secuenciación. ^[3]
Las limitaciones en la longitud de lectura pueden resultar en una resolución limitada de haplotipos, lo que podría reducir la eficacia de esta tecnología en regiones genómicas altamente complejas. ^[2]^[3]

Controversia

En 2018, Bio-Rad Laboratories presentó una demanda contra 10x Genomics alegando que su tecnología de lectura vinculada infringía tres patentes que habían sido licenciadas por Bio-Rad en la Universidad de Chicago . ^[15] Un jurado otorgó a Bio-Rad una suma de $23,930,716. 10x Genomics presentó una moción de juicio como cuestión de derecho (JMOL), pero fue denegada en 2019, y los procedimientos judiciales concluyeron en 2020. Después de esta demanda, 10x Genomics suspendió su ensayo de lectura vinculada. ^[15] Se hizo una excepción para los productos de lectura vinculada que ya habían sido vendidos por la empresa antes de la demanda, lo que permitió a 10x Genomics continuar brindando a esos investigadores servicios como soporte y mantenimiento de garantía para esta tecnología. ^{[ cita requerida ]}

Referencias

^ Marks, Patrick; Garcia, Sarah; Barrio, Alvaro Martinez; Belhocine, Kamila; Bernate, Jorge; Bharadwaj, Rajiv; Bjornson, Keith; Catalanotti, Claudia; Delaney, Josh; Fehr, Adrian; Fiddes, Ian T.; Galvin, Brendan; Heaton, Haynes; Herschleb, Jill; Hindson, Christopher (abril de 2019). "Resolución del espectro completo de la variación del genoma humano mediante lecturas enlazadas". Genome Research . 29 (4): 635–645. doi :10.1101/gr.234443.118. ISSN 1088-9051. PMC 6442396 . PMID 30894395.
^ abcdefghijklmnop Zheng, Grace XY; Lau, Billy T.; Schnall-Levin, Michael; Jarosz, Mirna; Bell, John M.; Hindson, Christopher M.; Kyriazopoulou-Panagiotopoulou, Sofia; Masquelier, Donald A.; Merrill, Landon; Terry, Jessica M.; Mudivarti, Patrice A.; Wyatt, Paul W.; Bharadwaj, Rajiv; Makarewicz, Anthony J.; Li, Yuan (marzo de 2016). "Haplotipificación de genomas de línea germinal y cáncer con secuenciación de lectura enlazada de alto rendimiento". Nature Biotechnology . 34 (3): 303–311. doi :10.1038/nbt.3432. ISSN 1546-1696. PMC 4786454 . PMID 26829319.
^ abcdef Mostovoy, Yulia; Levy-Sakin, Michal; Lam, Jessica; Lam, Ernest T; Hastie, Alex R; Marks, Patrick; Lee, Joyce; Chu, Catherine; Lin, Chin; Džakula, Željko; Cao, Han; Schlebusch, Stephen A; Giorda, Kristina; Schnall-Levin, Michael; Wall, Jeffrey D (julio de 2016). "Un enfoque híbrido para el ensamblaje y la fase de secuencias del genoma humano de novo". Nature Methods . 13 (7): 587–590. doi :10.1038/nmeth.3865. ISSN 1548-7091. PMC 4927370 . PMID 27159086.
^ abc Elyanow, Rebecca; Wu, Hsin-Ta; Raphael, Benjamin J (15 de enero de 2018). Curtis, Christina (ed.). "Identificación de variantes estructurales utilizando datos de secuenciación de lecturas enlazadas". Bioinformática . 34 (2): 353–360. doi :10.1093/bioinformatics/btx712. ISSN 1367-4803. PMC 5860216 . PMID 29112732.
^ abc Ott, Alina; Schnable, James C.; Yeh, Cheng-Ting; Wu, Linjiang; Liu, Chao; Hu, Heng-Cheng; Dalgard, Clifton L.; Sarkar, Soumik; Schnable, Patrick S. (4 de septiembre de 2018). "Tecnología de lectura enlazada para ensamblar genomas grandes, complejos y poliploides". BMC Genomics . 19 (1): 651. doi : 10.1186/s12864-018-5040-z . ISSN 1471-2164. PMC 6122573 . PMID 30180802.
^ ab Martinez-Viaud, Karine A; Lawley, Cindy Taylor; Vergara, Milmer Martinez; Ben-Zvi, Gil; Biniashvili, Tammy; Baruch, Kobi; St. Leger, Judy; Le, Jennie; Natarajan, Aparna; Rivera, Marlem; Guillergan, Marbie; Jaeger, Erich; Steffy, Brian; Zimin, Aleksey (2019-03-01). "Nuevo ensamblaje de novo del delfín mular del Atlántico (Tursiops truncatus) mejora la completitud del genoma y proporciona la fase de haplotipos". GigaScience . 8 (3). doi :10.1093/gigascience/giy168. ISSN 2047-217X. PMC 6443575 . PMID 30698692.
^ Wu, Shan; Lau, Kin H.; Cao, Qinghe; Hamilton, John P.; Sun, Honghe; Zhou, Chenxi; Eserman, Lauren; Gemenet, Dorcus C.; Olukolu, Bode A.; Wang, Haiyan; Crisovan, Emily; Godden, Grant T.; Jiao, Chen; Wang, Xin; Kitavi, Mercy (2018-11-02). "Las secuencias genómicas de dos parientes silvestres diploides de la batata cultivada revelan objetivos para la mejora genética". Nature Communications . 9 (1): 4580. Bibcode :2018NatCo...9.4580W. doi :10.1038/s41467-018-06983-8. ISSN 2041-1723. PMC 6214957 . PMID 30389915.
^ abc Kronenberg, Zev N.; Fiddes, Ian T.; Gordon, David; Murali, Shwetha; Cantsilieris, Stuart; Meyerson, Olivia S.; Underwood, Jason G.; Nelson, Bradley J.; Chaisson, Mark JP; Dougherty, Max L.; Munson, Katherine M.; Hastie, Alex R.; Diekhans, Mark; Hormozdiari, Fereydoun; Lorusso, Nicola (8 de junio de 2018). "Análisis comparativo de alta resolución de genomas de grandes simios". Science . 360 (6393): eaar6343. doi :10.1126/science.aar6343. ISSN 0036-8075. PMC 6178954 . PMID 29880660.
^ Maestri, Simone; Maturo, María Giovanna; Cosentino, Emanuela; Marcolungo, Luca; Iadarola, Bárbara; Fortunati, Elisabetta; Rossato, Marzia; Delledonne, Massimo (1 de diciembre de 2020). "Un enfoque de secuenciación de lectura larga para la eliminación directa de haplotipos en entornos clínicos". Revista Internacional de Ciencias Moleculares . 21 (23): 9177. doi : 10.3390/ijms21239177 . ISSN 1422-0067. PMC 7731377 . PMID 33271988.
^ abc Jang, Se Song; Lim, Byung Chan; Yoo, Seong-Keun; Shin, Jong-Yeon; Kim, Ki-Joong; Seo, Jeong-Sun; Kim, Jong-Il; Chae, Jong Hee (6 de junio de 2018). "Secuenciación de lectura enlazada dirigida para la fase directa de haplotipos de alelos de DMD materna: un método práctico y confiable para el diagnóstico prenatal no invasivo". Scientific Reports . 8 (1): 8678. Bibcode :2018NatSR...8.8678J. doi :10.1038/s41598-018-26941-0. ISSN 2045-2322. PMC 5989205 . PMID 29875376.
^ Ostendorf, Benjamin N.; Bilanovic, Jana; Adaku, Nneoma; Tafreshian, Kimia N.; Tavora, Bernardo; Vaughan, Roger D.; Tavazoie, Sohail F. (julio de 2020). "Variantes de línea germinal comunes del gen APOE humano modulan la progresión y supervivencia del melanoma". Nature Medicine . 26 (7): 1048–1053. doi :10.1038/s41591-020-0879-3. ISSN 1546-170X. PMC 8058866 . PMID 32451497.
^ ab Tilgner, Hagen; Jahanbani, Fereshteh; Gupta, Ishaan; Collier, Paul; Wei, Eric; Rasmussen, Morten; Snyder, Michael (febrero de 2018). "La secuenciación de isoformas microfluídicas muestra una coordinación de empalme generalizada en el transcriptoma humano". Genome Research . 28 (2): 231–242. doi :10.1101/gr.230516.117. ISSN 1088-9051. PMC 5793787 . PMID 29196558.
^ abc Konki, Mikko; Malonzo, Maia; Karlsson, Ida K.; Lindgren, Noora; Ghimire, Bishwa; Smolander, Johannes; Scheinin, Noora M.; Ollikainen, Miina; Laiho, Asta; Elo, Laura L.; Lönnberg, Tapio; Röyttä, Matías; Pedersen, Nancy L.; Kaprio, Jaakko; Lähdesmäki, Harri (diciembre de 2019). "Diferencias de metilación del ADN en sangre periférica en pares de gemelos discordantes para la enfermedad de Alzheimer". Epigenética clínica . 11 (1): 130. doi : 10.1186/s13148-019-0729-7 . ISSN 1868-7075. PMC 6721173 . Número de modelo : PMID31477183.
^ McGrath-Morrow, Sharon A.; Ndeh, Roland; Helmin, Kathryn A.; Khuder, Basil; Rothblum-Oviatt, Cynthia; Collaco, Joseph M.; Wright, Jennifer; Reyfman, Paul A.; Lederman, Howard M.; Singer, Benjamin D. (4 de mayo de 2020). "Las firmas de metilación del ADN y expresión génica están asociadas con el fenotipo de ataxia-telangiectasia". Scientific Reports . 10 (1): 7479. Bibcode :2020NatSR..10.7479M. doi :10.1038/s41598-020-64514-2. ISSN 2045-2322. PMC 7198504 . PMID 32366930.
^ ab "Tribunal de Apelaciones de los Estados Unidos para el Circuito Federal - Bio-Rad Laboratories Inc. v. 10x Genomics" (PDF) . Cases.Justia.com . 2020-08-03.