Leer (biología)

En la secuenciación de ADN , una lectura es una secuencia inferida de pares de bases (o probabilidades de pares de bases) correspondientes a la totalidad o parte de un único fragmento de ADN. Un experimento de secuenciación típico implica la fragmentación del genoma en millones de moléculas, que se seleccionan por tamaño y se ligan a adaptadores . El conjunto de fragmentos se denomina biblioteca de secuenciación, que se secuencia para producir un conjunto de lecturas. ^[1]

Longitud de lectura

Las tecnologías de secuenciación varían en la longitud de las lecturas producidas. Las lecturas de longitud de 20 a 40 pares de bases (pb) se denominan ultracortas. ^[2] Los secuenciadores típicos producen longitudes de lectura en el rango de 100 a 500 pb. ^[3] Sin embargo, las plataformas de Pacific Biosciences producen longitudes de lectura de aproximadamente 1500 pb. ^[4] La longitud de lectura es un factor que puede afectar los resultados de los estudios biológicos. ^[5] Por ejemplo, las longitudes de lectura más largas mejoran la resolución del ensamblaje de novo del genoma y la detección de variantes estructurales. Se estima que se requerirán longitudes de lectura mayores a 100 kilobases (kb) para el ensamblaje rutinario de novo del genoma humano. ^[6] Los procesos bioinformáticos para analizar los datos de secuenciación generalmente tienen en cuenta las longitudes de lectura. ^[7]

Generaciones de secuenciación y longitudes de lectura

Un genoma es la información genética completa de un organismo o una célula. Los ácidos nucleicos monocatenarios o bicatenarios almacenan esta información en una secuencia lineal o circular. Para determinar con precisión esta secuencia, con el tiempo se han desarrollado tecnologías más eficientes con mayor precisión, rendimiento y velocidad de secuenciación. Las tecnologías de secuenciación de Sanger y Maxam-Gilbert se clasificaron como la tecnología de secuenciación de primera generación, quienes iniciaron el campo de la secuenciación de ADN con su publicación en 1977. ^[8] La secuenciación de primera generación generalmente tiene longitudes de lectura de 400 a 900 pares de bases. ^{[ cita requerida ]}

En 2005, la tecnología 454 de Roche introdujo una nueva tecnología de secuenciación capaz de lograr un alto rendimiento a bajo costo. ^[9] Esta y otras tecnologías similares se conocieron como secuenciación de segunda generación o secuenciación de próxima generación (NGS) . Una de las características distintivas de la NSG son las lecturas de secuencias cortas. Los métodos NGS pueden secuenciar millones o miles de millones de lecturas en una sola ejecución, y el tiempo que lleva crear lecturas del tamaño de una GigaBase es de solo unos días u horas, lo que la hace superior a las técnicas de secuenciación de primera generación como la secuenciación de Sanger. Todas las técnicas NSG producen lecturas cortas, es decir, de 80 a 200 bases, a diferencia de las lecturas de mayor longitud producidas por la secuenciación de Sanger. ^[10]

A partir de la década de 2010, nuevas tecnologías revolucionarias marcaron el comienzo de la era de la secuenciación de tercera generación (TGS, por sus siglas en inglés) . TGS es un término utilizado para describir métodos capaces de secuenciar moléculas de ADN individuales sin amplificación. Mientras que las técnicas Sanger y SRS solo pueden producir longitudes de lectura de un par de kilobases, las tecnologías de secuenciación de tercera generación pueden producir longitudes de lectura de 5 a 30 pares de kilobases. La longitud de lectura más larga jamás generada por una tecnología de secuenciación de tercera generación es de 2 millones de pares de bases. ^[11]

Mapeo de lectura y NGS

Históricamente, solo se abordaba un individuo por especie debido a las limitaciones de tiempo y dinero, y su secuencia servía como genoma de "referencia" de la especie . Estos genomas de referencia se pueden utilizar para guiar los esfuerzos de resecuenciación en la misma especie al servir como una plantilla de mapeo de lecturas. El mapeo de lecturas es el proceso para alinear lecturas de NGS en un genoma de referencia. ^[12] Cualquier aplicación de NGS, como la llamada de variación del genoma, el análisis del transcriptoma, la llamada del sitio de unión del factor de transcripción, la llamada de marca epigenética , la metagenómica, etc., requiere el mapeo de lecturas. El rendimiento de estas aplicaciones está influenciado por una alineación precisa. Además, debido a que el número de lecturas es tan grande, el proceso de mapeo debe ser eficiente. Hay diferentes métodos utilizados para alinear lecturas en el genoma de referencia dependiendo de cuántos desajustes e indeles se permitan. En términos generales, los métodos se pueden dividir en dos categorías: el enfoque de semilla y extensión y el enfoque de filtrado. Muchos alineadores de lectura corta utilizan la estrategia de semilla y extensión, como BWA-SW, Bowtie 2, BatAlign, LAST, Cushaw2, BWA-MEM, etc. Un enfoque basado en filtros es utilizado por varios métodos como SeqAlto, GEM, MASAI, etc. ^[13]

Ensamblaje del genoma y lectura de secuencias

En genómica, el reensamblado de genomas mediante secuenciación de ADN es un desafío importante. Las lecturas recuperadas abarcan todo el genoma de manera uniforme debido al muestreo aleatorio. Las lecturas se unen entre sí computacionalmente para reconstruir el genoma. Este proceso se conoce como ensamblaje de genoma de novo .

La secuenciación de Sanger tiene una longitud de lectura mayor en comparación con la secuenciación de nueva generación. Se desarrollaron dos ensambladores para ensamblar lecturas de secuenciación de Sanger: el ensamblador OLC Celera y el ensamblador de grafos de De Bruijn Euler. Estos dos métodos se utilizaron para armar nuestro genoma de referencia humano. Sin embargo, dado que la secuenciación de Sanger es de bajo rendimiento y costosa, solo se ensamblan unos pocos genomas con la secuenciación de Sanger.

Las lecturas de secuenciación de segunda generación son cortas y estas técnicas de secuenciación pueden secuenciar de manera eficiente y rentable cientos de millones de lecturas. Para reconstruir genomas a partir de secuencias cortas, se han creado algunos ensambladores de genomas personalizados. Su éxito generó varios proyectos de ensamblaje de genomas de novo. Si bien este método es rentable, las lecturas son cortas y las secciones repetidas son largas, lo que da como resultado genomas fragmentados.

Gracias a la llegada de la secuenciación de tercera generación, ahora disponemos de lecturas muy largas (de 10.000 pb). Las lecturas largas son capaces de resolver el orden de las regiones repetidas, aunque tienen una tasa de error elevada (entre el 15 y el 18 %). Para corregir los errores en las lecturas de secuenciación de tercera generación, se han ideado varios métodos computacionales.

El ensamblaje con lecturas cortas y el ensamblaje con lecturas largas tienen diferentes ventajas y desventajas debido a las tasas de error y la facilidad de ensamblaje. A veces se prefiere un método híbrido y se combinan lecturas cortas y largas para obtener un mejor resultado. Hay dos enfoques: el primero es usar lecturas de pares de acoplamiento y lecturas largas para mejorar el ensamblaje a partir de las lecturas cortas. El segundo enfoque es usar lecturas cortas para corregir los errores en las lecturas largas.

Ventajas y desventajas de las lecturas cortas

La secuenciación de segunda generación genera lecturas cortas (de longitud < 300 pb) y estas son altamente precisas (la tasa de error de secuenciación equivale a ~1%). Las tecnologías de secuenciación de lectura corta han hecho que la secuenciación sea mucho más fácil, mucho más rápida y mucho más barata que la secuenciación de Sanger. El informe de agosto de 2019 del Instituto Nacional de Investigación del Genoma Humano estimó el costo de secuenciar un genoma humano completo en $942,00 dólares estadounidenses (USD). ^[14]^[15]

La incapacidad de secuenciar secciones largas de ADN es un inconveniente que comparten todas las tecnologías de secuenciación de segunda generación. Para utilizar la NGS para secuenciar un genoma grande como el ADN humano, el ADN debe fragmentarse y amplificarse en clones que van desde 75 a 400 pares de bases, por eso la NGS también se conoce como "secuenciación de lecturas cortas" (SRS). Después de secuenciar lecturas cortas, se convierte en un problema computacional y se han desarrollado muchos programas y técnicas de computadora para ensamblar los clones aleatorios en una secuencia contigua. ^[16]

Un paso necesario en la secuenciación secuencial repetitiva es la reacción en cadena de la polimerasa, que provoca una amplificación preferencial del ADN repetitivo. La secuenciación secuencial repetitiva tampoco genera una secuencia superpuesta suficiente a partir de los fragmentos de ADN, lo que constituye un gran desafío para la secuenciación de novo de un genoma altamente complejo y repetitivo como el genoma humano. ^[17] Otro desafío con la secuenciación secuencial repetitiva es la detección de grandes cambios de secuencia, que es un obstáculo importante para el estudio de las variaciones estructurales. ^[18]

Ventajas y desventajas de las lecturas largas

La secuenciación de tercera generación secuencia lecturas largas y a menudo se la denomina secuenciación de lecturas largas (LRS). Las tecnologías LRS son capaces de secuenciar moléculas de ADN individuales sin amplificación. La disponibilidad de lecturas largas constituye una gran ventaja, porque a menudo es difícil generar una secuencia de consenso continua larga utilizando NGS debido a la dificultad de detectar superposiciones entre lecturas cortas de NGS, lo que afecta la calidad general del ensamblaje. Se ha demostrado que LRS mejora considerablemente la calidad de los ensamblajes genómicos en varios estudios. ^[19]^[20] Otra ventaja de LRS sobre NGS es que proporciona la capacidad simultánea de caracterizar una variedad de marcas epigenéticas junto con la secuenciación de ADN. ^[21]^[22]

El mayor desafío del LRS es la precisión y el costo, aunque el LRS también está mejorando rápidamente en esas áreas.

Véase también

Referencias

^ "Biblioteca de secuenciación: ¿qué es?". Breda Genetics . 2016-08-12 . Consultado el 23 de julio de 2017 .
^ Chaisson, Mark J. (2009). "Ensamblaje de fragmentos de novo con lecturas cortas emparejadas: ¿importa la longitud de la lectura?". Genome Research . 19 (2): 336–346. doi :10.1101/gr.079053.108. PMC 2652199 . PMID 19056694 . Consultado el 23 de julio de 2017 .
^ Junemann, Sebastian (2013). "Actualización de la comparación del rendimiento de la secuenciación de laboratorio". Nature Biotechnology . 31 (4): 294–296. doi : 10.1038/nbt.2522 . PMID 23563421.
^ Quail, Michael A. (2012). "Una historia de tres plataformas de secuenciación de próxima generación: comparación de los secuenciadores Ion Torrent, Pacific Biosciences e Illumina MiSeq". BMC Genomics . 13 (1): 341. doi : 10.1186/1471-2164-13-341 . PMC 3431227 . PMID 22827831.
^ Chhangawala, Sagar; Rudy, Gabe; Mason, Christopher E.; Rosenfeld, Jeffrey A. (23 de junio de 2015). "El impacto de la longitud de lectura en la cuantificación de genes expresados diferencialmente y la detección de uniones de empalme". Genome Biology . 16 (1): 131. doi : 10.1186/s13059-015-0697-y . PMC 4531809 . PMID 26100517.
^ Chaisson, Mark JP (2015). "Variación genética y ensamblaje de novo de genomas humanos". Nature Reviews Genetics . 16 (11): 627–640. doi :10.1038/nrg3933. PMC 4745987 . PMID 26442640.
^ Conesa, Ana; Madrigal, Pedro; Tarazona, Sonia; Gómez-Cabrero, David; Cervera, Alejandra; McPherson, Andrés; Szcześniak, Michał Wojciech; Gaffney, Daniel J.; Elo, Laura L.; Zhang, Xuegong; Mortazavi, Ali (26 de enero de 2016). "Una encuesta de mejores prácticas para el análisis de datos de RNA-seq". Biología del genoma . 17 (1): 13. doi : 10.1186/s13059-016-0881-8 . PMC 4728800 . PMID 26813401.
^ Giani, Alice Maria; Gallo, Guido Roberto; Gianfranceschi, Luca; Formenti, Giulio (2020). "Largo camino hacia la genómica: historia y enfoques actuales para la secuenciación y ensamblaje del genoma". Revista de biotecnología estructural y computacional . 18 : 9–19. doi :10.1016/j.csbj.2019.11.002. PMC 6926122 . PMID 31890139.
^ Qiang-long, Zhu; Shi, Liu; Peng, Gao; Fei-shi, Luan (1 de septiembre de 2014). "Tecnología de secuenciación de alto rendimiento y su aplicación". Journal of Northeast Agricultural University (edición en inglés) . 21 (3): 84–96. doi :10.1016/S1006-8104(14)60073-8.
^ Chaisson, M.; Pevzner, P.; Tang, H. (1 de septiembre de 2004). "Ensamblaje de fragmentos con lecturas cortas". Bioinformática . 20 (13): 2067–2074. doi :10.1093/bioinformatics/bth205. PMID 15059830.
^ Kraft, Florián; Kurth, Ingo (16 de julio de 2019). "Secuenciación de lectura larga en genética humana". Medicina genética . 31 (2): 198–204. doi : 10.1007/s11825-019-0249-z . S2CID 197402652.
^ Sung, Wing-Kin (2017). Algoritmos para la secuenciación de próxima generación . Boca Raton. ISBN 978-1466565500.{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ Sung, Wing-Kin (2017). Algoritmos para la secuenciación de próxima generación . Boca Raton. ISBN 978-1466565500.{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ Adewale, Boluwatife A. (26 de noviembre de 2020). "¿Las tecnologías de secuenciación de lectura larga reemplazarán a las tecnologías de secuenciación de lectura corta en los próximos 10 años?". Revista Africana de Medicina de Laboratorio . 9 (1): 5. doi :10.4102/ajlm.v9i1.1340. PMC 7736650 . PMID 33354530.
^ "Costos de secuenciación de ADN: datos". Genome.gov .
^ Mardis, Elaine R (febrero de 2017). "Tecnologías de secuenciación de ADN: 2006-2016". Nature Protocols . 12 (2): 213-218. doi :10.1038/nprot.2016.182. PMID 28055035. S2CID 205466745.
^ Mardis, Elaine R (febrero de 2017). "Tecnologías de secuenciación de ADN: 2006-2016". Nature Protocols . 12 (2): 213-218. doi :10.1038/nprot.2016.182. PMID 28055035. S2CID 205466745.
^ Ho, Steve S.; Urban, Alexander E.; Mills, Ryan E. (marzo de 2020). "Variación estructural en la era de la secuenciación". Nature Reviews Genetics . 21 (3): 171–189. doi :10.1038/s41576-019-0180-9. PMC 7402362 . PMID 31729472.
^ Rhoads, Anthony; Au, Kin Fai (octubre de 2015). "Secuenciación de PacBio y sus aplicaciones". Genómica, proteómica y bioinformática . 13 (5): 278–289. doi :10.1016/j.gpb.2015.08.002. PMC 4678779 . PMID 26542840.
^ Wenger, Aaron M.; Peluso, Paul; Rowell, William J.; Chang, Pi-Chuan; Hall, Richard J.; Concepcion, Gregory T.; Ebler, Jana; Fungtammasan, Arkarachai; Kolesnikov, Alexey; Olson, Nathan D.; Töpfer, Armin; Alonge, Michael; Mahmoud, Medhat; Qian, Yufeng; Chin, Chen-Shan; Phillippy, Adam M.; Schatz, Michael C.; Myers, Gene; DePristo, Mark A.; Ruan, Jue; Marschall, Tobias; Sedlazeck, Fritz J.; Zook, Justin M.; Li, Heng; Koren, Sergey; Carroll, Andrew; Rank, David R.; Hunkapiller, Michael W. (octubre de 2019). "La secuenciación precisa de consenso circular de lectura larga mejora la detección de variantes y el ensamblaje de un genoma humano". Nature Biotechnology . 37 (10): 1155–1162. doi :10.1038/s41587-019-0217-9. PMC 6776680 . PMID 31406327.
^ Flusberg, Benjamin A; Webster, Dale R; Lee, Jessica H; Travers, Kevin J; Olivares, Eric C; Clark, Tyson A; Korlach, Jonas; Turner, Stephen W (junio de 2010). "Detección directa de la metilación del ADN durante la secuenciación de moléculas individuales en tiempo real". Nature Methods . 7 (6): 461–465. doi :10.1038/nmeth.1459. PMC 2879396 . PMID 20453866.
^ Simpson, Jared T; Workman, Rachael E; Zuzarte, PC; David, Matei; Dursi, LJ; Timp, Winston (abril de 2017). "Detección de la metilación de la citosina del ADN mediante secuenciación de nanoporos". Nature Methods . 14 (4): 407–410. doi :10.1038/nmeth.4184. PMID 28218898. S2CID 16152628.