Massive parallel sequencing

Massive parallel sequencing or massively parallel sequencing is any of several high-throughput approaches to DNA sequencing using the concept of massively parallel processing; it is also called next-generation sequencing (NGS) or second-generation sequencing. Some of these technologies emerged between 1993 and 1998 ^[1]^[2]^[3]^[4]^[5] and have been commercially available since 2005. These technologies use miniaturized and parallelized platforms for sequencing of 1 million to 43 billion short reads (50 to 400 bases each) per instrument run.

Many NGS platforms differ in engineering configurations and sequencing chemistry. They share the technical paradigm of massive parallel sequencing via spatially separated, clonally amplified DNA templates or single DNA molecules in a flow cell. This design is very different from that of Sanger sequencing—also known as capillary sequencing or first-generation sequencing—which is based on electrophoretic separation of chain-termination products produced in individual sequencing reactions.^[6] This methodology allows sequencing to be completed on a larger scale.^[7]

NGS platforms

DNA sequencing with commercially available NGS platforms is generally conducted with the following steps. First, DNA sequencing libraries are generated by clonal amplification by PCR in vitro. Second, the DNA is sequenced by synthesis, such that the DNA sequence is determined by the addition of nucleotides to the complementary strand rather than through chain-termination chemistry. Third, the spatially segregated, amplified DNA templates are sequenced simultaneously in a massively parallel fashion without the requirement for a physical separation step. These steps are followed in most NGS platforms, but each utilizes a different strategy.^[8]

NGS parallelization of the sequencing reactions generates hundreds of megabases to gigabases of nucleotide sequence reads in a single instrument run. This has enabled a drastic increase in available sequence data and fundamentally changed genome sequencing approaches in the biomedical sciences.^[9]Newly emerging NGS technologies and instruments have further contributed to a significant decrease in the cost of sequencing nearing the mark of $1000 per genome sequencing.^[10]^[11]

A partir de 2014, hay plataformas de secuenciación masiva paralela disponibles comercialmente y sus características se resumen en la tabla. A medida que el ritmo de las tecnologías NGS avanza rápidamente, las especificaciones técnicas y los precios cambian.

Se anotan los tiempos de ejecución y la salida de gigabase (Gb) por ejecución para la secuenciación de un solo extremo. Los tiempos de ejecución y las salidas se duplican aproximadamente cuando se realiza la secuenciación de extremos emparejados. ‡Duración de lectura promedio para las plataformas Roche 454 y Helicos Biosciences. ^[23]

Métodos de preparación de plantillas para NGS.

Se utilizan dos métodos para preparar plantillas para reacciones NGS: plantillas amplificadas que se originan a partir de moléculas de ADN individuales y plantillas de moléculas de ADN individuales. Para los sistemas de imágenes que no pueden detectar eventos de fluorescencia únicos, se requiere la amplificación de plantillas de ADN. Los tres métodos de amplificación más comunes son la PCR en emulsión (emPCR), el círculo rodante y la amplificación en fase sólida. La distribución final de las plantillas puede ser espacialmente aleatoria o en una cuadrícula.

PCR en emulsión

En los métodos de PCR en emulsión , primero se genera una biblioteca de ADN mediante la fragmentación aleatoria del ADN genómico. Los fragmentos de ADN monocatenario (plantillas) se unen a la superficie de las perlas con adaptadores o conectores, y una perla se une a un único fragmento de ADN de la biblioteca de ADN. La superficie de las perlas contiene sondas oligonucleotídicas con secuencias complementarias a los adaptadores que unen los fragmentos de ADN. Luego, las perlas se compartimentan en gotitas de emulsión de agua y aceite. En la emulsión acuosa de agua y aceite, cada una de las gotitas que capturan una perla es un microrreactor de PCR que produce copias amplificadas de la plantilla de ADN única. ^[24]^[25]^[26]

Nanobolas circulares rodantes cuadriculadas

A la amplificación de una población de moléculas de ADN individuales mediante amplificación en círculo rodante en solución le sigue la captura en una cuadrícula de puntos de tamaño más pequeño que el ADN que se va a inmovilizar. ^[27]^[28]^[29]^[30]

Generación de colonias de ADN (amplificación de puente)

Los cebadores directos e inversos se unen covalentemente a alta densidad al portaobjetos en una celda de flujo. La relación entre los cebadores y la plantilla sobre el soporte define la densidad superficial de los grupos amplificados. La celda de flujo se expone a reactivos para la extensión basada en polimerasa y el cebado se produce cuando el extremo libre/distal de un fragmento ligado "puente" con un oligo complementario en la superficie. La desnaturalización y extensión repetidas dan como resultado una amplificación localizada de fragmentos de ADN en millones de ubicaciones separadas a lo largo de la superficie de la célula de flujo. La amplificación en fase sólida produce entre 100 y 200 millones de grupos de plantillas separados espacialmente, proporcionando extremos libres a los que luego se hibrida un cebador de secuenciación universal para iniciar la reacción de secuenciación. ^[24]^[25] Esta tecnología fue solicitada para una patente en 1997 del Instituto de Investigación Biomédica de Ginebra (GBRI) de Glaxo-Welcome, por Pascal Mayer , Eric Kawashima y Laurent Farinelli, ^[4]^[5] y fue presentada públicamente para la por primera vez en 1998. ^[31] En 1994, Chris Adams y Steve Kron presentaron una patente sobre un método de amplificación de superficie similar, pero no clonal, denominado "amplificación de puente" ^[3] adaptado para la amplificación clonal en 1997 por Church y Mitra. ^[27]^[28]

Plantillas de una sola molécula

Los protocolos que requieren amplificación de ADN suelen ser complicados de implementar y pueden introducir errores de secuenciación. La preparación de plantillas de una sola molécula es más sencilla y no requiere PCR, lo que puede introducir errores en las plantillas amplificadas. Las secuencias diana ricas en AT y GC a menudo muestran un sesgo de amplificación, lo que da como resultado su subrepresentación en alineamientos y ensamblajes del genoma. Las plantillas de una sola molécula generalmente se inmovilizan sobre soportes sólidos utilizando uno de al menos tres enfoques diferentes. En el primer enfoque, las moléculas cebadoras individuales distribuidas espacialmente se unen covalentemente al soporte sólido. La plantilla, que se prepara fragmentando aleatoriamente el material de partida en tamaños pequeños (por ejemplo, ~200–250 pb) y agregando adaptadores comunes a los extremos del fragmento, luego se hibrida con el cebador inmovilizado. En el segundo enfoque, los moldes de una sola molécula distribuidos espacialmente se unen covalentemente al soporte sólido mediante el cebado y la extensión de moldes de una sola molécula de cadena sencilla a partir de cebadores inmovilizados. Luego se hibrida un cebador común con la plantilla. En cualquier enfoque, la ADN polimerasa puede unirse a la configuración del molde preparado inmovilizado para iniciar la reacción NGS. Helicos BioSciences utiliza los dos enfoques anteriores. En un tercer enfoque, se unen moléculas de polimerasa individuales distribuidas espacialmente al soporte sólido, al que se une una molécula plantilla cebada. Pacific Biosciences utiliza este enfoque. Con esta técnica se pueden utilizar moléculas de ADN más grandes (hasta decenas de miles de pares de bases) y, a diferencia de los dos primeros enfoques, el tercer enfoque se puede utilizar con métodos en tiempo real, lo que da como resultado longitudes de lectura potencialmente más largas.

Enfoques de secuenciación

Secuenciación por síntesis

El objetivo de la secuenciación secuencial por síntesis (SBS) es determinar la secuenciación de una muestra de ADN mediante la detección de la incorporación de un nucleótido por una ADN polimerasa . Se utiliza una polimerasa diseñada para sintetizar una copia de una sola cadena de ADN y se monitorea la incorporación de cada nucleótido. El principio de secuenciación por síntesis se describió por primera vez en 1993 ^{^[1]} y se publicaron mejoras algunos años después. ^[32] Las partes clave son muy similares para todas las realizaciones de SBS e incluyen (1) amplificación de ADN para mejorar la señal posterior y unir el ADN que se va a secuenciar a un soporte sólido, (2) generación de ADN monocatenario en el soporte sólido, (3) incorporación de nucleótidos usando una polimerasa diseñada y (4) detección de la incorporación de nucleótidos. Luego se repiten los pasos 3 y 4 y la secuencia se ensambla a partir de las señales obtenidas en el paso 4. Este principio de secuenciación por síntesis se ha utilizado para casi todos los instrumentos de secuenciación paralela masiva, incluidos 454 , PacBio , IonTorrent , Illumina y MGI .

Pirosecuenciación

El principio de pirosecuenciación se describió por primera vez en 1993 ^{^[1]} combinando un soporte sólido con una ADN polimerasa diseñada que carece de actividad exonucleasa 3' a 5' (corrección de pruebas) y detección de luminiscencia en tiempo real utilizando la luciferasa de luciérnaga . Se introdujeron todos los conceptos clave de la secuenciación por síntesis, incluida (1) amplificación del ADN para mejorar la señal posterior y unir el ADN a secuenciar (plantilla) a un soporte sólido, (2) generación de ADN monocatenario en el soporte sólido. (3) incorporación de nucleótidos utilizando una polimerasa diseñada y (4) detección del nucleótido incorporado mediante detección de luz en tiempo real. En un artículo posterior ^[2] , el concepto se desarrolló aún más y en 1998 se publicó un artículo ^[32] en el que los autores demostraban que los nucleótidos no incorporados podían eliminarse con una cuarta enzima ( apirasa ) que permitía la secuenciación por síntesis. realizarse sin necesidad de eliminar por lavado los nucleótidos no incorporados.

Secuenciación mediante química de terminador reversible.

Este enfoque utiliza dNTP unidos a un terminador reversible en un método cíclico que comprende la incorporación de nucleótidos, imágenes de fluorescencia y escisión. Se obtienen imágenes de un terminador marcado con fluorescencia a medida que se agrega cada dNTP y luego se escinde para permitir la incorporación de la siguiente base. Estos nucleótidos están bloqueados químicamente de modo que cada incorporación es un evento único. Un paso de obtención de imágenes sigue a cada paso de incorporación de bases, luego el grupo bloqueado se elimina químicamente para preparar cada cadena para la siguiente incorporación mediante la ADN polimerasa. Esta serie de pasos continúa durante un número específico de ciclos, según lo determinado por la configuración del instrumento definida por el usuario. Los grupos bloqueadores 3' se concibieron originalmente como inversión enzimática ^[33] o química ^[14]^[15]. El método químico ha sido la base de las máquinas Solexa e Illumina. La secuenciación mediante química de terminador reversible puede ser un ciclo de cuatro colores, como el que utiliza Illumina/Solexa, o un ciclo de un color, como el que utiliza Helicos BioSciences. Helicos BioSciences utilizó “Terminadores virtuales”, que son terminadores desbloqueados con un segundo análogo de nucleósido que actúa como inhibidor. Estos terminadores tienen las modificaciones apropiadas para terminar o inhibir grupos de modo que la síntesis de ADN finalice después de la adición de una sola base. ^[25]^[34]^[35]

Secuenciación por ligación mediada por enzimas ligasas.

En este enfoque, la reacción de extensión de secuencia no la llevan a cabo polimerasas sino más bien ADN ligasa y sondas codificadas con una base o sondas codificadas con dos bases. En su forma más simple, una sonda marcada con fluorescencia se hibrida con su secuencia complementaria adyacente a la plantilla cebada. Luego se agrega ADN ligasa para unir la sonda marcada con colorante al cebador. Las sondas no ligadas se eliminan por lavado y luego se obtienen imágenes de fluorescencia para determinar la identidad de la sonda ligada. El ciclo se puede repetir usando sondas escindibles para eliminar el tinte fluorescente y regenerar un grupo 5′-PO4 para ciclos de ligadura posteriores (ligadura encadenada ^[16]^[36] ) o eliminando e hibridando un nuevo cebador con la plantilla (ligadura no encadenada). ligadura ^[18]^[19] ).

Nucleótidos fluorescentes fosfoenlazados o secuenciación en tiempo real

Pacific Biosciences lidera actualmente este método. El método de secuenciación en tiempo real implica obtener imágenes de la incorporación continua de nucleótidos marcados con colorante durante la síntesis de ADN: se unen moléculas individuales de ADN polimerasa a la superficie inferior de detectores de guía de onda de modo cero individuales (detectores Zmw) que pueden obtener información de secuencia mientras los nucleótidos están fosfoenlazados. se están incorporando a la cadena del cebador en crecimiento. Pacific Biosciences utiliza una ADN polimerasa única que incorpora mejor nucleótidos fosfoenlazados y permite la resecuenciación de plantillas circulares cerradas. Si bien la precisión de una sola lectura es del 87 %, se ha demostrado una precisión consensuada del 99,999 % con longitudes de lectura de varios kilobases. ^[37]^[38] En 2015, Pacific Biosciences lanzó un nuevo instrumento de secuenciación llamado Sequel System, que aumenta la capacidad aproximadamente 6,5 veces. ^[39]^[40]

Ver también

Referencias

^ abc Nyren, P.; Pettersson, B.; Uhlen, M. (enero de 1993). "Minisecuenciación de ADN en fase sólida mediante un ensayo de detección de pirofosfato inorgánico luminométrico enzimático". Bioquímica Analítica . 208 (1): 171-175. doi :10.1006/abio.1993.1024.
^ ab Ronaghi M, Karamohamed S, Pettersson B, Uhlén M, Nyrén P (noviembre de 1996). "Secuenciación de ADN en tiempo real mediante detección de liberación de pirofosfato". Bioquímica Analítica . 242 (1): 84–89. doi :10.1006/abio.1996.0432. PMID 8923969.
^ ab US 5641658, Adams CP, Kron SJ, "Método para realizar la amplificación de ácido nucleico con dos cebadores unidos a un único soporte sólido", publicado el 24 de junio de 1997, asignado a Mosaic Technologies Inc. y el Instituto Whitehead de Investigación Biomédica
^ ab EP 0972081, Farinelli L, Kawashima E, Mayer P), "Método de amplificación de ácidos nucleicos", publicado el 13 de junio de 2007, asignado a Solexa Ltd.
^ ab EP 0975802, Kawashima E, Farinellit L, Mayer P, "Método de secuenciación de ácidos nucleicos", publicado el 23 de junio de 2004
^ Voelkerding KV, Dames SA, Durtschi JD (abril de 2009). "Secuenciación de próxima generación: de la investigación básica al diagnóstico". Química Clínica . 55 (4): 641–658. doi : 10.1373/clinchem.2008.112789 . PMID 19246620.
^ Ballard D, Winkler-Galicki J, Wesoły J (julio de 2020). "Secuenciación paralela masiva en ciencia forense: ventajas, problemas, tecnicismos y perspectivas". Revista Internacional de Medicina Legal . 134 (4): 1291-1303. doi :10.1007/s00414-020-02294-0. PMC 7295846 . PMID 32451905.
^ Anderson MW, Schrijver I (mayo de 2010). "La secuenciación de ADN de próxima generación y el futuro de la medicina genómica". Genes . 1 (1): 38–69. doi : 10.3390/genes1010038 . PMC 3960862 . PMID 24710010.
^ Tucker T, Marra M, Friedman JM (agosto de 2009). "Secuenciación masiva paralela: el próximo gran avance en medicina genética". Revista Estadounidense de Genética Humana . 85 (2): 142-154. doi :10.1016/j.ajhg.2009.06.022. PMC 2725244 . PMID 19679224.
^ von Bubnoff A (marzo de 2008). "Secuenciación de próxima generación: la carrera ha comenzado". Celúla . 132 (5): 721–723. doi : 10.1016/j.cell.2008.02.028 . PMID 18329356. S2CID 8413828.
^ "Comunicado de 2008: NHGRI busca tecnologías de secuenciación de ADN adecuadas para uso médico y de laboratorio de rutina". Genoma.gov . Consultado el 5 de agosto de 2012 .
^ "Especificaciones para HiSeq 2500". Archivado desde el original el 6 de diciembre de 2014 . Consultado el 6 de noviembre de 2014 .
^ "HiSeq v4 ya está aquí... y cumple | Edinburgh Genomics". Archivado desde el original el 6 de noviembre de 2014 . Consultado el 6 de noviembre de 2014 .
^ ab Patente estadounidense 7790869, Ju J, Li Z, Edwards JR, Itagaki Y, "Método paralelo masivo para decodificar ADN y ARN", publicado el 7 de septiembre de 2010, asignado a los Fideicomisarios de la Universidad de Columbia en la ciudad de Nueva York
^ ab Bentley DR, Balasubramanian S, Swerdlow HP, Smith GP, Milton J, Brown CG, et al. (noviembre de 2008). "Secuenciación precisa del genoma humano completo mediante química terminadora reversible". Naturaleza . 456 (7218): 53–59. Código Bib :2008Natur.456...53B. doi : 10.1038/naturaleza07517. PMC 2581791 . PMID 18987734.
^ ab McKernan KJ, Peckham HE, Costa GL, McLaughlin SF, Fu Y, Tsung EF, et al. (Septiembre de 2009). "Secuencia y variación estructural en un genoma humano descubierta mediante secuenciación de ligadura masiva paralela de lectura corta utilizando codificación de dos bases". Investigación del genoma . 19 (9): 1527-1541. doi :10.1101/gr.091868.109. PMC 2752135 . PMID 19546169.
^ "Torrente de iones". Archivado desde el original el 30 de diciembre de 2013 . Consultado el 1 de enero de 2014 .
^ ab Drmanac R, Sparks AB, Callow MJ, Halpern AL, Burns NL, Kermani BG, et al. (Enero de 2010). "Secuenciación del genoma humano mediante lecturas de bases desencadenadas en nanoarrays de ADN autoensamblados". Ciencia . 327 (5961): 78–81. Código Bib : 2010 Ciencia... 327... 78D. doi : 10.1126/ciencia.1181498 . PMID 19892942. S2CID 17309571.
^ ab Shendure J, Porreca GJ, Reppas NB, Lin X, McCutcheon JP, Rosenbaum AM, et al. (Septiembre de 2005). "Secuenciación polonia múltiplex precisa de un genoma bacteriano evolucionado". Ciencia . 309 (5741): 1728-1732. Código bibliográfico : 2005 Ciencia... 309.1728S. doi : 10.1126/ciencia.1117389 . PMID 16081699. S2CID 11405973.
^ Peters BA, Kermani BG, Sparks AB, Alferov O, Hong P, Alexeev A, et al. (Julio de 2012). "Secuenciación precisa del genoma completo y haplotipado de 10 a 20 células humanas". Naturaleza . 487 (7406): 190–195. Código Bib :2012Natur.487..190P. doi : 10.1038/naturaleza11236. PMC 3397394 . PMID 22785314.
^ Inc, Pacific Biosciences de California (3 de octubre de 2013). "Pacific Biosciences presenta nueva química con longitudes de lectura más largas para detectar características novedosas en la secuencia de ADN y estudios avanzados del genoma de organismos grandes". Sala de noticias GlobeNewswire . {{cite web}}: |last=tiene nombre genérico ( ayuda )
^ Nederbragt L (5 de julio de 2013). "Ensamblaje del genoma bacteriano de novo: ¿un problema resuelto?".
^ Voelkerding KV, Dames S, Durtschi JD (septiembre de 2010). "Secuenciación de próxima generación para principios de diagnóstico clínico y aplicación a la resecuenciación dirigida para la miocardiopatía hipertrófica: un artículo del Simposio sobre patología molecular del Hospital William Beaumont de 2009". La revista de diagnóstico molecular . 12 (5): 539–551. doi :10.2353/jmoldx.2010.100043. PMC 2928417 . PMID 20805560.
^ ab Chee-Seng K, Yun LE, Yudi P, Kee-Seng C (abril de 2010). "Tecnologías de secuenciación de próxima generación y sus aplicaciones". Enciclopedia de Ciencias de la Vida (ELS) . Chichester: John Wiley & Sons, Ltd.
^ abc Metzker ML (enero de 2010). "Tecnologías de secuenciación: la próxima generación". Reseñas de la naturaleza. Genética . 11 (1): 31–46. doi :10.1038/nrg2626. PMID 19997069. S2CID 205484500.
^ Dressman D, Yan H, Traverso G, Kinzler KW, Vogelstein B (julio de 2003). "Transformación de moléculas individuales de ADN en partículas magnéticas fluorescentes para la detección y enumeración de variaciones genéticas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (15): 8817–8822. Código Bib : 2003PNAS..100.8817D. doi : 10.1073/pnas.1133470100 . PMC 166396 . PMID 12857956.
^ ab Patente estadounidense 6485944, Church GM, Mitra R, "Amplificación de réplicas de matrices de ácidos nucleicos", publicado el 26 de noviembre de 2002, asignado al presidente y miembros de Harvard College
^ ab Mitra RD, Church GM (diciembre de 1999). "Amplificación localizada in situ y replicación por contacto de muchas moléculas de ADN individuales". Investigación de ácidos nucleicos . 27 (24): 34e–34. doi :10.1093/nar/27.24.e34. PMC 148757 . PMID 10572186.
^ US 9624538, Church GM, Porreca GJ, Shendure J, Rosenbaum AM, "Secuenciación de ADN en círculo rodante con nanogrid", publicado el 18 de abril de 2017, asignado al presidente y miembros de Harvard College
^ Patente estadounidense 8445194, Drmanac R, Callow MJ, Drmanac S, Hauser BK, Yeung G, "Matrices de moléculas individuales para análisis genético y químico", publicado el 21 de mayo de 2013, asignado a Callida Genomics Inc.
^ Mayer P, Matton G, Adessi C, Turcatti G, Mermod JJ, Kawashima E (7 al 10 de octubre de 1998). Un método de secuenciación de ADN a muy gran escala, alto rendimiento y bajo costo basado en un nuevo proceso de creación automática de patrones de ADN bidimensional. Quinta Conferencia Internacional sobre Automatización en Mapeo y Secuenciación de ADN. San Luis, MO, EE.UU. Presentación ams98 de secuenciación masiva paralela de colonias de ADN
^ ab Ronaghi, Mostafa; Uhlén, Mathías; Nyrén, Pål (17 de julio de 1998). "Un método de secuenciación basado en pirofosfato en tiempo real". Ciencia . 281 (5375): 363–365. doi : 10.1126/ciencia.281.5375.363. ISSN 0036-8075. PMID 9705713. S2CID 26331871.
^ US 6833246, Balasubramanian S, "Secuenciación de polinucleótidos", publicado el 21 de diciembre de 2004, asignado a Solexa Ltd.
^ "Tecnología de ensayo". Ilumina. Archivado desde el original el 26 de agosto de 2012 . Consultado el 5 de agosto de 2012 .
^ "Secuenciación verdadera de una sola molécula (tSMS ™): Helicos BioSciences". Helicosbio.com. Archivado desde el original el 11 de marzo de 2012 . Consultado el 5 de agosto de 2012 .
^ "Fundamentos de la codificación de 2 bases y el espacio de color". Appliedbiosystems.cnpg.com . Consultado el 5 de agosto de 2012 .
^ Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C, et al. (Junio del 2013). "Ensamblajes de genoma microbiano terminados y no híbridos a partir de datos de secuenciación SMRT de lectura larga". Métodos de la naturaleza . 10 (6): 563–569. doi :10.1038/nmeth.2474. PMID 23644548. S2CID 205421576.
^ Mónica Heger (5 de marzo de 2013). "Los usuarios de PacBio informan avances en lecturas largas para el ensamblaje del genoma vegetal, regiones complicadas del genoma humano".
^ "PacBio lanza un sistema de secuenciación de una sola molécula de mayor rendimiento y menor costo". Octubre de 2015.
^ "PacBio anuncia el sistema de secuenciación Sequel - Bio-IT World". www.bio-itworld.com . Archivado desde el original el 2 de octubre de 2015.