Massive parallel sequencing or massively parallel sequencing is any of several high-throughput approaches to DNA sequencing using the concept of massively parallel processing; it is also called next-generation sequencing (NGS) or second-generation sequencing. Some of these technologies emerged between 1993 and 1998 [1][2][3][4][5] and have been commercially available since 2005. These technologies use miniaturized and parallelized platforms for sequencing of 1 million to 43 billion short reads (50 to 400 bases each) per instrument run.
Many NGS platforms differ in engineering configurations and sequencing chemistry. They share the technical paradigm of massive parallel sequencing via spatially separated, clonally amplified DNA templates or single DNA molecules in a flow cell. This design is very different from that of Sanger sequencing—also known as capillary sequencing or first-generation sequencing—which is based on electrophoretic separation of chain-termination products produced in individual sequencing reactions.[6] This methodology allows sequencing to be completed on a larger scale.[7]
DNA sequencing with commercially available NGS platforms is generally conducted with the following steps. First, DNA sequencing libraries are generated by clonal amplification by PCR in vitro. Second, the DNA is sequenced by synthesis, such that the DNA sequence is determined by the addition of nucleotides to the complementary strand rather than through chain-termination chemistry. Third, the spatially segregated, amplified DNA templates are sequenced simultaneously in a massively parallel fashion without the requirement for a physical separation step. These steps are followed in most NGS platforms, but each utilizes a different strategy.[8]
NGS parallelization of the sequencing reactions generates hundreds of megabases to gigabases of nucleotide sequence reads in a single instrument run. This has enabled a drastic increase in available sequence data and fundamentally changed genome sequencing approaches in the biomedical sciences.[9]Newly emerging NGS technologies and instruments have further contributed to a significant decrease in the cost of sequencing nearing the mark of $1000 per genome sequencing.[10][11]
A partir de 2014, hay plataformas de secuenciación masiva paralela disponibles comercialmente y sus características se resumen en la tabla. A medida que el ritmo de las tecnologías NGS avanza rápidamente, las especificaciones técnicas y los precios cambian.
Se anotan los tiempos de ejecución y la salida de gigabase (Gb) por ejecución para la secuenciación de un solo extremo. Los tiempos de ejecución y las salidas se duplican aproximadamente cuando se realiza la secuenciación de extremos emparejados. ‡Duración de lectura promedio para las plataformas Roche 454 y Helicos Biosciences. [23]
Se utilizan dos métodos para preparar plantillas para reacciones NGS: plantillas amplificadas que se originan a partir de moléculas de ADN individuales y plantillas de moléculas de ADN individuales. Para los sistemas de imágenes que no pueden detectar eventos de fluorescencia únicos, se requiere la amplificación de plantillas de ADN. Los tres métodos de amplificación más comunes son la PCR en emulsión (emPCR), el círculo rodante y la amplificación en fase sólida. La distribución final de las plantillas puede ser espacialmente aleatoria o en una cuadrícula.
En los métodos de PCR en emulsión , primero se genera una biblioteca de ADN mediante la fragmentación aleatoria del ADN genómico. Los fragmentos de ADN monocatenario (plantillas) se unen a la superficie de las perlas con adaptadores o conectores, y una perla se une a un único fragmento de ADN de la biblioteca de ADN. La superficie de las perlas contiene sondas oligonucleotídicas con secuencias complementarias a los adaptadores que unen los fragmentos de ADN. Luego, las perlas se compartimentan en gotitas de emulsión de agua y aceite. En la emulsión acuosa de agua y aceite, cada una de las gotitas que capturan una perla es un microrreactor de PCR que produce copias amplificadas de la plantilla de ADN única. [24] [25] [26]
A la amplificación de una población de moléculas de ADN individuales mediante amplificación en círculo rodante en solución le sigue la captura en una cuadrícula de puntos de tamaño más pequeño que el ADN que se va a inmovilizar. [27] [28] [29] [30]
Los cebadores directos e inversos se unen covalentemente a alta densidad al portaobjetos en una celda de flujo. La relación entre los cebadores y la plantilla sobre el soporte define la densidad superficial de los grupos amplificados. La celda de flujo se expone a reactivos para la extensión basada en polimerasa y el cebado se produce cuando el extremo libre/distal de un fragmento ligado "puente" con un oligo complementario en la superficie. La desnaturalización y extensión repetidas dan como resultado una amplificación localizada de fragmentos de ADN en millones de ubicaciones separadas a lo largo de la superficie de la célula de flujo. La amplificación en fase sólida produce entre 100 y 200 millones de grupos de plantillas separados espacialmente, proporcionando extremos libres a los que luego se hibrida un cebador de secuenciación universal para iniciar la reacción de secuenciación. [24] [25] Esta tecnología fue solicitada para una patente en 1997 del Instituto de Investigación Biomédica de Ginebra (GBRI) de Glaxo-Welcome, por Pascal Mayer , Eric Kawashima y Laurent Farinelli, [4] [5] y fue presentada públicamente para la por primera vez en 1998. [31] En 1994, Chris Adams y Steve Kron presentaron una patente sobre un método de amplificación de superficie similar, pero no clonal, denominado "amplificación de puente" [3] adaptado para la amplificación clonal en 1997 por Church y Mitra. [27] [28]
Los protocolos que requieren amplificación de ADN suelen ser complicados de implementar y pueden introducir errores de secuenciación. La preparación de plantillas de una sola molécula es más sencilla y no requiere PCR, lo que puede introducir errores en las plantillas amplificadas. Las secuencias diana ricas en AT y GC a menudo muestran un sesgo de amplificación, lo que da como resultado su subrepresentación en alineamientos y ensamblajes del genoma. Las plantillas de una sola molécula generalmente se inmovilizan sobre soportes sólidos utilizando uno de al menos tres enfoques diferentes. En el primer enfoque, las moléculas cebadoras individuales distribuidas espacialmente se unen covalentemente al soporte sólido. La plantilla, que se prepara fragmentando aleatoriamente el material de partida en tamaños pequeños (por ejemplo, ~200–250 pb) y agregando adaptadores comunes a los extremos del fragmento, luego se hibrida con el cebador inmovilizado. En el segundo enfoque, los moldes de una sola molécula distribuidos espacialmente se unen covalentemente al soporte sólido mediante el cebado y la extensión de moldes de una sola molécula de cadena sencilla a partir de cebadores inmovilizados. Luego se hibrida un cebador común con la plantilla. En cualquier enfoque, la ADN polimerasa puede unirse a la configuración del molde preparado inmovilizado para iniciar la reacción NGS. Helicos BioSciences utiliza los dos enfoques anteriores. En un tercer enfoque, se unen moléculas de polimerasa individuales distribuidas espacialmente al soporte sólido, al que se une una molécula plantilla cebada. Pacific Biosciences utiliza este enfoque. Con esta técnica se pueden utilizar moléculas de ADN más grandes (hasta decenas de miles de pares de bases) y, a diferencia de los dos primeros enfoques, el tercer enfoque se puede utilizar con métodos en tiempo real, lo que da como resultado longitudes de lectura potencialmente más largas.
El objetivo de la secuenciación secuencial por síntesis (SBS) es determinar la secuenciación de una muestra de ADN mediante la detección de la incorporación de un nucleótido por una ADN polimerasa . Se utiliza una polimerasa diseñada para sintetizar una copia de una sola cadena de ADN y se monitorea la incorporación de cada nucleótido. El principio de secuenciación por síntesis se describió por primera vez en 1993 [1] y se publicaron mejoras algunos años después. [32] Las partes clave son muy similares para todas las realizaciones de SBS e incluyen (1) amplificación de ADN para mejorar la señal posterior y unir el ADN que se va a secuenciar a un soporte sólido, (2) generación de ADN monocatenario en el soporte sólido, (3) incorporación de nucleótidos usando una polimerasa diseñada y (4) detección de la incorporación de nucleótidos. Luego se repiten los pasos 3 y 4 y la secuencia se ensambla a partir de las señales obtenidas en el paso 4. Este principio de secuenciación por síntesis se ha utilizado para casi todos los instrumentos de secuenciación paralela masiva, incluidos 454 , PacBio , IonTorrent , Illumina y MGI .
El principio de pirosecuenciación se describió por primera vez en 1993 [1] combinando un soporte sólido con una ADN polimerasa diseñada que carece de actividad exonucleasa 3' a 5' (corrección de pruebas) y detección de luminiscencia en tiempo real utilizando la luciferasa de luciérnaga . Se introdujeron todos los conceptos clave de la secuenciación por síntesis, incluida (1) amplificación del ADN para mejorar la señal posterior y unir el ADN a secuenciar (plantilla) a un soporte sólido, (2) generación de ADN monocatenario en el soporte sólido. (3) incorporación de nucleótidos utilizando una polimerasa diseñada y (4) detección del nucleótido incorporado mediante detección de luz en tiempo real. En un artículo posterior [2] , el concepto se desarrolló aún más y en 1998 se publicó un artículo [32] en el que los autores demostraban que los nucleótidos no incorporados podían eliminarse con una cuarta enzima ( apirasa ) que permitía la secuenciación por síntesis. realizarse sin necesidad de eliminar por lavado los nucleótidos no incorporados.
Este enfoque utiliza dNTP unidos a un terminador reversible en un método cíclico que comprende la incorporación de nucleótidos, imágenes de fluorescencia y escisión. Se obtienen imágenes de un terminador marcado con fluorescencia a medida que se agrega cada dNTP y luego se escinde para permitir la incorporación de la siguiente base. Estos nucleótidos están bloqueados químicamente de modo que cada incorporación es un evento único. Un paso de obtención de imágenes sigue a cada paso de incorporación de bases, luego el grupo bloqueado se elimina químicamente para preparar cada cadena para la siguiente incorporación mediante la ADN polimerasa. Esta serie de pasos continúa durante un número específico de ciclos, según lo determinado por la configuración del instrumento definida por el usuario. Los grupos bloqueadores 3' se concibieron originalmente como inversión enzimática [33] o química [14] [15]. El método químico ha sido la base de las máquinas Solexa e Illumina. La secuenciación mediante química de terminador reversible puede ser un ciclo de cuatro colores, como el que utiliza Illumina/Solexa, o un ciclo de un color, como el que utiliza Helicos BioSciences. Helicos BioSciences utilizó “Terminadores virtuales”, que son terminadores desbloqueados con un segundo análogo de nucleósido que actúa como inhibidor. Estos terminadores tienen las modificaciones apropiadas para terminar o inhibir grupos de modo que la síntesis de ADN finalice después de la adición de una sola base. [25] [34] [35]
En este enfoque, la reacción de extensión de secuencia no la llevan a cabo polimerasas sino más bien ADN ligasa y sondas codificadas con una base o sondas codificadas con dos bases. En su forma más simple, una sonda marcada con fluorescencia se hibrida con su secuencia complementaria adyacente a la plantilla cebada. Luego se agrega ADN ligasa para unir la sonda marcada con colorante al cebador. Las sondas no ligadas se eliminan por lavado y luego se obtienen imágenes de fluorescencia para determinar la identidad de la sonda ligada. El ciclo se puede repetir usando sondas escindibles para eliminar el tinte fluorescente y regenerar un grupo 5′-PO4 para ciclos de ligadura posteriores (ligadura encadenada [16] [36] ) o eliminando e hibridando un nuevo cebador con la plantilla (ligadura no encadenada). ligadura [18] [19] ).
Pacific Biosciences lidera actualmente este método. El método de secuenciación en tiempo real implica obtener imágenes de la incorporación continua de nucleótidos marcados con colorante durante la síntesis de ADN: se unen moléculas individuales de ADN polimerasa a la superficie inferior de detectores de guía de onda de modo cero individuales (detectores Zmw) que pueden obtener información de secuencia mientras los nucleótidos están fosfoenlazados. se están incorporando a la cadena del cebador en crecimiento. Pacific Biosciences utiliza una ADN polimerasa única que incorpora mejor nucleótidos fosfoenlazados y permite la resecuenciación de plantillas circulares cerradas. Si bien la precisión de una sola lectura es del 87 %, se ha demostrado una precisión consensuada del 99,999 % con longitudes de lectura de varios kilobases. [37] [38] En 2015, Pacific Biosciences lanzó un nuevo instrumento de secuenciación llamado Sequel System, que aumenta la capacidad aproximadamente 6,5 veces. [39] [40]
{{cite web}}
: |last=
tiene nombre genérico ( ayuda )Presentación ams98 de secuenciación masiva paralela de colonias de ADN