La secuenciación en tiempo real de una sola molécula ( SMRT ) es un método de secuenciación de ADN de una sola molécula paralelizado . La secuenciación en tiempo real de una sola molécula utiliza una guía de ondas de modo cero (ZMW). [1] Una única enzima ADN polimerasa está fijada en la parte inferior de un ZMW con una sola molécula de ADN como plantilla. El ZMW es una estructura que crea un volumen de observación iluminado que es lo suficientemente pequeño como para observar un solo nucleótido de ADN incorporado por la ADN polimerasa . Cada una de las cuatro bases del ADN está unida a uno de los cuatro tintes fluorescentes diferentes. Cuando la ADN polimerasa incorpora un nucleótido, la etiqueta fluorescente se escinde y se difunde fuera del área de observación del ZMW, donde su fluorescencia ya no es observable. Un detector detecta la señal fluorescente de la incorporación del nucleótido, y la llamada de base se realiza en función de la correspondiente fluorescencia del colorante. [2]
La secuenciación del ADN se realiza en un chip que contiene muchos ZMW. Dentro de cada ZMW, una única ADN polimerasa activa con una sola molécula de plantilla de ADN monocatenario está inmovilizada hasta el fondo a través del cual la luz puede penetrar y crear una cámara de visualización que permite monitorear la actividad de la ADN polimerasa a nivel de una sola molécula. La señal de un nucleótido fosfo-enlazado incorporado por la ADN polimerasa se detecta a medida que avanza la síntesis de ADN, lo que da como resultado la secuenciación del ADN en tiempo real.
Para preparar la biblioteca, los fragmentos de ADN se colocan en forma circular utilizando ligaduras adaptadoras en horquilla. [3]
Para cada una de las bases de nucleótidos, hay una molécula de tinte fluorescente correspondiente que permite al detector identificar la base que está incorporando la ADN polimerasa mientras realiza la síntesis de ADN . La molécula de tinte fluorescente está unida a la cadena de fosfato del nucleótido. Cuando la ADN polimerasa incorpora el nucleótido, el tinte fluorescente se escinde de la cadena de fosfato como parte de un proceso natural de síntesis de ADN durante el cual se crea un enlace fosfodiéster para alargar la cadena de ADN. A continuación, la molécula de colorante fluorescente escindida se difunde fuera del volumen de detección de modo que ya no se detecta la señal fluorescente. [4]
La guía de ondas de modo cero (ZMW) es una estructura de confinamiento nanofotónico que consiste en un orificio circular en una película de revestimiento de aluminio depositada sobre un sustrato de sílice transparente. [5]
Los agujeros ZMW tienen ~70 nm de diámetro y ~100 nm de profundidad. Debido al comportamiento de la luz cuando pasa a través de una pequeña apertura, el campo óptico decae exponencialmente dentro de la cámara. [6] [7]
El volumen de observación dentro de un ZMW iluminado es de ~20 zeptolitros (20 X 10 −21 litros). Dentro de este volumen, se puede detectar fácilmente la actividad de la ADN polimerasa que incorpora un único nucleótido. [4] [8]
El rendimiento de la secuenciación se puede medir en longitud de lectura, precisión y rendimiento total por experimento. Los sistemas de secuenciación PacBio que utilizan ZMW tienen la ventaja de longitudes de lectura largas, aunque las tasas de error son del orden del 5 al 15 % y el rendimiento de la muestra es menor que las plataformas de secuenciación de Illumina . [9]
El 19 de septiembre de 2018, Pacific Biosciences [PacBio] lanzó la química Sequel 6.0, sincronizando la versión química con la versión del software. Se contrasta el rendimiento de las bibliotecas de insertos grandes con ADN de alto peso molecular frente a las bibliotecas de insertos más cortos con una longitud inferior a ~15 000 bases. Para plantillas más grandes, la longitud promedio de lectura es de hasta 30.000 bases. Para bibliotecas con inserciones más cortas, la longitud de lectura promedio es de hasta 100 000 bases mientras se lee la misma molécula en un círculo varias veces. Estas últimas bibliotecas de inserciones más cortas producen hasta 50 mil millones de bases a partir de una sola célula SMRT. [10]
Pacific Biosciences (PacBio) comercializó la secuenciación SMRT en 2011, [11] después de lanzar una versión beta de su instrumento RS a finales de 2010. [12]
En el momento de la comercialización, la longitud de lectura tenía una distribución normal con una media de aproximadamente 1100 bases. Un nuevo kit de química lanzado a principios de 2012 aumentó la longitud de lectura del secuenciador; Uno de los primeros clientes de la química citó longitudes de lectura medias de 2500 a 2900 bases. [13]
El kit de química XL lanzado a finales de 2012 aumentó la longitud de lectura promedio a más de 4300 bases. [14] [15]
El 21 de agosto de 2013, PacBio lanzó un nuevo kit de unión de ADN polimerasa P4. Esta enzima P4 tiene longitudes de lectura promedio de más de 4300 bases cuando se combina con la química de secuenciación C2 y de más de 5000 bases cuando se combina con la química XL. [16] La precisión de la enzima es similar a la de C2, alcanzando QV50 con una cobertura de entre 30X y 40X. Los atributos P4 resultantes proporcionaron ensamblajes de mayor calidad utilizando menos celdas SMRT y con llamadas de variantes mejoradas. [16] Cuando se combina con la selección del tamaño del ADN de entrada (usando un instrumento de electroforesis como BluePippin), se obtiene una longitud de lectura promedio de más de 7 kilobases. [17]
El 3 de octubre de 2013, PacBio lanzó una nueva combinación de reactivos para PacBio RS II, la ADN polimerasa P5 con química C3 (P5-C3). Juntos, amplían las longitudes de lectura de secuenciación a un promedio de aproximadamente 8500 bases, y las lecturas más largas superan las 30 000 bases. [18] El rendimiento por célula SMRT es de alrededor de 500 millones de bases, como lo demuestran los resultados de la secuenciación de la línea celular CHM1. [19]
El 15 de octubre de 2014, PacBio anunció el lanzamiento de la nueva química P6-C4 para el sistema RS II, que representa la sexta generación de polimerasa y la química de cuarta generación de la compañía, extendiendo aún más la longitud promedio de lectura a 10,000 - 15,000 bases, con el lecturas más largas que superan las 40.000 bases. El rendimiento con la nueva química se estimó entre 500 millones y mil millones de bases por célula SMRT, dependiendo de la muestra que se secuencia. [20] [21] Esta fue la versión final de química lanzada para el instrumento RS.
El rendimiento por experimento de la tecnología está influenciado por la longitud de lectura de las moléculas de ADN secuenciadas y por el multiplex total de una célula SMRT. El prototipo de la célula SMRT contenía alrededor de 3000 agujeros ZMW que permitían la secuenciación paralelizada del ADN. En el momento de la comercialización, cada una de las células SMRT tenía un patrón de 150.000 orificios ZMW que se leyeron en dos conjuntos de 75.000. [22] En abril de 2013, la compañía lanzó una nueva versión del secuenciador llamado "PacBio RS II" que utiliza los 150.000 agujeros ZMW simultáneamente, duplicando el rendimiento por experimento. [23] [24] El modo de mayor rendimiento en noviembre de 2013 utilizó unión P5, química C3, selección de tamaño BluePippin y un PacBio RS II produjo oficialmente 350 millones de bases por célula SMRT a través de un conjunto de datos humanos de novo publicado con una química promedio de 500. millones de bases por celda SMRT. El rendimiento varía según el tipo de muestra que se secuencia. [25] Con la introducción de la química P6-C4, el rendimiento típico por célula SMRT aumentó de 500 millones de bases a mil millones de bases.
En septiembre de 2015, la compañía anunció el lanzamiento de un nuevo instrumento de secuenciación, el Sequel System, que aumentó la capacidad a 1 millón de agujeros ZMW. [26] [27]
Con el instrumento Sequel, las longitudes de lectura iniciales fueron comparables a las del RS, luego, las versiones químicas posteriores aumentaron la longitud de lectura.
El 23 de enero de 2017, se lanzó la química V2. Aumentó la longitud promedio de lectura a entre 10.000 y 18.000 bases. [28]
El 8 de marzo de 2018, se lanzó la química 2.1. Aumentó la longitud de lectura promedio a 20 000 bases y la mitad de todas las lecturas superan las 30 000 bases de longitud. El rendimiento por célula SMRT aumentó a 10 o 20 mil millones de bases, ya sea para bibliotecas de insertos grandes o bibliotecas de insertos más cortos (por ejemplo, amplicones ), respectivamente. [29]
El 19 de septiembre de 2018, la compañía anunció la química Sequel 6.0 con longitudes de lectura promedio aumentadas a 100.000 bases para bibliotecas de inserciones más cortas y 30.000 para bibliotecas de inserciones más largas. El rendimiento de las células SMRT aumentó hasta 50 mil millones de bases para bibliotecas de inserciones más cortas. [10]
En abril de 2019, la compañía lanzó una nueva celda SMRT con ocho millones de ZMW, [30] aumentando el rendimiento esperado por celda SMRT en un factor de ocho. [31] Los clientes de acceso temprano en marzo de 2019 informaron un rendimiento en 58 celdas ejecutadas por clientes de 250 GB de rendimiento bruto por celda con plantillas de aproximadamente 15 kb de longitud y 67,4 GB de rendimiento por celda con plantillas en moléculas de mayor peso. [32] El rendimiento del sistema ahora se informa en lecturas largas continuas de alto peso molecular o en lecturas de alta fidelidad precorregidas (también conocidas como secuencia de consenso circular (CCS)). Para lecturas de alto peso molecular, aproximadamente la mitad de todas las lecturas tienen más de 50 kb de longitud.
El rendimiento de alta fidelidad incluye bases corregidas con una calidad superior a la puntuación Phred Q20, utilizando pases repetidos de amplicones para la corrección. Estos toman amplicones de hasta 20 kb de longitud.
La secuenciación en tiempo real de una sola molécula puede ser aplicable a una amplia gama de investigaciones genómicas.
Para la secuenciación del genoma de novo , las longitudes de lectura de la secuenciación en tiempo real de una sola molécula son comparables o mayores que las del método de secuenciación de Sanger basado en la terminación de la cadena de didesoxinucleótidos . La longitud de lectura más larga permite la secuenciación del genoma de novo y ensamblajes del genoma más sencillos. [2] [33] [34] Los científicos también están utilizando la secuenciación en tiempo real de una sola molécula en ensamblajes híbridos para genomas de novo para combinar datos de secuencias de lectura corta con datos de secuencias de lectura larga. [35] [36] En 2012, se publicaron varias publicaciones revisadas por pares que demostraban el acabado automatizado de genomas bacterianos, [37] [38] incluido un artículo que actualizó Celera Assembler con una tubería para el acabado del genoma utilizando lecturas de secuenciación SMRT largas. [39] En 2013, los científicos estimaron que la secuenciación de lectura larga podría usarse para ensamblar y terminar completamente la mayoría de los genomas de bacterias y arqueas. [40]
La misma molécula de ADN se puede volver a secuenciar de forma independiente creando la plantilla de ADN circular y utilizando una enzima que desplaza la cadena y separa la cadena de ADN recién sintetizada de la plantilla. [41] En agosto de 2012, científicos del Broad Institute publicaron una evaluación de la secuenciación SMRT para la llamada de SNP. [42]
La dinámica de la polimerasa puede indicar si una base está metilada . [43] Los científicos demostraron el uso de la secuenciación en tiempo real de una sola molécula para detectar la metilación y otras modificaciones de bases. [44] [45] [46] En 2012, un equipo de científicos utilizó la secuenciación SMRT para generar los metilomas completos de seis bacterias. [47] En noviembre de 2012, los científicos publicaron un informe sobre la metilación de todo el genoma de una cepa epidémica de E. coli. [48]
Las lecturas largas permiten secuenciar isoformas genéticas completas, incluidos los extremos 5' y 3'. Este tipo de secuenciación es útil para capturar isoformas y variantes de empalme. [49] [50]
La secuenciación SMRT tiene varias aplicaciones en la investigación de genética médica reproductiva cuando se investigan familias con sospecha de mosaicismo gonadal parental. Las lecturas largas permiten la fase de haplotipos en pacientes para investigar el origen de las mutaciones. La secuenciación profunda permite la determinación de las frecuencias de alelos en los espermatozoides, lo que es relevante para la estimación del riesgo de recurrencia para futuros descendientes afectados. [51] [52]
{{cite web}}
: Mantenimiento CS1: copia archivada como título ( enlace )