La secuenciación de una sola molécula en tiempo real ( SMRT ) es un método de secuenciación de ADN de una sola molécula en paralelo . La secuenciación de una sola molécula en tiempo real utiliza una guía de ondas de modo cero (ZMW). [1] Una sola enzima ADN polimerasa se fija en la parte inferior de una ZMW con una sola molécula de ADN como plantilla. La ZMW es una estructura que crea un volumen de observación iluminado que es lo suficientemente pequeño como para observar solo un único nucleótido de ADN incorporado por la ADN polimerasa . Cada una de las cuatro bases de ADN está unida a uno de cuatro tintes fluorescentes diferentes. Cuando la ADN polimerasa incorpora un nucleótido, la etiqueta fluorescente se escinde y se difunde fuera del área de observación de la ZMW donde su fluorescencia ya no es observable. Un detector detecta la señal fluorescente de la incorporación del nucleótido y la llamada de base se realiza de acuerdo con la fluorescencia correspondiente del tinte. [2]
La secuenciación del ADN se realiza en un chip que contiene muchos ZMW. Dentro de cada ZMW, una única ADN polimerasa activa con una única molécula de ADN monocatenario molde está inmovilizada en el fondo a través de la cual la luz puede penetrar y crear una cámara de visualización que permite monitorear la actividad de la ADN polimerasa a nivel de una sola molécula. La señal de un nucleótido fosfoligado incorporado por la ADN polimerasa se detecta a medida que avanza la síntesis de ADN, lo que da como resultado la secuenciación del ADN en tiempo real.
Para preparar la biblioteca, los fragmentos de ADN se colocan en forma circular utilizando ligaduras de adaptador de horquilla. [3]
Para cada una de las bases de nucleótidos, existe una molécula de colorante fluorescente correspondiente que permite al detector identificar la base que está siendo incorporada por la ADN polimerasa mientras realiza la síntesis de ADN . La molécula de colorante fluorescente está unida a la cadena de fosfato del nucleótido. Cuando la ADN polimerasa incorpora el nucleótido, el colorante fluorescente se escinde con la cadena de fosfato como parte de un proceso natural de síntesis de ADN durante el cual se crea un enlace fosfodiéster para alargar la cadena de ADN. La molécula de colorante fluorescente escindida luego se difunde fuera del volumen de detección de modo que la señal fluorescente ya no se detecta. [4]
La guía de ondas de modo cero (ZMW) es una estructura de confinamiento nanofotónico que consiste en un orificio circular en una película de revestimiento de aluminio depositada sobre un sustrato de sílice transparente. [5]
Los agujeros ZMW tienen un diámetro de ~70 nm y una profundidad de ~100 nm. Debido al comportamiento de la luz cuando viaja a través de una pequeña abertura, el campo óptico decae exponencialmente dentro de la cámara. [6] [7]
El volumen de observación dentro de un ZMW iluminado es de ~20 zeptolitros (20 X 10 −21 litros). Dentro de este volumen, la actividad de la ADN polimerasa que incorpora un solo nucleótido se puede detectar fácilmente. [4] [8]
El rendimiento de la secuenciación se puede medir en longitud de lectura, precisión y rendimiento total por experimento. Los sistemas de secuenciación PacBio que utilizan ZMW tienen la ventaja de longitudes de lectura largas, aunque las tasas de error son del orden del 5-15% y el rendimiento de la muestra es menor que las plataformas de secuenciación Illumina . [9]
El 19 de septiembre de 2018, Pacific Biosciences [PacBio] lanzó la química Sequel 6.0, sincronizando la versión de química con la versión de software. Se contrasta el rendimiento de las bibliotecas de insertos grandes con ADN de alto peso molecular frente a las bibliotecas de insertos más cortos de menos de ~15 000 bases de longitud. Para las plantillas más grandes, las longitudes de lectura promedio son de hasta 30 000 bases. Para las bibliotecas de insertos más cortos, la longitud de lectura promedio es de hasta 100 000 bases mientras se lee la misma molécula en un círculo varias veces. Las últimas bibliotecas de insertos más cortos producen hasta 50 mil millones de bases a partir de una sola célula SMRT. [10]
Pacific Biosciences (PacBio) comercializó la secuenciación SMRT en 2011, [11] después de lanzar una versión beta de su instrumento RS a fines de 2010. [12]
En el momento de la comercialización, la longitud de lectura tenía una distribución normal con una media de aproximadamente 1100 bases. Un nuevo kit de química lanzado a principios de 2012 aumentó la longitud de lectura del secuenciador; un cliente temprano del kit de química citó longitudes de lectura medias de 2500 a 2900 bases. [13]
El kit de química XL lanzado a finales de 2012 aumentó la longitud de lectura promedio a más de 4300 bases. [14] [15]
El 21 de agosto de 2013, PacBio lanzó un nuevo kit de unión de la polimerasa de ADN P4. Esta enzima P4 tiene longitudes de lectura promedio de más de 4300 bases cuando se combina con la química de secuenciación C2 y más de 5000 bases cuando se combina con la química XL. [16] La precisión de la enzima es similar a la de C2, alcanzando una cobertura de QV50 entre 30X y 40X. Los atributos P4 resultantes proporcionaron ensamblajes de mayor calidad utilizando menos células SMRT y con una mejor identificación de variantes. [16] Cuando se combina con la selección del tamaño del ADN de entrada (utilizando un instrumento de electroforesis como BluePippin), produce una longitud de lectura promedio de más de 7 kilobases. [17]
El 3 de octubre de 2013, PacBio lanzó una nueva combinación de reactivos para PacBio RS II, la ADN polimerasa P5 con química C3 (P5-C3). Juntos, extienden las longitudes de lectura de secuenciación a un promedio de aproximadamente 8500 bases, y las lecturas más largas superan las 30 000 bases. [18] El rendimiento por célula SMRT es de alrededor de 500 millones de bases, como lo demuestran los resultados de secuenciación de la línea celular CHM1. [19]
El 15 de octubre de 2014, PacBio anunció el lanzamiento de la nueva química P6-C4 para el sistema RS II, que representa la sexta generación de polimerasa y la cuarta generación de química de la compañía, ampliando aún más la longitud de lectura promedio a 10 000 - 15 000 bases, con lecturas más largas que superan las 40 000 bases. El rendimiento con la nueva química se estimó entre 500 millones y 1000 millones de bases por célula SMRT, dependiendo de la muestra que se secuencia. [20] [21] Esta fue la versión final de la química lanzada para el instrumento RS.
El rendimiento por experimento de la tecnología está influenciado tanto por la longitud de lectura de las moléculas de ADN secuenciadas como por el multiplexado total de una célula SMRT. El prototipo de la célula SMRT contenía alrededor de 3000 agujeros ZMW que permitían la secuenciación de ADN en paralelo. En la comercialización, cada una de las células SMRT tenía un patrón de 150 000 agujeros ZMW que se leían en dos conjuntos de 75 000. [22] En abril de 2013, la empresa lanzó una nueva versión del secuenciador llamada "PacBio RS II" que utiliza los 150 000 agujeros ZMW simultáneamente, duplicando el rendimiento por experimento. [23] [24] El modo de mayor rendimiento en noviembre de 2013 utilizó la unión de P5, la química C3, la selección del tamaño de BluePippin y un PacBio RS II produjo oficialmente 350 millones de bases por célula SMRT a través de un conjunto de datos humanos de novo publicado con una química que promediaba 500 millones de bases por célula SMRT. El rendimiento varía según el tipo de muestra que se secuencia. [25] Con la introducción de la química P6-C4, el rendimiento típico por célula SMRT aumentó de 500 millones de bases a 1 mil millones de bases.
En septiembre de 2015, la empresa anunció el lanzamiento de un nuevo instrumento de secuenciación, el Sistema Sequel, que aumentó la capacidad a 1 millón de agujeros ZMW. [26] [27]
Con el instrumento Sequel, las longitudes de lectura iniciales fueron comparables a las del RS, pero versiones posteriores de productos químicos aumentaron la longitud de lectura.
El 23 de enero de 2017 se publicó la versión 2 de la química, que aumentó la longitud de lectura promedio a entre 10 000 y 18 000 bases. [28]
El 8 de marzo de 2018, se lanzó la versión 2.1 de la química. Esta versión aumentó la longitud de lectura promedio a 20 000 bases y la mitad de todas las lecturas con una longitud superior a 30 000 bases. El rendimiento por célula SMRT aumentó a 10 o 20 mil millones de bases, ya sea para bibliotecas de insertos grandes o bibliotecas de insertos más cortos (por ejemplo, amplicones ), respectivamente. [29]
El 19 de septiembre de 2018, la empresa anunció la química Sequel 6.0 con longitudes de lectura promedio aumentadas a 100 000 bases para bibliotecas de insertos más cortos y 30 000 para bibliotecas de insertos más largos. El rendimiento de SMRT Cell aumentó hasta 50 mil millones de bases para bibliotecas de insertos más cortos. [10]
En abril de 2019, la empresa lanzó una nueva SMRT Cell con ocho millones de ZMW, [30] aumentando el rendimiento esperado por SMRT Cell en un factor de ocho. [31] Los clientes de acceso temprano en marzo de 2019 informaron un rendimiento en 58 celdas ejecutadas por el cliente de 250 GB de rendimiento bruto por celda con plantillas de aproximadamente 15 kb de longitud y 67,4 GB de rendimiento por celda con plantillas en moléculas de mayor peso. [32] El rendimiento del sistema ahora se informa en lecturas largas continuas de alto peso molecular o en lecturas HiFi precorregidas (también conocidas como secuencia de consenso circular (CCS)). Para las lecturas de alto peso molecular, aproximadamente la mitad de todas las lecturas tienen una longitud superior a 50 kb.
El rendimiento de alta fidelidad incluye bases corregidas con una calidad superior a la puntuación Phred Q20, utilizando pases repetidos de amplicones para la corrección. Estos admiten amplicones de hasta 20 kb de longitud.
La secuenciación de moléculas individuales en tiempo real puede ser aplicable a una amplia gama de investigaciones genómicas.
Para la secuenciación de genomas de novo , las longitudes de lectura de la secuenciación en tiempo real de una sola molécula son comparables o mayores que las del método de secuenciación de Sanger basado en la terminación de la cadena de didesoxinucleótidos . La mayor longitud de lectura permite la secuenciación de genomas de novo y ensamblajes de genomas más fáciles. [2] [33] [34] Los científicos también están utilizando la secuenciación en tiempo real de una sola molécula en ensamblajes híbridos para genomas de novo para combinar datos de secuencias de lectura corta con datos de secuencias de lectura larga. [35] [36] En 2012, se publicaron varias publicaciones revisadas por pares que demostraban el acabado automatizado de genomas bacterianos, [37] [38] incluido un artículo que actualizaba el ensamblador Celera con una tubería para el acabado de genomas utilizando lecturas de secuenciación SMRT largas. [39] En 2013, los científicos estimaron que la secuenciación de lectura larga podría usarse para ensamblar y terminar completamente la mayoría de los genomas bacterianos y arqueológicos. [40]
La misma molécula de ADN se puede volver a secuenciar de forma independiente creando la plantilla de ADN circular y utilizando una enzima que desplaza la cadena y separa la cadena de ADN recién sintetizada de la plantilla. [41] En agosto de 2012, los científicos del Instituto Broad publicaron una evaluación de la secuenciación SMRT para la identificación de SNP. [42]
La dinámica de la polimerasa puede indicar si una base está metilada . [43] Los científicos demostraron el uso de la secuenciación en tiempo real de una sola molécula para detectar la metilación y otras modificaciones de bases. [44] [45] [46] En 2012, un equipo de científicos utilizó la secuenciación SMRT para generar los metilomas completos de seis bacterias. [47] En noviembre de 2012, los científicos publicaron un informe sobre la metilación de todo el genoma de una cepa de brote de E. coli. [48]
Las lecturas largas permiten secuenciar isoformas completas de genes, incluidos los extremos 5' y 3'. Este tipo de secuenciación es útil para capturar isoformas y variantes de empalme. [49] [50]
La secuenciación SMRT tiene varias aplicaciones en la investigación de genética médica reproductiva cuando se investigan familias con sospecha de mosaicismo gonadal parental. Las lecturas largas permiten la determinación de fases de haplotipos en pacientes para investigar el origen parental de las mutaciones. La secuenciación profunda permite la determinación de frecuencias alélicas en células espermáticas, lo que es relevante para la estimación del riesgo de recurrencia en futuros hijos afectados. [51] [52]
{{cite web}}
: CS1 maint: copia archivada como título ( enlace )