stringtranslate.com

Secuenciación dúplex

Descripción general de la secuenciación dúplex: las bibliotecas con etiquetas dúplex que contienen adaptadores de secuenciación se amplifican y dan como resultado dos tipos de productos, cada uno de los cuales se origina a partir de una sola cadena de ADN. Después de secuenciar los productos de PCR, las lecturas generadas se dividen en familias de etiquetas según la posición genómica, las etiquetas dúplex y el adaptador de secuenciación vecino. La etiqueta de secuencia α es el complemento inverso de la etiqueta de secuencia β y viceversa.

La secuenciación dúplex es un método de preparación y análisis de bibliotecas para plataformas de secuenciación de próxima generación (NGS) que emplea el etiquetado aleatorio de ADN bicatenario para detectar mutaciones con mayor precisión y menores tasas de error.

Este método utiliza etiquetas moleculares degeneradas además de adaptadores de secuenciación para reconocer las lecturas que se originan en cada cadena de ADN. Como las dos cadenas son complementarias, las mutaciones verdaderas se encuentran en la misma posición en ambas cadenas. Por el contrario, los errores de PCR o de secuenciación dan como resultado mutaciones en una sola cadena y, por lo tanto, pueden descartarse como un error técnico. La secuenciación dúplex teóricamente puede detectar mutaciones con frecuencias tan bajas como 5 x 10 −8 , es decir, una precisión más de 10 000 veces mayor en comparación con los métodos de secuenciación de próxima generación convencionales. [1] [2]

La tasa de error estimada de las plataformas de secuenciación de próxima generación estándar es de 10 −2 a 10 −3 por llamada de base. Con esta tasa de error, miles de millones de llamadas de base que se producen por NGS darán como resultado millones de errores. Los errores se introducen durante la preparación de la muestra y la secuenciación, como errores de reacción en cadena de la polimerasa , secuenciación y análisis de imágenes. Si bien la tasa de error de las plataformas NGS es aceptable en algunas aplicaciones, como la detección de variantes clonales , es una limitación importante para las aplicaciones que requieren una mayor precisión para la detección de variantes de baja frecuencia, como la detección de mosaicismo intraorganismo , variantes subclonales en cánceres genéticamente heterogéneos o ADN tumoral circulante. [3] [4] [5]

Se han desarrollado varias estrategias de preparación de bibliotecas que aumentan la precisión de las plataformas NGS, como el código de barras molecular y el método de secuenciación de consenso circular. [6] [7] [8] [9] Al igual que las plataformas NGS, los datos generados por estos métodos se originan a partir de una sola cadena de ADN y, por lo tanto, los errores que se introducen durante la amplificación por PCR , el procesamiento de tejidos , la extracción de ADN , la captura de hibridación (cuando se utiliza) o la secuenciación de ADN en sí todavía se pueden distinguir como una variante verdadera. El método de secuenciación dúplex aborda este problema aprovechando la naturaleza complementaria de dos cadenas de ADN y confirmando solo las variantes que están presentes en ambas cadenas de ADN. Debido a que la probabilidad de que surjan dos errores complementarios en la misma ubicación en ambas cadenas es extremadamente baja, la secuenciación dúplex aumenta significativamente la precisión de la secuenciación. [1] [6] [8] [10]

Flujo de trabajo experimental

Los adaptadores etiquetados para secuenciación dúplex se pueden utilizar en combinación con la mayoría de los adaptadores NGS. En la sección de figuras y flujo de trabajo de este artículo, se utilizan los adaptadores de secuenciación Illumina como ejemplo siguiendo el protocolo publicado originalmente. [1] [2]

Preparación de la biblioteca de secuenciación dúplex: dos oligos adaptadores pasan por varios pasos (recocido, síntesis, dT-tailing) para generar etiquetas únicas de doble cadena con salientes 3'-dT. Luego, los adaptadores de etiqueta dúplex se ligan a las plantillas de ADN de doble cadena. Finalmente, los adaptadores de secuenciación Illumina se insertan en los fragmentos de ADN marcados y forman las bibliotecas finales que contienen adaptadores DS, adaptadores de secuenciación Illumina y ADN de plantilla.

Recocido del adaptador

Para este paso se utilizan dos oligonucleótidos (Figura 1: oligonucleótidos adaptadores). Uno de los oligonucleótidos contiene una secuencia de etiqueta aleatoria monocatenaria de 12 nucleótidos seguida de una secuencia de nucleótidos fija en 5' (secuencia negra en la Figura 1). En este paso, los oligonucleótidos se hibridan en una región complementaria mediante incubación en la condición temporal requerida. [1] [2]

Síntesis de adaptadores

Los adaptadores que se anillan con éxito se extienden y sintetizan mediante una ADN polimerasa para completar un adaptador bicatenario que contiene etiquetas complementarias (Figura 1). [1] [2]

Cola de 3'-dT

Los adaptadores bicatenarios extendidos son escindidos por HpyCH4III en un sitio de restricción específico ubicado en el lado 3' de la secuencia de etiqueta y darán como resultado un saliente 3'-dT que se ligará al saliente 3'-dA en las bibliotecas de ADN en el paso de ligadura del adaptador (Figura 1). [1] [2]

Preparación de la biblioteca

El ADN de doble cadena se corta utilizando uno de estos métodos: sonicación , digestión enzimática o nebulización. Los fragmentos se seleccionan por tamaño utilizando perlas Ampure XP. No se recomienda la selección por tamaño basada en gel , ya que puede provocar la fusión de las cadenas dobles de ADN y daños en el ADN debido a la exposición a los rayos UV . El tamaño de los fragmentos de ADN seleccionados se somete a una cola dA en el extremo 3'. [1] [2]

Ligadura del adaptador

En este paso, se ligan dos adaptadores marcados de colas 3'-dT a colas 3'-dA en ambos lados de fragmentos de la biblioteca de ADN de doble cadena. Este proceso da como resultado fragmentos de la biblioteca de doble cadena que contienen dos etiquetas aleatorias (α y β) en cada lado que son el complemento inverso entre sí (Figura 1 y 2). La relación "ADN:adaptador" es crucial para determinar el éxito de la ligadura. [1] [2]

Inserción de adaptadores de secuenciación en bibliotecas etiquetadas

En el último paso de la preparación de la biblioteca de secuenciación dúplex, los adaptadores de secuenciación Illumina se añaden a las bibliotecas de doble cadena etiquetadas mediante amplificación por PCR utilizando cebadores que contienen adaptadores de secuenciación. Durante la amplificación por PCR, ambas cadenas complementarias de ADN se amplifican y generan dos tipos de productos de PCR. El producto 1 deriva de las cadenas 1 que tienen una secuencia de etiqueta única (llamada α en la Figura 2) junto al adaptador 1 de Illumina y el producto 2 tiene una etiqueta única (llamada β en la Figura 2) junto al adaptador 1 de Illumina. (En cada cadena, la etiqueta α es el complemento inverso de la etiqueta β y viceversa). Las bibliotecas que contienen etiquetas dúplex y adaptadores Illumina se secuencian utilizando el sistema Illumina TruSeq. Las lecturas que se originan de cada cadena de ADN forman un grupo de lecturas (familias de etiquetas) que comparten la misma etiqueta. Las familias de lecturas detectadas se utilizarán en el siguiente paso para analizar los datos de secuenciación. [1] [2]

Consideraciones

Eficiencia de la ligadura del adaptador

La eficiencia de la ligación de adaptadores es muy importante para una secuenciación dúplex exitosa. Una cantidad adicional de bibliotecas o adaptadores puede afectar el equilibrio entre ADN y adaptador, lo que resulta en una ligación ineficiente y una cantidad excesiva de dímeros de cebadores, respectivamente. Por lo tanto, es importante mantener la concentración molar de ADN y adaptador en la proporción óptima (0,05). [2]

Tamaño de la familia de etiquetas

La eficiencia de la secuenciación dúplex depende del número final de DCS, que está directamente relacionado con el número de lecturas en cada familia (tamaño de la familia). Si el tamaño de la familia es demasiado pequeño, no se puede ensamblar el DCS y si hay demasiadas lecturas compartiendo la misma etiqueta, el rendimiento de los datos será bajo. El tamaño de la familia está determinado por la cantidad de plantilla de ADN necesaria para la amplificación por PCR y la fracción de carril de secuenciación dedicado. El tamaño óptimo de la familia de etiquetas es entre 6 y 12 miembros. Para obtener el tamaño óptimo de la familia, es necesario ajustar las cantidades de plantilla de ADN y la fracción de carril de secuenciación dedicado. La siguiente fórmula tiene en cuenta las variables más importantes que pueden afectar la profundidad de cobertura (N = 40DG ÷ R), donde "N" es el número de lecturas, "D" es la profundidad de cobertura deseada, "G" es el tamaño del objetivo de ADN en pares de bases y "R" es la longitud de lectura final.

Flujo de trabajo computacional

Filtrado y recorte

Cada lectura de secuenciación dúplex contiene una secuencia fija de 5 nucleótidos (mostrada en las figuras en negro) ubicada aguas arriba de la secuencia de etiqueta de 12 nucleótidos. Las lecturas se filtran si no tienen la secuencia esperada de 5 nucleótidos o tienen más de nueve bases idénticas o ambiguas dentro de cada etiqueta. Las dos etiquetas de 12 nucleótidos en cada extremo de las lecturas se combinan y se mueven al encabezado de lectura. Se forman dos familias de lecturas que se originan a partir de las dos hebras de ADN. Una familia contiene lecturas con encabezado αβ que se originan a partir de la hebra 1 y la segunda contiene lecturas con encabezado βα que se originan a partir de la hebra 2 (Figura 2). Luego, las lecturas se recortan eliminando la secuencia fija de 5 pares de bases y 4 nucleótidos propensos a errores ubicados en los sitios de ligadura y reparación de extremos. [1] [2] Las lecturas restantes se ensamblan en secuencias de consenso utilizando ensamblajes SSCS y DCS.

Conjunto SSCS

Las secuencias recortadas del paso anterior se alinean con el genoma de referencia utilizando un alineador Burrows-Wheeler (BWA) y las lecturas no mapeadas se eliminan. Las lecturas alineadas que tienen la misma secuencia de etiqueta de 24 pares de bases y región genómica se detectan y agrupan (familia αβ y βα en la Figura 2). Cada grupo representa una "familia de etiquetas". Las familias de etiquetas con menos de tres miembros no se analizan. Para eliminar los errores que surgen durante la amplificación o secuenciación por PCR, las mutaciones que son compatibles con menos del 70% de los miembros (lecturas) se filtran del análisis. Luego se genera una secuencia de consenso para cada familia utilizando las secuencias idénticas en cada posición de las lecturas restantes. La secuencia de consenso se llama SSCS. Aumenta la precisión de NGS a aproximadamente 20 veces más; sin embargo, este método se basa en la información de secuenciación de cadenas individuales de ADN y, por lo tanto, es sensible a los errores inducidos en la primera ronda o antes de la amplificación por PCR. [1] [2]

Conjunto DCS

Las lecturas del último paso se realinean con el genoma de referencia. En este método, se agruparán los pares de la familia SSCS que tienen etiquetas complementarias (familia αβ y βα en la Figura 2). Estas lecturas se originan a partir de dos cadenas complementarias de ADN. Las secuencias de alta confianza se seleccionan en función de las llamadas de bases perfectamente coincidentes de cada familia. La secuencia final se denomina DCS. Las mutaciones verdaderas son aquellas que coinciden perfectamente entre SSCS complementarios. Este paso filtra los errores restantes que surgen durante la primera ronda de amplificación por PCR o durante la preparación de la muestra. [1] [2]

Ventajas

Disminución de la tasa de error en la secuenciación

La alta tasa de error (0,01-0,001) de las plataformas NGS estándar introducidas durante la preparación o secuenciación de muestras es una limitación importante para la detección de variantes presentes en una pequeña fracción de células. Debido al sistema de etiquetado dúplex y al uso de información en ambas cadenas de ADN, la secuenciación dúplex ha reducido significativamente la tasa de error de secuenciación aproximadamente 10 millones de veces utilizando los métodos SSCS y DCS. [1] [2] [10]

Aumentar la precisión de la llamada de variantes

Es un desafío identificar variantes raras con precisión utilizando métodos NGS estándar con una tasa de mutación de (10 −2 a 10 −3 ). Los errores que ocurren temprano durante la preparación de la muestra pueden detectarse como variantes raras. Un ejemplo de tales errores es la transversión C>A/G>T , detectada en frecuencias bajas utilizando secuenciación profunda o datos de captura dirigida y que surge debido a la oxidación del ADN durante la preparación de la muestra. [11] Estos tipos de variantes falsas positivas se filtran mediante el método de secuenciación dúplex, ya que las mutaciones deben coincidir con precisión en ambas cadenas de ADN para ser validadas como mutaciones verdaderas. La secuenciación dúplex puede detectar teóricamente mutaciones con frecuencias tan bajas como 10 −8 en comparación con la tasa de 10 −2 de los métodos NGS estándar. [1] [2] [10]

Aplicable a la mayoría de plataformas NGS

Otra ventaja de la secuenciación dúplex es que se puede utilizar en combinación con la mayoría de las plataformas NGS sin realizar cambios significativos en los protocolos estándar.

Limitaciones

Costo

Debido a que la secuenciación dúplex proporciona una precisión de secuenciación significativamente mayor y utiliza información en ambas cadenas de ADN, este método necesita una profundidad de secuenciación mucho mayor y, por lo tanto, es un enfoque costoso. El gasto limita su aplicación a la secuenciación dirigida y de amplicones en la actualidad y no será aplicable a enfoques de secuenciación del genoma completo. Sin embargo, la aplicación de la secuenciación dúplex para objetivos de ADN más grandes será más factible cuando disminuya el costo de la NGS.

Aplicación práctica

La secuenciación dúplex es un método nuevo y su eficiencia se estudió en aplicaciones limitadas, como la detección de mutaciones puntuales mediante secuenciación de captura dirigida. [12] Es necesario realizar más estudios para ampliar la aplicación y la viabilidad de la secuenciación dúplex a muestras más complejas con mayor número de mutaciones, indeles y variaciones en el número de copias .

Aplicaciones

Detección de variantes con frecuencias bajas

La secuenciación dúplex y el aumento significativo de la precisión de la secuenciación han tenido un impacto importante en aplicaciones como la detección de variantes genéticas humanas raras, la detección de mutaciones subclonales involucradas en mecanismos de resistencia a la terapia en cánceres genéticamente heterogéneos, la detección de variantes en el ADN tumoral circulante como un biomarcador no invasivo y la detección prenatal de anomalías genéticas en un feto.

Detección del número de copias

Otra aplicación de la secuenciación dúplex es la detección de la cantidad de copias de ADN/ARN mediante la estimación de la frecuencia relativa de las variantes. Un ejemplo es un método para contar moléculas de plantilla de PCR con aplicación en la secuenciación de próxima generación. [1]

Análisis y software

Puede encontrar en línea una lista de herramientas y paquetes necesarios para el análisis SSCS y DCS.

Véase también

Referencias

  1. ^ abcdefghijklmno MW Schmitt, SR Kennedy, JJ Salk, et al. “Detección de mutaciones ultra raras mediante secuenciación de próxima generación”. Proc. Natl. Sci., vol. 109 núm. 36. 2012. PMID  22853953.
  2. ^ abcdefghijklmn SR Kennedy, MW Schmitt, EJ Fox, BF Kohrn, et al. “Detección de mutaciones de frecuencia ultrabaja mediante secuenciación dúplex”. Nature Protoc., vol. 9 núm. 11, 2586-606. 2014. PMID  25299156.
  3. ^ TE Druley, FLM Vallania, DJ Wegner, et al. “Cuantificación de variantes alélicas raras a partir de ADN genómico agrupado” Nature Methods, vol. 6, núm. 4, págs. 263–265, 2009. PMID  19252504.
  4. ^ N. McGranahan y C. Swanton. “Impacto biológico y terapéutico de la heterogeneidad intratumoral en la evolución del cáncer”, Cancer Cell, vol. 27, n.º 1, págs. 15-26, 2015. PMID  25584892.
  5. ^ C Bettegowda, M Sausen, RJ Leary, et al. “Detección de ADN tumoral circulante en neoplasias malignas humanas en etapa temprana y tardía”. Sci Transl Med, vol. 6, n.º 224, pág. 224ra24, 2014. PMID  24553385.
  6. ^ ab BE Miner, RJ Stöger, AF Burden, et al. “Los códigos de barras moleculares detectan redundancia y contaminación en PCR con bisulfito de horquilla” [ enlace muerto ] . Nucleic Acids Res, vol. 32, núm. 17, pág. e135, 2004. PMID  15459281.
  7. ^ ML McCloskey, R. Stoger, RS Hansen, et al. “Codificación de productos de PCR con sellos de lote y códigos de barras”, Biochem. Genet., vol. 45, núm. 11–12, págs. 761–767, 2007. PMID  17955361.
  8. ^ ab DI Lou, JA Hussmann, RM Mcbee, et al. “Los errores de secuenciación de ADN de alto rendimiento se reducen en órdenes de magnitud utilizando la secuenciación circular”. Proc Natl Acad Sci USA, vol. 110 núm. 49, 19872–19877, 2013. PMID  24243955.
  9. ^ AY Maslov, W. Quispe-Tintaya, T. Gorbacheva, RR White y J. Vijg, “Secuenciación de alto rendimiento en la detección de mutaciones: ¿una nueva generación de pruebas de genotoxicidad?”, Mutat. Res., vol. 776, págs. 136–43, 2015. PMID  25934519.
  10. ^ abc EJ Fox, KS Reid-Bayliss, MJ Emond, et al. “Precisión de las plataformas de secuenciación de próxima generación”. Next Gener Seq Appl., págs. 1–9, 2015. PMID  25699289.
  11. ^ M. Costello, TJ Pugh, TJ Fennell, et al. “Descubrimiento y caracterización de mutaciones artificiales en datos de secuenciación de captura dirigida de cobertura profunda debido al daño oxidativo del ADN durante la preparación de la muestra”. Nucleic Acids Res., vol. 41, núm. 6, págs. 1–12, 2013. PMID  23303777.
  12. ^ MW Schmitt, EJ Fox, MJ Prindle, et al. “Secuenciación de dianas genómicas pequeñas con alta eficiencia y precisión extrema”. Nat Methods, vol. 12, núm. 5, págs. 423–425, 2015. PMID  2584963.