Secuenciación dúplex

La secuenciación dúplex es un método de análisis y preparación de bibliotecas para plataformas de secuenciación de próxima generación (NGS) que emplea etiquetado aleatorio de ADN bicatenario para detectar mutaciones con mayor precisión y menores tasas de error.

Este método utiliza etiquetas moleculares degeneradas además de adaptadores de secuenciación para reconocer lecturas que se originan en cada hebra de ADN. Las lecturas de secuenciación generadas luego se analizarán utilizando dos métodos: secuencias consenso monocatenarias (SSCS) y ensamblaje de secuencias consenso dúplex (DCS). En teoría, la secuenciación dúplex puede detectar mutaciones con frecuencias tan bajas como 5 x 10 ⁻⁸ , lo que supone una precisión más de 10.000 veces mayor en comparación con los métodos de secuenciación convencionales de próxima generación. ^[1]^[2]

La tasa de error estimada de las plataformas de secuenciación estándar de próxima generación es de 10 ⁻² a 10 ⁻³ por llamada base. Con esta tasa de error, miles de millones de llamadas base producidas por NGS resultarán en millones de errores. Los errores se introducen durante la preparación y secuenciación de la muestra, como errores de reacción en cadena de la polimerasa , secuenciación y análisis de imágenes. Si bien la tasa de error de las plataformas NGS es aceptable en algunas aplicaciones, como la detección de variantes clonales , es una limitación importante para aplicaciones que requieren una mayor precisión para la detección de variantes de baja frecuencia, como la detección de mosaicismo intraorganismo , variantes subclonales en genética. cánceres heterogéneos o ADN tumoral circulante. ^[3]^[4]^[5]

Se han desarrollado varias estrategias de preparación de bibliotecas que aumentan la precisión de las plataformas NGS, como los códigos de barras moleculares y el método de secuenciación circular por consenso. ^[6]^[7]^[8]^[9] Al igual que las plataformas NGS, los datos generados por estos métodos se originan a partir de una sola hebra de ADN y, por lo tanto, los errores que se introducen durante la amplificación por PCR , el procesamiento de tejidos , la extracción de ADN y la captura por hibridación ( donde se usa) o la secuenciación del ADN en sí aún pueden distinguirse como una variante verdadera. El método de secuenciación dúplex aborda este problema aprovechando la naturaleza complementaria de dos cadenas de ADN y confirmando sólo las variantes que están presentes en ambas cadenas de ADN. Debido a que la probabilidad de que surjan dos errores complementarios en la misma ubicación en ambas hebras es extremadamente baja, la secuenciación dúplex aumenta significativamente la precisión de la secuenciación. ^[1]^[6]^[8]^[10]

Flujo de trabajo experimental

Los adaptadores etiquetados de secuenciación dúplex se pueden utilizar en combinación con la mayoría de los adaptadores NGS. En la sección de figuras y flujo de trabajo de este artículo, los adaptadores de secuenciación de Illumina se utilizan como ejemplo siguiendo el protocolo original publicado. ^[1]^[2]

Recocido del adaptador

Se utilizan dos oligonucleótidos para este paso (Figura 1: Oligos adaptadores). Uno de los oligonucleótidos contiene una secuencia de etiqueta aleatoria monocatenaria de 12 nucleótidos seguida de una secuencia de nucleótidos 5' fija (secuencia negra en la Figura 1). En este paso, los oligonucleótidos se hibridan en una región complementaria mediante incubación en las condiciones temporales requeridas. ^[1]^[2]

Síntesis del adaptador

Los adaptadores que se hibridaron exitosamente se extienden y sintetizan mediante una ADN polimerasa para completar un adaptador bicatenario que contiene etiquetas complementarias (Figura 1). ^[1]^[2]

3'-dT-cola

Los adaptadores bicatenarios extendidos son escindidos por HpyCH4III en un sitio de restricción específico ubicado en el lado 3' de la secuencia de etiqueta y dará como resultado un saliente 3'-dT que se ligará al saliente 3'-dA en las bibliotecas de ADN en el paso de ligadura del adaptador (Figura 1). ^[1]^[2]

Preparación de la biblioteca

El ADN de doble cadena se corta mediante uno de estos métodos: sonicación , digestión enzimática o nebulización. Los fragmentos se seleccionan por tamaño utilizando perlas Ampure XP. No se recomienda la selección del tamaño a base de gel , ya que puede provocar la fusión de las dobles hebras del ADN y daños en el ADN debido a la exposición a los rayos UV . El tamaño de fragmentos seleccionados de ADN se somete a la cola dA del extremo 3'. ^[1]^[2]

Ligadura del adaptador

En este paso, se ligan dos adaptadores etiquetados desde colas 3'-dT a colas 3'-dA en ambos lados de fragmentos de biblioteca de ADN bicatenario. Este proceso da como resultado fragmentos de biblioteca de doble cadena que contienen dos etiquetas aleatorias (α y β) en cada lado que son el complemento inverso entre sí (Figuras 1 y 2). La relación "ADN:adaptador" es crucial para determinar el éxito de la ligadura. ^[1]^[2]

Inserción de adaptadores de secuenciación en bibliotecas etiquetadas.

En el último paso de la preparación de la biblioteca de secuenciación dúplex, se añaden adaptadores de secuenciación de Illumina a las bibliotecas bicatenarias marcadas mediante amplificación por PCR utilizando cebadores que contienen adaptadores de secuenciación. Durante la amplificación por PCR, ambas cadenas complementarias de ADN se amplifican y generan dos tipos de productos de PCR. El producto 1 deriva de las cadenas 1 que tienen una secuencia de etiquetas única (llamada α en la Figura 2) junto al adaptador 1 de Illumina y el producto 2 tiene una etiqueta única (llamada β en la Figura 2) junto al adaptador 1 de Illumina. (En cada cadena , la etiqueta α es el complemento inverso de la etiqueta β y viceversa). Las bibliotecas que contienen etiquetas dúplex y adaptadores de Illumina se secuencian mediante el sistema Illumina TruSeq. Las lecturas que se originan en cada hebra de ADN forman un grupo de lecturas (familias de etiquetas) que comparten la misma etiqueta. Las familias de lecturas detectadas se utilizarán en el siguiente paso para analizar los datos de secuenciación. ^[1]^[2]

Consideraciones

Eficiencia de la ligadura del adaptador.

La eficiencia de la ligadura del adaptador es muy importante para una secuenciación dúplex exitosa. Una cantidad adicional de bibliotecas o adaptadores puede afectar el equilibrio entre el ADN y el adaptador, lo que resulta en una ligadura ineficiente y una cantidad excesiva de dímeros de cebador, respectivamente. Por lo tanto, es importante mantener la concentración molar de ADN al adaptador en la proporción óptima (0,05). ^[2]

Tamaño de la familia de etiquetas

La eficiencia de la secuenciación dúplex depende del número final de DCS que está directamente relacionado con el número de lecturas en cada familia (tamaño de familia). Si el tamaño de la familia es demasiado pequeño, entonces el DCS no se puede ensamblar y si demasiadas lecturas comparten la misma etiqueta, el rendimiento de datos será bajo. El tamaño de la familia está determinado por la cantidad de plantilla de ADN necesaria para la amplificación por PCR y la fracción del carril de secuenciación dedicado. El tamaño óptimo de una familia de etiquetas es de entre 6 y 12 miembros. Para obtener el tamaño de familia óptimo, es necesario ajustar las cantidades de plantilla de ADN y la fracción del carril de secuenciación dedicado. La siguiente fórmula tiene en cuenta las variables más importantes que pueden afectar la profundidad de cobertura (N=40DG÷R) donde "N" es el número de lecturas, "D" es la profundidad de cobertura deseada, "G" es el tamaño de Objetivo de ADN en par de bases y "R" es la longitud de lectura final.

Flujo de trabajo computacional

Filtrar y recortar

Cada lectura de secuenciación dúplex contiene una secuencia fija de 5 nucleótidos (que se muestra en las figuras en negro) ubicada aguas arriba de la secuencia de la etiqueta de 12 nucleótidos. Las lecturas se filtran si no tienen la secuencia esperada de 5 nucleótidos o si tienen más de nueve bases idénticas o ambiguas dentro de cada etiqueta. Las dos etiquetas de 12 nucleótidos en cada extremo de las lecturas se combinan y se mueven al encabezado de lectura. Se forman dos familias de lecturas que se originan a partir de las dos hebras de ADN. Una familia contiene lecturas con encabezado αβ que se originan en la cadena 1 y la segunda contiene lecturas con encabezado βα que se originan en la cadena 2 (Figura 2). Luego, las lecturas se recortan eliminando la secuencia fija de 5 pares de bases y 4 nucleótidos propensos a errores ubicados en los sitios de ligadura y reparación final. ^[1]^[2] Las lecturas restantes se ensamblan en secuencias de consenso utilizando ensamblajes SSCS y DCS.

Asamblea SSCS

Las secuencias recortadas del paso anterior se alinean con el genoma de referencia utilizando un alineador Burrows-Wheeler (BWA) y las lecturas no asignadas se eliminan. Las lecturas alineadas que tienen la misma secuencia de etiqueta de 24 pares de bases y región genómica se detectan y agrupan (familia αβ y βα en la Figura 2). Cada grupo representa una "familia de etiquetas". No se analizan las familias de etiquetas con menos de tres miembros. Para eliminar los errores que surgen durante la amplificación o secuenciación por PCR, las mutaciones que son compatibles con menos del 70 % de los miembros (lecturas) se filtran del análisis. Luego se genera una secuencia consenso para cada familia utilizando secuencias idénticas en cada posición de las lecturas restantes. La secuencia consenso se llama SSCS. Aumenta la precisión de NGS hasta aproximadamente 20 veces más; sin embargo, este método se basa en la información de secuenciación de hebras individuales de ADN y, por lo tanto, es sensible a los errores inducidos en la primera ronda o antes de la amplificación por PCR. ^[1]^[2]

Montaje del DCS

Las lecturas del último paso se realinean con el genoma de referencia. En este método, se agruparán pares de familias SSCS que tengan etiquetas complementarias (familia αβ y βα en la Figura 2). Estas lecturas se originan a partir de dos hebras complementarias de ADN. Las secuencias de alta confianza se seleccionan en función de las llamadas de bases perfectamente coincidentes de cada familia. La secuencia final se llama DCS. Las verdaderas mutaciones son aquellas que coinciden perfectamente entre SSCS complementarios. Este paso filtra los errores restantes surgidos durante la primera ronda de amplificación por PCR o durante la preparación de la muestra. ^[1]^[2]

Ventajas

Disminución de la tasa de error de secuenciación

La alta tasa de error (0,01-0,001) de las plataformas NGS estándar introducidas durante la preparación o secuenciación de muestras es una limitación importante para la detección de variantes presentes en una pequeña fracción de células. Debido al sistema de etiquetado dúplex y al uso de información en ambas cadenas de ADN, la secuenciación dúplex ha disminuido significativamente la tasa de error de la secuenciación en aproximadamente 10 millones de veces utilizando el método SSCS y DCS. ^[1]^[2]^[10]

Aumento de la precisión de las llamadas variantes

Es un desafío identificar variantes raras con precisión utilizando métodos NGS estándar con una tasa de mutación de (10 ⁻² a 10 ⁻³ ). Los errores que ocurren temprano durante la preparación de la muestra pueden detectarse como variantes raras. Un ejemplo de tales errores es la transversión C>A/G>T , detectada en bajas frecuencias mediante secuenciación profunda o datos de captura dirigida y que surge debido a la oxidación del ADN durante la preparación de la muestra. ^[11] Estos tipos de variantes falsamente positivas se filtran mediante el método de secuenciación dúplex, ya que las mutaciones deben coincidir con precisión en ambas hebras de ADN para validarse como mutaciones verdaderas. En teoría, la secuenciación dúplex puede detectar mutaciones con frecuencias tan bajas como 10 ⁻⁸ en comparación con la tasa de 10 ⁻² de los métodos NGS estándar. ^[1]^[2]^[10]

Aplicable a la mayoría de las plataformas NGS

Otra ventaja de la secuenciación dúplex es que se puede utilizar en combinación con la mayoría de las plataformas NGS sin realizar cambios significativos en los protocolos estándar.

Limitaciones

Costo

Debido a que la secuenciación dúplex proporciona una precisión de secuenciación significativamente mayor y utiliza información en ambas hebras de ADN, este método necesita una profundidad de secuenciación mucho mayor y, por lo tanto, es un enfoque costoso. El gasto limita su aplicación a la secuenciación dirigida y de amplicones en la actualidad y no será aplicable a enfoques de secuenciación del genoma completo. Sin embargo, la aplicación de la secuenciación dúplex para objetivos de ADN más grandes será más factible cuando disminuya el costo de NGS.

Aplicación práctica

La secuenciación dúplex es un método nuevo y su eficacia se estudió en aplicaciones limitadas, como la detección de mutaciones puntuales mediante secuenciación de captura dirigida. ^[12] Es necesario realizar más estudios para ampliar la aplicación y la viabilidad de la secuenciación dúplex a muestras más complejas con mayor número de mutaciones, indeles y variaciones en el número de copias .

Aplicaciones

Detección de variantes con bajas frecuencias

La secuenciación dúplex y el aumento significativo de la precisión de la secuenciación han tenido un impacto importante en aplicaciones como la detección de variantes genéticas humanas raras, la detección de mutaciones subclonales implicadas en mecanismos de resistencia a la terapia en cánceres genéticamente heterogéneos, la detección de variantes en el ADN tumoral circulante como -biomarcador invasivo y detección prenatal de anomalías genéticas en un feto.

Detección de número de copia

Otra aplicación de la secuenciación dúplex es la detección de números de copias de ADN/ARN mediante la estimación de la frecuencia relativa de variantes. Un ejemplo es un método para contar moléculas plantilla de PCR con aplicación a la secuenciación de próxima generación. ^[1]

Análisis y software

Puede encontrar en línea una lista de herramientas y paquetes necesarios para el análisis SSCS y DCS.

Ver también

Referencias

^ abcdefghijklmno MW Schmitt, SR Kennedy, JJ Salk y otros. "Detección de mutaciones ultrararas mediante secuenciación de próxima generación". Proc. Nacional. Acad. Ciencia, vol. 109 núm. 36. 2012. PMID 22853953.
^ abcdefghijklmn SR Kennedy, MW Schmitt, EJ Fox, BF Kohrn y otros. "Detección de mutaciones de frecuencia ultrabaja mediante secuenciación dúplex". Protocolo de la naturaleza, vol. 9 núm. 11, 2586-606. 2014. PMID 25299156.
^ TE Druley, FLM Vallania, DJ Wegner y col. “Cuantificación de variantes alélicas raras a partir de ADN genómico combinado” Nature Methods, vol. 6, núm. 4, págs. 263–265, 2009. PMID 19252504.
^ N. McGranahan y C. Swanton. “Impacto biológico y terapéutico de la heterogeneidad intratumoral en la evolución del cáncer” Cancer Cell, vol. 27, núm. 1, págs. 15 a 26, 2015. PMID 25584892.
^ C Bettegowda, M Sausen, RJ Leary y col. "Detección de ADN tumoral circulante en neoplasias malignas humanas en etapa temprana y tardía". Sci Transl Med, vol. 6, núm. 224, pág. 224ra24, 2014. PMID 24553385.
^ ab BE Miner, RJ Stöger, AF Burden y col. “Los códigos de barras moleculares detectan redundancia y contaminación en PCR con bisulfito en horquilla” ^{[ enlace muerto ]} . Ácidos nucleicos Res, vol. 32, núm. 17, pág. e135, 2004.PMID 15459281 .
^ ML McCloskey, R. Stoger, RS Hansen y otros. “Codificación de productos de PCR con sellos de lotes y códigos de barras”, Biochem. Genet., vol. 45, núm. 11–12, págs. 761–767, 2007. PMID 17955361.
^ ab DI Lou, JA Hussmann, RM Mcbee y col. "Los errores de secuenciación de ADN de alto rendimiento se reducen en órdenes de magnitud mediante la secuenciación circular". Proc Natl Acad Sci EE.UU., vol. 110 núm. 49, 19872–19877, 2013. PMID 24243955.
^ AY Maslov, W. Quispe-Tintaya, T. Gorbacheva, RR White y J. Vijg, “Secuenciación de alto rendimiento en la detección de mutaciones: ¿una nueva generación de pruebas de genotoxicidad?”, Mutat. Res., vol. 776, págs. 136–43, 2015. PMID 25934519.
^ a b C EJ Fox, KS Reid-Bayliss, MJ Emond y col. "Precisión de las plataformas de secuenciación de próxima generación". Aplicación Next Gener Seq., págs. 1 a 9, 2015. PMID 25699289.
^ M. Costello, TJ Pugh, TJ Fennell y col. "Descubrimiento y caracterización de mutaciones artefactos en datos de secuenciación de captura dirigida de cobertura profunda debido al daño oxidativo del ADN durante la preparación de la muestra". Ácidos nucleicos Res., vol. 41, núm. 6, págs. 1 a 12, 2013. PMID 23303777.
^ MW Schmitt, EJ Fox, MJ Prindle y otros. “Secuenciación de pequeños objetivos genómicos con alta eficiencia y extrema precisión”. Métodos Nat, vol. 12, núm. 5, págs. 423–425, 2015. PMID 2584963.