La secuenciación dúplex es un método de análisis y preparación de bibliotecas para plataformas de secuenciación de próxima generación (NGS) que emplea etiquetado aleatorio de ADN bicatenario para detectar mutaciones con mayor precisión y menores tasas de error.
Este método utiliza etiquetas moleculares degeneradas además de adaptadores de secuenciación para reconocer lecturas que se originan en cada hebra de ADN. Las lecturas de secuenciación generadas luego se analizarán utilizando dos métodos: secuencias consenso monocatenarias (SSCS) y ensamblaje de secuencias consenso dúplex (DCS). En teoría, la secuenciación dúplex puede detectar mutaciones con frecuencias tan bajas como 5 x 10 −8 , lo que supone una precisión más de 10.000 veces mayor en comparación con los métodos de secuenciación convencionales de próxima generación. [1] [2]
La tasa de error estimada de las plataformas de secuenciación estándar de próxima generación es de 10 −2 a 10 −3 por llamada base. Con esta tasa de error, miles de millones de llamadas base producidas por NGS resultarán en millones de errores. Los errores se introducen durante la preparación y secuenciación de la muestra, como errores de reacción en cadena de la polimerasa , secuenciación y análisis de imágenes. Si bien la tasa de error de las plataformas NGS es aceptable en algunas aplicaciones, como la detección de variantes clonales , es una limitación importante para aplicaciones que requieren una mayor precisión para la detección de variantes de baja frecuencia, como la detección de mosaicismo intraorganismo , variantes subclonales en genética. cánceres heterogéneos o ADN tumoral circulante. [3] [4] [5]
Se han desarrollado varias estrategias de preparación de bibliotecas que aumentan la precisión de las plataformas NGS, como los códigos de barras moleculares y el método de secuenciación circular por consenso. [6] [7] [8] [9] Al igual que las plataformas NGS, los datos generados por estos métodos se originan a partir de una sola hebra de ADN y, por lo tanto, los errores que se introducen durante la amplificación por PCR , el procesamiento de tejidos , la extracción de ADN y la captura por hibridación ( donde se usa) o la secuenciación del ADN en sí aún pueden distinguirse como una variante verdadera. El método de secuenciación dúplex aborda este problema aprovechando la naturaleza complementaria de dos cadenas de ADN y confirmando sólo las variantes que están presentes en ambas cadenas de ADN. Debido a que la probabilidad de que surjan dos errores complementarios en la misma ubicación en ambas hebras es extremadamente baja, la secuenciación dúplex aumenta significativamente la precisión de la secuenciación. [1] [6] [8] [10]
Los adaptadores etiquetados de secuenciación dúplex se pueden utilizar en combinación con la mayoría de los adaptadores NGS. En la sección de figuras y flujo de trabajo de este artículo, los adaptadores de secuenciación de Illumina se utilizan como ejemplo siguiendo el protocolo original publicado. [1] [2]
Se utilizan dos oligonucleótidos para este paso (Figura 1: Oligos adaptadores). Uno de los oligonucleótidos contiene una secuencia de etiqueta aleatoria monocatenaria de 12 nucleótidos seguida de una secuencia de nucleótidos 5' fija (secuencia negra en la Figura 1). En este paso, los oligonucleótidos se hibridan en una región complementaria mediante incubación en las condiciones temporales requeridas. [1] [2]
Los adaptadores que se hibridaron exitosamente se extienden y sintetizan mediante una ADN polimerasa para completar un adaptador bicatenario que contiene etiquetas complementarias (Figura 1). [1] [2]
Los adaptadores bicatenarios extendidos son escindidos por HpyCH4III en un sitio de restricción específico ubicado en el lado 3' de la secuencia de etiqueta y dará como resultado un saliente 3'-dT que se ligará al saliente 3'-dA en las bibliotecas de ADN en el paso de ligadura del adaptador (Figura 1). [1] [2]
El ADN de doble cadena se corta mediante uno de estos métodos: sonicación , digestión enzimática o nebulización. Los fragmentos se seleccionan por tamaño utilizando perlas Ampure XP. No se recomienda la selección del tamaño a base de gel , ya que puede provocar la fusión de las dobles hebras del ADN y daños en el ADN debido a la exposición a los rayos UV . El tamaño de fragmentos seleccionados de ADN se somete a la cola dA del extremo 3'. [1] [2]
En este paso, se ligan dos adaptadores etiquetados desde colas 3'-dT a colas 3'-dA en ambos lados de fragmentos de biblioteca de ADN bicatenario. Este proceso da como resultado fragmentos de biblioteca de doble cadena que contienen dos etiquetas aleatorias (α y β) en cada lado que son el complemento inverso entre sí (Figuras 1 y 2). La relación "ADN:adaptador" es crucial para determinar el éxito de la ligadura. [1] [2]
En el último paso de la preparación de la biblioteca de secuenciación dúplex, se añaden adaptadores de secuenciación de Illumina a las bibliotecas bicatenarias marcadas mediante amplificación por PCR utilizando cebadores que contienen adaptadores de secuenciación. Durante la amplificación por PCR, ambas cadenas complementarias de ADN se amplifican y generan dos tipos de productos de PCR. El producto 1 deriva de las cadenas 1 que tienen una secuencia de etiquetas única (llamada α en la Figura 2) junto al adaptador 1 de Illumina y el producto 2 tiene una etiqueta única (llamada β en la Figura 2) junto al adaptador 1 de Illumina. (En cada cadena , la etiqueta α es el complemento inverso de la etiqueta β y viceversa). Las bibliotecas que contienen etiquetas dúplex y adaptadores de Illumina se secuencian mediante el sistema Illumina TruSeq. Las lecturas que se originan en cada hebra de ADN forman un grupo de lecturas (familias de etiquetas) que comparten la misma etiqueta. Las familias de lecturas detectadas se utilizarán en el siguiente paso para analizar los datos de secuenciación. [1] [2]
La eficiencia de la ligadura del adaptador es muy importante para una secuenciación dúplex exitosa. Una cantidad adicional de bibliotecas o adaptadores puede afectar el equilibrio entre el ADN y el adaptador, lo que resulta en una ligadura ineficiente y una cantidad excesiva de dímeros de cebador, respectivamente. Por lo tanto, es importante mantener la concentración molar de ADN al adaptador en la proporción óptima (0,05). [2]
La eficiencia de la secuenciación dúplex depende del número final de DCS que está directamente relacionado con el número de lecturas en cada familia (tamaño de familia). Si el tamaño de la familia es demasiado pequeño, entonces el DCS no se puede ensamblar y si demasiadas lecturas comparten la misma etiqueta, el rendimiento de datos será bajo. El tamaño de la familia está determinado por la cantidad de plantilla de ADN necesaria para la amplificación por PCR y la fracción del carril de secuenciación dedicado. El tamaño óptimo de una familia de etiquetas es de entre 6 y 12 miembros. Para obtener el tamaño de familia óptimo, es necesario ajustar las cantidades de plantilla de ADN y la fracción del carril de secuenciación dedicado. La siguiente fórmula tiene en cuenta las variables más importantes que pueden afectar la profundidad de cobertura (N=40DG÷R) donde "N" es el número de lecturas, "D" es la profundidad de cobertura deseada, "G" es el tamaño de Objetivo de ADN en par de bases y "R" es la longitud de lectura final.
Cada lectura de secuenciación dúplex contiene una secuencia fija de 5 nucleótidos (que se muestra en las figuras en negro) ubicada aguas arriba de la secuencia de la etiqueta de 12 nucleótidos. Las lecturas se filtran si no tienen la secuencia esperada de 5 nucleótidos o si tienen más de nueve bases idénticas o ambiguas dentro de cada etiqueta. Las dos etiquetas de 12 nucleótidos en cada extremo de las lecturas se combinan y se mueven al encabezado de lectura. Se forman dos familias de lecturas que se originan a partir de las dos hebras de ADN. Una familia contiene lecturas con encabezado αβ que se originan en la cadena 1 y la segunda contiene lecturas con encabezado βα que se originan en la cadena 2 (Figura 2). Luego, las lecturas se recortan eliminando la secuencia fija de 5 pares de bases y 4 nucleótidos propensos a errores ubicados en los sitios de ligadura y reparación final. [1] [2] Las lecturas restantes se ensamblan en secuencias de consenso utilizando ensamblajes SSCS y DCS.
Las secuencias recortadas del paso anterior se alinean con el genoma de referencia utilizando un alineador Burrows-Wheeler (BWA) y las lecturas no asignadas se eliminan. Las lecturas alineadas que tienen la misma secuencia de etiqueta de 24 pares de bases y región genómica se detectan y agrupan (familia αβ y βα en la Figura 2). Cada grupo representa una "familia de etiquetas". No se analizan las familias de etiquetas con menos de tres miembros. Para eliminar los errores que surgen durante la amplificación o secuenciación por PCR, las mutaciones que son compatibles con menos del 70 % de los miembros (lecturas) se filtran del análisis. Luego se genera una secuencia consenso para cada familia utilizando secuencias idénticas en cada posición de las lecturas restantes. La secuencia consenso se llama SSCS. Aumenta la precisión de NGS hasta aproximadamente 20 veces más; sin embargo, este método se basa en la información de secuenciación de hebras individuales de ADN y, por lo tanto, es sensible a los errores inducidos en la primera ronda o antes de la amplificación por PCR. [1] [2]
Las lecturas del último paso se realinean con el genoma de referencia. En este método, se agruparán pares de familias SSCS que tengan etiquetas complementarias (familia αβ y βα en la Figura 2). Estas lecturas se originan a partir de dos hebras complementarias de ADN. Las secuencias de alta confianza se seleccionan en función de las llamadas de bases perfectamente coincidentes de cada familia. La secuencia final se llama DCS. Las verdaderas mutaciones son aquellas que coinciden perfectamente entre SSCS complementarios. Este paso filtra los errores restantes surgidos durante la primera ronda de amplificación por PCR o durante la preparación de la muestra. [1] [2]
La alta tasa de error (0,01-0,001) de las plataformas NGS estándar introducidas durante la preparación o secuenciación de muestras es una limitación importante para la detección de variantes presentes en una pequeña fracción de células. Debido al sistema de etiquetado dúplex y al uso de información en ambas cadenas de ADN, la secuenciación dúplex ha disminuido significativamente la tasa de error de la secuenciación en aproximadamente 10 millones de veces utilizando el método SSCS y DCS. [1] [2] [10]
Es un desafío identificar variantes raras con precisión utilizando métodos NGS estándar con una tasa de mutación de (10 −2 a 10 −3 ). Los errores que ocurren temprano durante la preparación de la muestra pueden detectarse como variantes raras. Un ejemplo de tales errores es la transversión C>A/G>T , detectada en bajas frecuencias mediante secuenciación profunda o datos de captura dirigida y que surge debido a la oxidación del ADN durante la preparación de la muestra. [11] Estos tipos de variantes falsamente positivas se filtran mediante el método de secuenciación dúplex, ya que las mutaciones deben coincidir con precisión en ambas hebras de ADN para validarse como mutaciones verdaderas. En teoría, la secuenciación dúplex puede detectar mutaciones con frecuencias tan bajas como 10 −8 en comparación con la tasa de 10 −2 de los métodos NGS estándar. [1] [2] [10]
Otra ventaja de la secuenciación dúplex es que se puede utilizar en combinación con la mayoría de las plataformas NGS sin realizar cambios significativos en los protocolos estándar.
Debido a que la secuenciación dúplex proporciona una precisión de secuenciación significativamente mayor y utiliza información en ambas hebras de ADN, este método necesita una profundidad de secuenciación mucho mayor y, por lo tanto, es un enfoque costoso. El gasto limita su aplicación a la secuenciación dirigida y de amplicones en la actualidad y no será aplicable a enfoques de secuenciación del genoma completo. Sin embargo, la aplicación de la secuenciación dúplex para objetivos de ADN más grandes será más factible cuando disminuya el costo de NGS.
La secuenciación dúplex es un método nuevo y su eficacia se estudió en aplicaciones limitadas, como la detección de mutaciones puntuales mediante secuenciación de captura dirigida. [12] Es necesario realizar más estudios para ampliar la aplicación y la viabilidad de la secuenciación dúplex a muestras más complejas con mayor número de mutaciones, indeles y variaciones en el número de copias .
La secuenciación dúplex y el aumento significativo de la precisión de la secuenciación han tenido un impacto importante en aplicaciones como la detección de variantes genéticas humanas raras, la detección de mutaciones subclonales implicadas en mecanismos de resistencia a la terapia en cánceres genéticamente heterogéneos, la detección de variantes en el ADN tumoral circulante como -biomarcador invasivo y detección prenatal de anomalías genéticas en un feto.
Otra aplicación de la secuenciación dúplex es la detección de números de copias de ADN/ARN mediante la estimación de la frecuencia relativa de variantes. Un ejemplo es un método para contar moléculas plantilla de PCR con aplicación a la secuenciación de próxima generación. [1]
Puede encontrar en línea una lista de herramientas y paquetes necesarios para el análisis SSCS y DCS.