La secuenciación de Sanger es un método de secuenciación de ADN que implica electroforesis y se basa en la incorporación aleatoria de didesoxinucleótidos de terminación de cadena por la ADN polimerasa durante la replicación de ADN in vitro . Después de ser desarrollado por primera vez por Frederick Sanger y colegas en 1977, se convirtió en el método de secuenciación más utilizado durante aproximadamente 40 años. Un instrumento automatizado que utiliza electroforesis en gel de placa y marcadores fluorescentes fue comercializado por primera vez por Applied Biosystems en marzo de 1987. [1] Más tarde, los geles de placa automatizados fueron reemplazados por electroforesis de matriz capilar automatizada. [2] Más recientemente, la secuenciación de Sanger de mayor volumen ha sido reemplazada por métodos de secuenciación de próxima generación , especialmente para análisis de genoma automatizados a gran escala . Sin embargo, el método de Sanger sigue siendo ampliamente utilizado para proyectos de menor escala y para la validación de resultados de secuenciación profunda. Aún tiene la ventaja sobre las tecnologías de secuenciación de lectura corta (como Illumina) de que puede producir lecturas de secuencias de ADN de > 500 nucleótidos y mantiene una tasa de error muy baja con precisiones de alrededor del 99,99%. [3] La secuenciación de Sanger todavía se está utilizando activamente en iniciativas de salud pública como la secuenciación de la proteína de pico del SARS-CoV-2 [4], así como para la vigilancia de brotes de norovirus a través de la red de vigilancia CaliciNet del Centro para el Control y la Prevención de Enfermedades (CDC). [5]
El método clásico de terminación de cadena requiere una plantilla de ADN monocatenario, un cebador de ADN , una ADN polimerasa , desoxinucleótidos trifosfatos normales ( dNTP ) y didesoxinucleótidos trifosfatos modificados ( ddNTP ), estos últimos terminan la elongación de la cadena de ADN. Estos nucleótidos de terminación de cadena carecen de un grupo 3'- OH necesario para la formación de un enlace fosfodiéster entre dos nucleótidos, lo que hace que la ADN polimerasa detenga la extensión del ADN cuando se incorpora un ddNTP modificado. Los ddNTP pueden marcarse radiactivamente o con fluorescencia para su detección en máquinas de secuenciación automática.
La muestra de ADN se divide en cuatro reacciones de secuenciación independientes, que contienen los cuatro desoxinucleótidos estándar (dATP, dGTP, dCTP y dTTP) y la ADN polimerasa. A cada reacción se añade solo uno de los cuatro didesoxinucleótidos (ddATP, ddGTP, ddCTP o ddTTP), mientras que los otros nucleótidos añadidos son los ordinarios. La concentración de desoxinucleótidos debe ser aproximadamente 100 veces mayor que la del didesoxinucleótido correspondiente (por ejemplo, 0,5 mM de dTTP: 0,005 mM de ddTTP) para permitir que se produzcan suficientes fragmentos mientras se sigue transcribiendo la secuencia completa (pero la concentración de ddNTP también depende de la longitud deseada de la secuencia). [6] Poniéndolo en un orden más sensato, se necesitan cuatro reacciones independientes en este proceso para probar los cuatro ddNTP. Después de las rondas de extensión del ADN molde a partir del cebador unido, los fragmentos de ADN resultantes se desnaturalizan por calor y se separan por tamaño mediante electroforesis en gel . En la publicación original de 1977, [6] la formación de bucles de pares de bases de ADN monocatenario fue una causa de seria dificultad para resolver bandas en algunas ubicaciones. Esto se realiza con frecuencia utilizando un gel de poliacrilamida -urea desnaturalizante con cada una de las cuatro reacciones en una de las cuatro pistas individuales (pistas A, T, G, C). Las bandas de ADN pueden visualizarse luego mediante autorradiografía o luz ultravioleta, y la secuencia de ADN puede leerse directamente en la película de rayos X o la imagen del gel.
En la imagen de la derecha, se expuso una película de rayos X al gel y las bandas oscuras corresponden a fragmentos de ADN de diferentes longitudes. Una banda oscura en un carril indica un fragmento de ADN que es el resultado de la terminación de la cadena después de la incorporación de un didesoxinucleótido (ddATP, ddGTP, ddCTP o ddTTP). Las posiciones relativas de las diferentes bandas entre los cuatro carriles, de abajo a arriba, se utilizan para leer la secuencia de ADN.
Las variaciones técnicas de la secuenciación de terminación de cadena incluyen el marcado con nucleótidos que contienen fósforo radiactivo para el radiomarcado o el uso de un cebador marcado en el extremo 5' con un colorante fluorescente . La secuenciación con colorante-cebador facilita la lectura en un sistema óptico para un análisis y una automatización más rápidos y económicos. El desarrollo posterior por parte de Leroy Hood y colaboradores [7] [8] de ddNTP y cebadores marcados con fluorescencia sentó las bases para la secuenciación de ADN automatizada y de alto rendimiento.
Los métodos de terminación de cadena han simplificado enormemente la secuenciación de ADN. Por ejemplo, existen en el mercado kits basados en la terminación de cadena que contienen los reactivos necesarios para la secuenciación, previamente alícuotados y listos para usar. Las limitaciones incluyen la unión no específica del cebador al ADN, lo que afecta la lectura precisa de la secuencia de ADN, y las estructuras secundarias del ADN que afectan la fidelidad de la secuencia.
La secuenciación con terminador de colorante utiliza el marcado de los ddNTP que terminan la cadena, lo que permite la secuenciación en una sola reacción en lugar de cuatro reacciones como en el método de cebador marcado. En la secuenciación con terminador de colorante, cada uno de los cuatro terminadores de cadena de didesoxinucleótidos se marca con colorantes fluorescentes, cada uno de los cuales emite luz en diferentes longitudes de onda .
Debido a su mayor conveniencia y velocidad, la secuenciación con terminadores de colorante es actualmente el pilar de la secuenciación automatizada. Sus limitaciones incluyen los efectos del colorante debido a las diferencias en la incorporación de los terminadores de cadena marcados con colorante en el fragmento de ADN, lo que da como resultado alturas y formas de pico desiguales en el electroferograma de trazas de secuencia electrónica de ADN (un tipo de cromatograma ) después de la electroforesis capilar (ver figura a la izquierda).
Este problema se ha abordado con el uso de sistemas de enzimas de ADN polimerasa modificados y colorantes que minimizan la variabilidad de incorporación, así como métodos para eliminar las "manchas de colorante". El método de secuenciación con terminador de colorante, junto con analizadores de secuencias de ADN automatizados de alto rendimiento, se utilizó para la gran mayoría de los proyectos de secuenciación hasta la introducción de la secuenciación de próxima generación .
Los instrumentos de secuenciación automática de ADN ( secuenciadores de ADN ) pueden secuenciar hasta 384 muestras de ADN en un solo lote. Las ejecuciones de lotes pueden ocurrir hasta 24 veces al día. Los secuenciadores de ADN separan las hebras por tamaño (o longitud) mediante electroforesis capilar , detectan y registran la fluorescencia del tinte y generan datos como cromatogramas de trazas de picos fluorescentes . Las reacciones de secuenciación ( termociclado y etiquetado), la limpieza y la resuspensión de las muestras en una solución tampón se realizan por separado, antes de cargar las muestras en el secuenciador. Varios paquetes de software comerciales y no comerciales pueden recortar automáticamente las trazas de ADN de baja calidad. Estos programas puntúan la calidad de cada pico y eliminan los picos base de baja calidad (que generalmente se encuentran en los extremos de la secuencia). [9] La precisión de estos algoritmos es inferior al examen visual por parte de un operador humano, pero es adecuada para el procesamiento automatizado de grandes conjuntos de datos de secuencias.
El campo de la salud pública desempeña muchas funciones para apoyar el diagnóstico de pacientes, así como la vigilancia ambiental de posibles sustancias tóxicas y patógenos biológicos circulantes. Los laboratorios de salud pública (PHL) y otros laboratorios de todo el mundo han desempeñado un papel fundamental en el suministro de datos de secuenciación rápida para la vigilancia del virus SARS-CoV-2 , agente causal de COVID-19, durante la pandemia que se declaró emergencia de salud pública el 30 de enero de 2020. [10] A los laboratorios se les encargó la rápida implementación de métodos de secuenciación y se les pidió que proporcionaran datos precisos para ayudar en los modelos de toma de decisiones para el desarrollo de políticas para mitigar la propagación del virus. Muchos laboratorios recurrieron a metodologías de secuenciación de próxima generación, mientras que otros apoyaron los esfuerzos con la secuenciación de Sanger. Los esfuerzos de secuenciación del SARS-CoV-2 son muchos, mientras que la mayoría de los laboratorios implementaron la secuenciación del genoma completo del virus, otros han optado por secuenciar genes muy específicos del virus como el gen S, que codifica la información necesaria para producir la proteína de pico. La alta tasa de mutación del SARS-CoV-2 genera diferencias genéticas en el gen S, y estas diferencias han influido en la infectividad del virus. [11] La secuenciación de Sanger del gen S proporciona un método rápido, preciso y más asequible para recuperar el código genético. Los laboratorios de los países de ingresos más bajos pueden no tener la capacidad de implementar aplicaciones costosas como la secuenciación de próxima generación, por lo que los métodos de Sanger pueden prevalecer para respaldar la generación de datos de secuenciación para la vigilancia de variantes.
La secuenciación de Sanger es también el "estándar de oro" para los métodos de vigilancia del norovirus para la red CaliciNet del Centro para el Control y la Prevención de Enfermedades (CDC). CalciNet es una red de vigilancia de brotes que se estableció en marzo de 2009. El objetivo de la red es recopilar datos de secuenciación de norovirus circulantes en los Estados Unidos y activar acciones posteriores para determinar la fuente de infección para mitigar la propagación del virus. La red CalciNet ha identificado muchas infecciones como enfermedades transmitidas por alimentos. [5] Estos datos pueden luego publicarse y usarse para desarrollar recomendaciones para acciones futuras para prevenir la contaminación de los alimentos. Los métodos empleados para la detección del norovirus implican la amplificación dirigida de áreas específicas del genoma. Luego, los amplicones se secuencian utilizando la secuenciación de Sanger con terminación de colorante y los cromatogramas y secuencias generados se analizan con un paquete de software desarrollado en BioNumerics . Se rastrean las secuencias y se estudia la relación de cepas para inferir la relevancia epidemiológica.
Los desafíos comunes de la secuenciación de ADN con el método Sanger incluyen la mala calidad en las primeras 15 a 40 bases de la secuencia debido a la unión de los cebadores y el deterioro de la calidad de los rastros de secuenciación después de 700 a 900 bases. El software de identificación de bases como Phred generalmente proporciona una estimación de la calidad para ayudar a recortar las regiones de baja calidad de las secuencias. [12] [13]
En los casos en que se clonan fragmentos de ADN antes de la secuenciación, la secuencia resultante puede contener partes del vector de clonación . Por el contrario, la clonación basada en PCR y las tecnologías de secuenciación de próxima generación basadas en pirosecuenciación a menudo evitan el uso de vectores de clonación. Recientemente, se han desarrollado métodos de secuenciación de Sanger de un solo paso (amplificación y secuenciación combinadas) como Ampliseq y SeqSharp que permiten la secuenciación rápida de genes diana sin clonación ni amplificación previa. [14] [15]
Los métodos actuales permiten secuenciar directamente fragmentos de ADN relativamente cortos (de 300 a 1000 nucleótidos de longitud) en una única reacción. El principal obstáculo para secuenciar fragmentos de ADN que superan este límite de tamaño es la insuficiente capacidad de separación para resolver fragmentos de ADN grandes que difieren en longitud en tan solo un nucleótido.
La secuenciación microfluídica de Sanger es una aplicación de laboratorio en un chip para la secuenciación de ADN, en la que los pasos de secuenciación de Sanger (ciclado térmico, purificación de muestras y electroforesis capilar) se integran en un chip a escala de oblea utilizando volúmenes de muestra a escala de nanolitros. Esta tecnología genera lecturas de secuencias largas y precisas, al tiempo que elimina muchas de las deficiencias significativas del método Sanger convencional (por ejemplo, alto consumo de reactivos costosos, dependencia de equipos costosos, manipulaciones que requieren mucho personal, etc.) al integrar y automatizar los pasos de secuenciación de Sanger.
En sus inicios modernos, la secuenciación genómica de alto rendimiento implica fragmentar el genoma en pequeños fragmentos monocatenarios, seguido de la amplificación de los fragmentos mediante la reacción en cadena de la polimerasa (PCR). Adoptando el método de Sanger, cada fragmento de ADN se termina irreversiblemente con la incorporación de un nucleótido didesoxi de terminación de cadena marcado con fluorescencia, produciendo así una “escalera” de ADN de fragmentos que difieren en longitud en una base y llevan una etiqueta fluorescente específica de base en la base terminal. Las escaleras de bases amplificadas se separan luego mediante electroforesis capilar (CAE) con detección automatizada in situ de “línea de meta” de los fragmentos de ssADN marcados con fluorescencia, lo que proporciona una secuencia ordenada de los fragmentos. Estas lecturas de secuencia se ensamblan luego por computadora en secuencias superpuestas o contiguas (denominadas “contigs”) que se asemejan a la secuencia genómica completa una vez ensambladas por completo. [16]
Los métodos de Sanger alcanzan longitudes de lectura máximas de aproximadamente 800 pb (normalmente 500–600 pb con ADN no enriquecido). Las longitudes de lectura más largas en los métodos de Sanger muestran ventajas significativas sobre otros métodos de secuenciación, especialmente en términos de secuenciación de regiones repetitivas del genoma. Un desafío de los datos de secuencia de lectura corta es particularmente un problema en la secuenciación de nuevos genomas (de novo) y en la secuenciación de segmentos genómicos altamente reordenados, típicamente los que se observan en genomas de cáncer o en regiones de cromosomas que exhiben variación estructural. [17]
Otras aplicaciones útiles de la secuenciación de ADN incluyen la detección de polimorfismos de un solo nucleótido (SNP), el análisis de heterodúplex de polimorfismos de conformación de cadena sencilla (SSCP) y el análisis de repeticiones cortas en tándem (STR). La resolución de fragmentos de ADN según las diferencias de tamaño y/o conformación es el paso más crítico en el estudio de estas características del genoma. [16]
El chip de secuenciación tiene una construcción de cuatro capas, que consta de tres obleas de vidrio de 100 mm de diámetro (sobre las que se microfabrican los elementos del dispositivo) y una membrana de polidimetilsiloxano (PDMS). Las cámaras de reacción y los canales de electroforesis capilar están grabados entre las dos obleas de vidrio superiores, que están unidas térmicamente. Las interconexiones de canales tridimensionales y las microválvulas están formadas por el PDMS y la oblea de vidrio del colector inferior.
El dispositivo consta de tres unidades funcionales, cada una de las cuales corresponde a los pasos de secuenciación de Sanger. La unidad de ciclado térmico (TC) es una cámara de reacción de 250 nanolitros con un detector de temperatura resistivo integrado, microválvulas y un calentador de superficie. El movimiento del reactivo entre la capa superior de vidrio y la capa inferior de vidrio-PDMS se produce a través de orificios pasantes de 500 μm de diámetro. Después del ciclado térmico, la mezcla de reacción se somete a una purificación en la cámara de captura/purificación y, a continuación, se inyecta en la cámara de electroforesis capilar (CE). La unidad CE consta de un capilar de 30 cm que se pliega en un patrón de retroceso compacto mediante giros de 65 μm de ancho.
La plataforma Apollo 100 (Microchip Biotechnologies Inc., Dublin, CA) [18] integra los dos primeros pasos de secuenciación de Sanger (ciclado térmico y purificación) en un sistema totalmente automatizado. El fabricante afirma que las muestras están listas para la electroforesis capilar en tres horas desde que se cargan la muestra y los reactivos en el sistema. La plataforma Apollo 100 requiere volúmenes de reactivos inferiores a un microlitro.
El objetivo final de la secuenciación de alto rendimiento es desarrollar sistemas de bajo costo y extremadamente eficientes para obtener longitudes de lectura extendidas (más largas). Las longitudes de lectura más largas de cada separación electroforética individual reducen sustancialmente el costo asociado con la secuenciación de ADN de novo y la cantidad de plantillas necesarias para secuenciar contigs de ADN con una redundancia dada. La microfluídica puede permitir un ensamblaje de secuencias más rápido, más barato y más fácil. [16]
Hemos desarrollado un método para la automatización parcial del análisis de secuencias de ADN. La detección de fluorescencia de los fragmentos de ADN se logra por medio de un fluoróforo unido covalentemente al cebador oligonucleótido utilizado en el análisis enzimático de secuencias de ADN. Se utiliza un fluoróforo de color diferente para cada una de las reacciones específicas para las bases A, C, G y T. Las mezclas de reacción se combinan y se co-electroforesan en un solo tubo de gel de poliacrilamida, las bandas fluorescentes separadas de ADN se detectan cerca del fondo del tubo y la información de la secuencia se adquiere directamente por computadora.