stringtranslate.com

Secuenciación de colorantes Illumina

La secuenciación por colorante de Illumina es una técnica utilizada para determinar la serie de pares de bases en el ADN , también conocida como secuenciación de ADN . El concepto de química de terminación reversible fue inventado por Bruno Canard y Simon Sarfati en el Instituto Pasteur de París. [1] [2] Fue desarrollado por Shankar Balasubramanian y David Klenerman de la Universidad de Cambridge, [3] quienes posteriormente fundaron Solexa, una empresa adquirida posteriormente por Illumina . Este método de secuenciación se basa en terminadores de colorante reversibles que permiten la identificación de nucleótidos individuales a medida que se lavan sobre las cadenas de ADN. También se puede utilizar para la secuenciación de todo el genoma y de regiones, el análisis del transcriptoma , la metagenómica , el descubrimiento de ARN pequeños , el perfil de metilación y el análisis de la interacción proteína - ácido nucleico en todo el genoma . [4] [5]

El ADN se adhiere a la celda de flujo a través de secuencias complementarias. La hebra se dobla y se adhiere a un segundo oligonucleótido formando un puente. Una polimerasa sintetiza la hebra inversa. Las dos hebras se liberan y se enderezan. Cada una forma un nuevo puente (amplificación de puente). El resultado es un grupo de clones de ADN de hebra directa e inversa.

Descripción general

Esto funciona en tres pasos básicos: amplificar, secuenciar y analizar. El proceso comienza con ADN purificado. El ADN se fragmenta y se añaden adaptadores que contienen segmentos que actúan como puntos de referencia durante la amplificación, la secuenciación y el análisis. El ADN modificado se carga en una celda de flujo donde se llevará a cabo la amplificación y la secuenciación. La celda de flujo contiene nanopocillos que espacian los fragmentos y ayudan con el hacinamiento. [6] Cada nanopocillo contiene oligonucleótidos que proporcionan un punto de anclaje para que los adaptadores se adhieran. Una vez que los fragmentos se han adherido, comienza una fase llamada generación de grupos. Este paso hace alrededor de mil copias de cada fragmento de ADN y se realiza mediante PCR de amplificación de puente . A continuación, los cebadores y los nucleótidos modificados se lavan en el chip. Estos nucleótidos tienen un bloqueador fluorescente reversible para que la ADN polimerasa solo pueda agregar un nucleótido a la vez al fragmento de ADN. [6] Después de cada ronda de síntesis, una cámara toma una fotografía del chip. Una computadora determina qué base se agregó por la longitud de onda de la etiqueta fluorescente y la registra para cada punto en el chip. Después de cada ronda, las moléculas no incorporadas se eliminan. Luego se utiliza un paso de desbloqueo químico para eliminar el grupo de bloqueo terminal fluorescente 3'. El proceso continúa hasta que se secuencia la molécula de ADN completa. [5] Con esta tecnología, se secuencian miles de lugares en todo el genoma a la vez mediante una secuenciación paralela masiva .

Procedimiento

Biblioteca Genómica

Una vez purificado el ADN, es necesario generar una biblioteca de ADN, la biblioteca genómica. Hay dos formas de crear una biblioteca genómica: sonicación y tagmentación. Con la tagmentación, las transposasas cortan aleatoriamente el ADN en fragmentos de tamaños entre 50 y 500 pb y añaden adaptadores simultáneamente. [6] También se puede generar una biblioteca genética utilizando sonicación para fragmentar el ADN genómico. La sonicación fragmenta el ADN en tamaños similares utilizando ondas sonoras ultrasónicas. Los adaptadores derecho e izquierdo deberán ser unidos por la ADN polimerasa T7 y la ADN ligasa T4 después de la sonicación. Las hebras que no tienen adaptadores ligados se eliminan por lavado. [7]

El ADN bicatenario se corta mediante transposomas. Los extremos cortados se reparan y se añaden adaptadores, índices, sitios de unión de cebadores y sitios terminales a cada cadena de ADN. Imagen basada en parte en el vídeo de secuenciación de Illumina [7]

Adaptadores

Los adaptadores contienen tres segmentos diferentes: la secuencia complementaria al soporte sólido (oligonucleótidos en la celda de flujo), la secuencia de código de barras (índices) y el sitio de unión para el cebador de secuenciación. [6] Los índices suelen tener seis pares de bases de longitud y se utilizan durante el análisis de secuencias de ADN para identificar muestras. Los índices permiten que se ejecuten juntas hasta 96 muestras diferentes, esto también se conoce como multiplexación. Durante el análisis, la computadora agrupará todas las lecturas con el mismo índice. [8] [9] Illumina utiliza un enfoque de "secuencia por síntesis". [9] Este proceso se lleva a cabo dentro de una celda de flujo de vidrio recubierta de acrilamida. [10] La celda de flujo tiene oligonucleótidos (secuencias de nucleótidos cortas) que recubren la parte inferior de la celda y sirven como soporte sólido para mantener las cadenas de ADN en su lugar durante la secuenciación. A medida que el ADN fragmentado se lava sobre la celda de flujo, el adaptador apropiado se adhiere al soporte sólido complementario.

Millones de oligos se alinean en la parte inferior de cada carril de la celda de flujo.

Amplificación de puente

Una vez unidos, puede comenzar la generación de grupos. El objetivo es crear cientos de cadenas de ADN idénticas. Algunas serán la cadena directa y el resto, la inversa. Por eso se utilizan adaptadores derechos e izquierdos. Los grupos se generan mediante amplificación de puente. La ADN polimerasa se mueve a lo largo de una cadena de ADN, creando su cadena complementaria. La cadena original se elimina, dejando solo la cadena inversa. En la parte superior de la cadena inversa hay una secuencia adaptadora. La cadena de ADN se dobla y se une al oligonucleótido que es complementario a la secuencia adaptadora superior. Las polimerasas se unen a la cadena inversa y se crea su cadena complementaria (que es idéntica a la original). El ADN ahora bicatenario se desnaturaliza para que cada cadena pueda unirse por separado a una secuencia de oligonucleótidos anclada a la celda de flujo. Una será la cadena inversa y la otra, la directa. Este proceso se llama amplificación de puente y ocurre para miles de grupos en toda la celda de flujo a la vez. [11]

Amplificación clonal

Una y otra vez, las cadenas de ADN se doblarán y se unirán al soporte sólido. La ADN polimerasa sintetizará una nueva cadena para crear un segmento de doble cadena, y este se desnaturalizará para que todas las cadenas de ADN en un área provengan de una sola fuente (amplificación clonal). La amplificación clonal es importante para fines de control de calidad. Si se descubre que una cadena tiene una secuencia extraña, los científicos pueden verificar la cadena inversa para asegurarse de que tenga el complemento de la misma rareza. Las cadenas directa e inversa actúan como controles para proteger contra artefactos. Debido a que la secuenciación de Illumina utiliza la ADN polimerasa, se han observado errores de sustitución de bases, [12] especialmente en el extremo 3'. [13] Las lecturas de extremos emparejados combinadas con la generación de grupos pueden confirmar que se produjo un error. Las cadenas inversa y directa deben ser complementarias entre sí, todas las lecturas inversas deben coincidir entre sí y todas las lecturas directas deben coincidir entre sí. Si una lectura no es lo suficientemente similar a sus contrapartes (con las que debería ser un clon), es posible que se haya producido un error. En los análisis de algunos laboratorios se ha utilizado un umbral mínimo de similitud del 97%. [13]

Secuencia por síntesis

Al final de la amplificación clonal, todas las cadenas inversas se eliminan de la celda de flujo, dejando solo las cadenas directas. Un cebador se une al sitio de unión del cebador adaptador de las cadenas directas, y una polimerasa agrega un dNTP marcado con fluorescencia a la cadena de ADN. Solo se puede agregar una base por ronda debido a que el fluoróforo actúa como un grupo de bloqueo; sin embargo, el grupo de bloqueo es reversible. [6] Al usar la química de cuatro colores, cada una de las cuatro bases tiene una emisión única y, después de cada ronda, la máquina registra qué base se agregó. Una vez que se registra el color, el fluoróforo se elimina y otro dNTP se lava sobre la celda de flujo y el proceso se repite.

A partir del lanzamiento de NextSeq y, posteriormente, de MiniSeq, Illumina introdujo una nueva química de secuenciación de dos colores. Los nucleótidos se distinguen por uno de los dos colores (rojo o verde), por la ausencia de color ("negro") o por la combinación de ambos colores (apareciendo de color naranja como una mezcla entre rojo y verde).

Los nucleótidos marcados se añaden a la cadena de ADN. Cada uno de los cuatro nucleótidos tiene una etiqueta de identificación que puede ser excitada para emitir una longitud de onda característica. Una computadora registra todas las emisiones y, a partir de estos datos, se realizan las llamadas de bases.

Una vez leída la cadena de ADN, se elimina la cadena que se acaba de añadir. A continuación, se adhiere el cebador del índice 1, polimeriza la secuencia del índice 1 y se elimina. La cadena forma un puente de nuevo y el extremo 3' de la cadena de ADN se adhiere a un oligonucleótido en la celda de flujo. El cebador del índice 2 se adhiere, polimeriza la secuencia y se elimina.

Una polimerasa secuencia la hebra complementaria situada encima de la hebra arqueada. Se separan y el extremo 3' de cada hebra queda bloqueado. La hebra delantera se elimina y el proceso de secuenciación por síntesis se repite para la hebra inversa.

Análisis de datos

La secuenciación se realiza para millones de grupos a la vez, y cada grupo tiene aproximadamente 1000 copias idénticas de un inserto de ADN. [12] Los datos de la secuencia se analizan buscando fragmentos con áreas superpuestas, llamados contigs , y alineándolos. Si se conoce una secuencia de referencia, los contigs se comparan con ella para identificar variantes.

Este proceso fragmentado permite a los científicos ver la secuencia completa aunque nunca se haya ejecutado una secuencia no fragmentada; sin embargo, debido a que las longitudes de lectura de Illumina no son muy largas [13] (la secuenciación HiSeq puede producir longitudes de lectura de alrededor de 90 pb [8] ), puede ser una lucha resolver áreas cortas de repetición en tándem. [8] [12] Además, si la secuencia es de novo y no existe una referencia, las áreas repetidas pueden causar muchas dificultades en el ensamblaje de la secuencia. [12] Las dificultades adicionales incluyen sustituciones de bases (especialmente en el extremo 3' de las lecturas [13] ) por polimerasas inexactas, secuencias quiméricas y sesgo de PCR, todo lo cual puede contribuir a generar una secuencia incorrecta. [13]

Comparación con otros métodos de secuenciación

Esta técnica ofrece varias ventajas sobre los métodos de secuenciación tradicionales, como la secuenciación de Sanger . La secuenciación de Sanger requiere dos reacciones, una para el cebador directo y otra para el cebador inverso. A diferencia de Illumina, la secuenciación de Sanger utiliza didesoxinucleósidos trifosfatos (ddNTP) marcados con fluorescencia para determinar la secuencia del fragmento de ADN. Los ddNTP carecen del grupo OH 3' y terminan la síntesis de ADN de forma permanente. [6] En cada tubo de reacción, se añaden dNTP y ddNTP, junto con la ADN polimerasa y los cebadores. La proporción de ddNTP a dNTP es importante ya que el ADN molde debe sintetizarse por completo, y una sobreabundancia de ddNTP creará múltiples fragmentos del mismo tamaño y posición del ADN molde. Cuando la ADN polimerasa añade un ddNTP, el fragmento se termina y se sintetiza un nuevo fragmento. Cada fragmento sintetizado es un nucleótido más largo que el anterior. Una vez sintetizada por completo la plantilla de ADN, los fragmentos se separan mediante electroforesis capilar. En el fondo del tubo capilar, un láser excita los ddNTP marcados con fluorescencia y una cámara captura el color emitido.

Debido a la naturaleza automatizada de la secuenciación por colorante de Illumina, es posible secuenciar múltiples cadenas a la vez y obtener datos de secuenciación reales rápidamente. Con la secuenciación de Sanger, solo se puede secuenciar una cadena a la vez y es relativamente lenta. Illumina solo utiliza ADN polimerasa en lugar de múltiples enzimas costosas que requieren otras técnicas de secuenciación (es decir, pirosecuenciación ). [14]

Referencias

  1. ^ CA 2158975, Canard, Bruno & Sarfati, Simon, "Nuevos derivados utilizables para la secuenciación de ácidos nucleicos", publicado el 13 de octubre de 1994, asignado al Instituto Pasteur 
  2. ^ Canard B, Sarfati RS (octubre de 1994). "Sustratos fluorescentes de la ADN polimerasa con etiquetas 3' reversibles". Gene . 148 (1): 1–6. doi :10.1016/0378-1119(94)90226-7. PMID  7523248.
  3. ^ "Historia de la secuenciación de Illumina". Archivado desde el original el 12 de octubre de 2014.
  4. ^ "Illumina - Soluciones basadas en secuenciación y matrices para la investigación genética". www.illumina.com .
  5. ^ ab Meyer M, Kircher M (junio de 2010). "Preparación de la biblioteca de secuenciación de Illumina para la captura y secuenciación de objetivos altamente multiplexados". Protocolos de Cold Spring Harbor . 2010 (6): pdb.prot5448. doi :10.1101/pdb.prot5448. PMID  20516186.
  6. ^ abcdef Clark, David P. (2 de noviembre de 2018). Biología molecular. Pazdernik, Nanette Jean, McGehee, Michelle R. (tercera edición). Londres. ISBN 978-0-12-813289-0.OCLC 1062496183  .{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
  7. ^ ab "Tecnología de secuenciación de Illumina". YouTube . Consultado el 24 de septiembre de 2015 .
  8. ^ abc Feng YJ, Liu QF, Chen MY, Liang D, Zhang P (enero de 2016). "Secuenciación de amplicones marcados en paralelo de productos de PCR relativamente largos utilizando la plataforma Illumina HiSeq y ensamblaje del transcriptoma". Recursos de ecología molecular . 16 (1): 91–102. doi :10.1111/1755-0998.12429. PMID  25959587. S2CID  36882760.
  9. ^ ab Illumina, Inc. "Secuenciación multiplexada con el sistema analizador de genoma de Illumina" (PDF) . Consultado el 25 de septiembre de 2015 .
  10. ^ Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR, et al. (julio de 2012). "Una historia de tres plataformas de secuenciación de próxima generación: comparación de los secuenciadores Ion Torrent, Pacific Biosciences e Illumina MiSeq". BMC Genomics . 13 : 341. doi : 10.1186/1471-2164-13-341 . PMC 3431227 . PMID  22827831. 
  11. ^ Clark, David P.; Pazdernik, Nanette J.; McGehee, Michelle R. (2019). Biología molecular . Academic Cell. págs. 253–255. ISBN 9780128132883.
  12. ^ abcd Morozova O, Marra MA (noviembre de 2008). "Aplicaciones de tecnologías de secuenciación de próxima generación en genómica funcional". Genomics . 92 (5): 255–64. doi :10.1016/j.ygeno.2008.07.001. PMID  18703132.
  13. ^ abcde Jeon YS, Park SC, Lim J, Chun J, Kim BS (enero de 2015). "Mejora del proceso de identificación de secuencias de ARNr 16S mediante la plataforma Illumina MiSeq". Journal of Microbiology . 53 (1): 60–9. doi :10.1007/s12275-015-4601-y. PMID  25557481. S2CID  17210846.
  14. ^ Ronaghi, Mostafa; Uhlén, Mathías; Nyrén, Pål (17 de julio de 1998). "Un método de secuenciación basado en pirofosfato en tiempo real". Ciencia . 281 (5375): 363–365. doi : 10.1126/ciencia.281.5375.363. ISSN  0036-8075. PMID  9705713.