stringtranslate.com

Secuenciación de escopeta

En genética , la secuenciación shotgun es un método utilizado para secuenciar cadenas de ADN aleatorias . Se denomina así por analogía con la agrupación de secuencias aleatorias de rápida expansión de una secuencia shotgun .

El método de terminación de cadena de secuenciación de ADN ("secuenciación de Sanger") sólo se puede utilizar para cadenas cortas de ADN de entre 100 y 1000 pares de bases . Debido a este límite de tamaño, las secuencias más largas se subdividen en fragmentos más pequeños que se pueden secuenciar por separado y estas secuencias se ensamblan para dar la secuencia general.

En la secuenciación shotgun, [1] [2] el ADN se divide aleatoriamente en numerosos segmentos pequeños, que se secuencian utilizando el método de terminación de cadena para obtener lecturas . Se obtienen múltiples lecturas superpuestas para el ADN objetivo realizando varias rondas de esta fragmentación y secuenciación. Luego, los programas informáticos utilizan los extremos superpuestos de diferentes lecturas para ensamblarlas en una secuencia continua. [1]

La secuenciación de escopeta fue una de las tecnologías precursoras que posibilitó la secuenciación del genoma completo .

Ejemplo

Por ejemplo, considere las siguientes dos rondas de lecturas de escopeta:

En este ejemplo extremadamente simplificado, ninguna de las lecturas cubre la longitud completa de la secuencia original, pero las cuatro lecturas se pueden ensamblar en la secuencia original utilizando la superposición de sus extremos para alinearlos y ordenarlos. En realidad, este proceso utiliza enormes cantidades de información que están plagadas de ambigüedades y errores de secuenciación. El ensamblaje de genomas complejos se complica además por la gran abundancia de secuencias repetitivas , lo que significa que lecturas cortas similares podrían provenir de partes completamente diferentes de la secuencia.

Para superar estas dificultades y ensamblar con precisión la secuencia, son necesarias muchas lecturas superpuestas para cada segmento del ADN original. Por ejemplo, para completar el Proyecto Genoma Humano , la mayor parte del genoma humano se secuenció con una cobertura de 12X o mayor ; es decir, cada base en la secuencia final estaba presente en promedio en 12 lecturas diferentes. Aun así, los métodos actuales no han logrado aislar o ensamblar una secuencia confiable para aproximadamente el 1% del genoma humano ( eucromático ), hasta 2004. [3]

Secuenciación shotgun del genoma completo

Historia

La secuenciación shotgun del genoma completo para genomas pequeños (de 4000 a 7000 pares de bases) se sugirió por primera vez en 1979. [1] El primer genoma secuenciado mediante secuenciación shotgun fue el del virus del mosaico de la coliflor , publicado en 1981. [4] [5]

Secuenciación de extremos emparejados

La secuenciación de extremos por pares , conocida coloquialmente como secuenciación de escopeta de dos cañones , se benefició de una aplicación más amplia . A medida que los proyectos de secuenciación comenzaron a abarcar secuencias de ADN más largas y complicadas, varios grupos comenzaron a darse cuenta de que se podía obtener información útil secuenciando ambos extremos de un fragmento de ADN. Aunque secuenciar ambos extremos del mismo fragmento y realizar un seguimiento de los datos emparejados era más engorroso que secuenciar un solo extremo de dos fragmentos distintos, el conocimiento de que las dos secuencias estaban orientadas en direcciones opuestas y estaban separadas entre sí por una longitud de un fragmento aproximadamente resultó valioso para reconstruir la secuencia del fragmento objetivo original.

Historia . La primera descripción publicada del uso de extremos pareados fue en 1990 [6] como parte de la secuenciación del locus HGPRT humano , aunque el uso de extremos pareados se limitó a cerrar huecos después de la aplicación de un enfoque de secuenciación shotgun tradicional. La primera descripción teórica de una estrategia de secuenciación de extremos por pares pura, asumiendo fragmentos de longitud constante, fue en 1991. [7] En ese momento, había consenso en la comunidad de que la longitud óptima del fragmento para la secuenciación de extremos por pares sería tres veces la longitud de lectura de la secuencia. En 1995, Roach et al. [8] introdujeron la innovación de usar fragmentos de tamaños variables y demostraron que una estrategia de secuenciación de extremos por pares pura sería posible en objetivos grandes. La estrategia fue posteriormente adoptada por el Instituto de Investigación Genómica (TIGR) para secuenciar el genoma de la bacteria Haemophilus influenzae en 1995, [9] y luego por Celera Genomics para secuenciar el genoma de Drosophila melanogaster (mosca de la fruta) en 2000, [10] y posteriormente el genoma humano.

Acercarse

Para aplicar la estrategia, una cadena de ADN de alto peso molecular se corta en fragmentos aleatorios, se selecciona el tamaño (generalmente 2, 10, 50 y 150 kb) y se clona en un vector apropiado . Luego, los clones se secuencian desde ambos extremos utilizando el método de terminación de cadena, lo que produce dos secuencias cortas. Cada secuencia se denomina lectura final o lectura 1 y lectura 2 , y dos lecturas del mismo clon se conocen como pares de acoplamiento . Dado que el método de terminación de cadena generalmente solo puede producir lecturas de entre 500 y 1000 bases de longitud, en todos los clones, excepto en los más pequeños, los pares de acoplamiento rara vez se superpondrán.

Asamblea

La secuencia original se reconstruye a partir de las lecturas utilizando un software de ensamblaje de secuencias . Primero, las lecturas superpuestas se recopilan en secuencias compuestas más largas conocidas como contigs . Los contigs se pueden unir entre sí en andamiajes siguiendo las conexiones entre pares de apareamiento. La distancia entre contigs se puede inferir a partir de las posiciones de los pares de apareamiento si se conoce la longitud promedio de los fragmentos de la biblioteca y tiene una ventana de desviación estrecha. Dependiendo del tamaño del espacio entre contigs, se pueden utilizar diferentes técnicas para encontrar la secuencia en los espacios. Si el espacio es pequeño (5-20 kb), se requiere el uso de la reacción en cadena de la polimerasa (PCR) para amplificar la región, seguida de la secuenciación. Si el espacio es grande (>20 kb), entonces el fragmento grande se clona en vectores especiales como cromosomas artificiales bacterianos (BAC) seguido de la secuenciación del vector.

Pros y contras

Los defensores de este enfoque sostienen que es posible secuenciar todo el genoma de una sola vez utilizando grandes conjuntos de secuenciadores, lo que hace que todo el proceso sea mucho más eficiente que los enfoques más tradicionales. Los detractores sostienen que, aunque la técnica secuencia rápidamente grandes regiones de ADN, su capacidad para vincular correctamente estas regiones es dudosa, en particular en el caso de genomas eucariotas con regiones repetidas. A medida que los programas de ensamblaje de secuencias se vuelvan más sofisticados y la capacidad de procesamiento se vuelva más barata, es posible que sea posible superar esta limitación. [11]

Cobertura

La cobertura (profundidad de lectura o profundidad) es el número promedio de lecturas que representan un nucleótido dado en la secuencia reconstruida. Se puede calcular a partir de la longitud del genoma original ( G ), el número de lecturas ( N ) y la longitud de lectura promedio ( L ) como . Por ejemplo, un genoma hipotético con 2000 pares de bases reconstruido a partir de 8 lecturas con una longitud promedio de 500 nucleótidos tendrá una redundancia de 2x. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado cobertura). Una alta cobertura en la secuenciación shotgun es deseable porque puede superar errores en la llamada y ensamblaje de bases . El tema de la teoría de la secuenciación de ADN aborda las relaciones de tales cantidades.

A veces se hace una distinción entre cobertura de secuencia y cobertura física . La cobertura de secuencia es el número promedio de veces que se lee una base (como se describió anteriormente). La cobertura física es el número promedio de veces que se lee una base o se la abarca mediante lecturas emparejadas. [12]

Secuenciación jerárquica de escopeta

En la secuenciación shotgun del genoma completo (arriba), el genoma entero se divide aleatoriamente en fragmentos pequeños (de tamaño adecuado para la secuenciación) y luego se vuelve a ensamblar. En la secuenciación shotgun jerárquica (abajo), el genoma primero se divide en segmentos más grandes. Después de deducir el orden de estos segmentos, se dividen nuevamente en fragmentos de tamaño adecuado para la secuenciación.

Aunque la secuenciación shotgun puede aplicarse en teoría a un genoma de cualquier tamaño, su aplicación directa a la secuenciación de genomas grandes (por ejemplo, el genoma humano ) fue limitada hasta finales de la década de 1990, cuando los avances tecnológicos hicieron práctico el manejo de las enormes cantidades de datos complejos involucrados en el proceso. [13] Históricamente, se creía que la secuenciación shotgun de genoma completo estaba limitada tanto por el gran tamaño de los genomas grandes como por la complejidad añadida por el alto porcentaje de ADN repetitivo (más del 50% para el genoma humano) presente en genomas grandes. [14] No se aceptaba ampliamente que una secuenciación shotgun de genoma completo de un genoma grande proporcionaría datos fiables. Por estas razones, se tuvieron que utilizar otras estrategias que redujeran la carga computacional del ensamblaje de secuencias antes de realizar la secuenciación shotgun. [14] En la secuenciación jerárquica, también conocida como secuenciación de arriba hacia abajo, se realiza un mapa físico de baja resolución del genoma antes de la secuenciación real. A partir de este mapa, se selecciona un número mínimo de fragmentos que cubren todo el cromosoma para secuenciar. [15] De esta manera, se requiere la mínima cantidad de secuenciación y ensamblaje de alto rendimiento.

El genoma amplificado se corta primero en trozos más grandes (50-200 kb) y se clona en un huésped bacteriano utilizando BAC o cromosomas artificiales derivados de P1 (PAC). Debido a que se cortaron múltiples copias del genoma al azar, los fragmentos contenidos en estos clones tienen extremos diferentes y, con suficiente cobertura (ver la sección anterior), es teóricamente posible encontrar el andamiaje más pequeño posible de contigs BAC que cubra todo el genoma. Este andamiaje se denomina ruta de mosaico mínima .

Un contig BAC que cubre toda el área genómica de interés constituye la ruta de mosaico.

Una vez que se ha encontrado una ruta de mosaico, los BAC que forman esta ruta se cortan al azar en fragmentos más pequeños y se pueden secuenciar utilizando el método de escopeta en una escala más pequeña. [16]

Aunque no se conocen las secuencias completas de los contigs BAC, se conocen sus orientaciones relativas entre sí. Existen varios métodos para deducir este orden y seleccionar los BAC que forman una ruta de mosaico. La estrategia general implica identificar las posiciones de los clones entre sí y luego seleccionar la menor cantidad de clones necesarios para formar un andamiaje contiguo que cubra toda el área de interés. El orden de los clones se deduce determinando la forma en que se superponen. [17] Los clones superpuestos se pueden identificar de varias formas. Una pequeña sonda marcada radiactiva o químicamente que contiene un sitio etiquetado con secuencia (STS) se puede hibridar en una micromatriz sobre la que se imprimen los clones. [17] De esta manera, se identifican todos los clones que contienen una secuencia particular en el genoma. Luego, se puede secuenciar el extremo de uno de estos clones para producir una nueva sonda y repetir el proceso en un método llamado recorrido cromosómico.

Como alternativa, la biblioteca BAC puede digerirse por restricción . Se infiere que dos clones que tienen varios tamaños de fragmentos en común se superponen porque contienen múltiples sitios de restricción espaciados de manera similar en común. [17] Este método de mapeo genómico se denomina restricción o huella digital BAC porque identifica un conjunto de sitios de restricción contenidos en cada clon. Una vez que se ha encontrado la superposición entre los clones y se conoce su orden relativo al genoma, se realiza una secuenciación por escopeta de un subconjunto mínimo de estos contigs que cubre todo el genoma. [15]

Dado que implica la creación previa de un mapa de baja resolución del genoma, la secuenciación shotgun jerárquica es más lenta que la secuenciación shotgun del genoma completo, pero depende menos de algoritmos informáticos que la secuenciación shotgun del genoma completo. Sin embargo, el proceso de creación extensiva de la biblioteca BAC y la selección de la ruta de mosaico hacen que la secuenciación shotgun jerárquica sea lenta y laboriosa. Ahora que la tecnología está disponible y se ha demostrado la fiabilidad de los datos, [14] la velocidad y la rentabilidad de la secuenciación shotgun del genoma completo la han convertido en el método principal para la secuenciación del genoma.

Nuevas tecnologías de secuenciación

La secuenciación shotgun clásica se basaba en el método de secuenciación de Sanger: esta fue la técnica más avanzada para secuenciar genomas entre 1995 y 2005. La estrategia shotgun todavía se aplica hoy en día, pero se utilizan otras tecnologías de secuenciación, como la secuenciación de lectura corta y la secuenciación de lectura larga .

La secuenciación de lectura corta o de "próxima generación" produce lecturas más cortas (de entre 25 y 500 pb), pero muchos cientos de miles o millones de lecturas en un tiempo relativamente corto (del orden de un día). [18] Esto da como resultado una alta cobertura, pero el proceso de ensamblaje es mucho más intensivo en términos computacionales. Estas tecnologías son muy superiores a la secuenciación de Sanger debido al alto volumen de datos y al tiempo relativamente corto que lleva secuenciar un genoma completo. [19]

Secuenciación metagenómica de escopeta

Tener lecturas de 400-500 pares de bases de longitud es suficiente para determinar la especie o cepa del organismo de donde proviene el ADN, siempre que ya se conozca su genoma, utilizando por ejemplo un software clasificador taxonómico basado en k -meros . Con millones de lecturas de la secuenciación de próxima generación de una muestra ambiental, es posible obtener una visión completa de cualquier microbioma complejo con miles de especies, como la flora intestinal . Las ventajas sobre la secuenciación de amplicones de ARNr 16S son: no estar limitado a bacterias; clasificación a nivel de cepa donde la secuenciación de amplicones solo obtiene el género; y la posibilidad de extraer genes completos y especificar su función como parte del metagenoma. [20] La sensibilidad de la secuenciación metagenómica la convierte en una opción atractiva para el uso clínico . [21] Sin embargo, enfatiza el problema de la contaminación de la muestra o el proceso de secuenciación. [22]

Véase también

Referencias

  1. ^ abc Staden, R. (1979). "Una estrategia de secuenciación de ADN empleando programas informáticos". Nucleic Acids Research . 6 (7): 2601–2610. doi :10.1093/nar/6.7.2601. PMC  327874 . PMID  461197.
  2. ^ Anderson, Stephen (1981). "Secuenciación de ADN shotgun utilizando fragmentos clonados generados por DNasa I". Nucleic Acids Research . 9 (13): 3015–3027. doi :10.1093/nar/9.13.3015. PMC 327328 . PMID  6269069. 
  3. ^ Consorcio Internacional de Secuenciación del Genoma Humano (21 de octubre de 2004). «Terminación de la secuencia eucromática del genoma humano». Nature . 431 (7011): 931–945. Bibcode :2004Natur.431..931H. doi : 10.1038/nature03001 . PMID  15496913.
  4. ^ Gardner, Richard C.; Howarth, Alan J.; Hahn, Peter; Brown-Luedi, Marianne; Shepherd, Robert J.; Messing, Joachim (25 de junio de 1981). "La secuencia completa de nucleótidos de un clon infeccioso del virus del mosaico de la coliflor mediante secuenciación shotgun de M13mp7". Nucleic Acids Research . 9 (12): 2871–2888. doi :10.1093/nar/9.12.2871. ISSN  0305-1048. PMC 326899 . PMID  6269062. 
  5. ^ Doctrow, Brian (19 de julio de 2016). "Perfil de Joachim Messing". Actas de la Academia Nacional de Ciencias . 113 (29): 7935–7937. Bibcode :2016PNAS..113.7935D. doi : 10.1073/pnas.1608857113 . ISSN  0027-8424. PMC 4961156 . PMID  27382176. 
  6. ^ Edwards, Al; Caskey, C. Thomas (agosto de 1991). "Estrategias de cierre para la secuenciación aleatoria de ADN". Métodos . 3 (1): 41–47. doi :10.1016/S1046-2023(05)80162-8.
  7. ^ Edwards, Al; Voss, Hartmut; Arroz, Pedro; Civitello, Andrés; Stegemann, Josef; Schwager, cristiano; Zimmermann, Jürgen; Erfle, Holger; Caskey, C. Thomas; Ansorge, Wilhelm (abril de 1990). "Secuenciación automatizada de ADN del locus HPRT humano". Genómica . 6 (4): 593–608. doi :10.1016/0888-7543(90)90493-E. PMID  2341149.
  8. ^ Roach, Jared C.; Boysen, Cecilie; Wang, Kai; Hood, Leroy (marzo de 1995). "Secuenciación de extremos por pares: un enfoque unificado para el mapeo y la secuenciación genómica". Genomics . 26 (2): 345–353. doi :10.1016/0888-7543(95)80219-C. PMID  7601461.
  9. ^ Fleischmann, RD; et al. (1995). "Secuenciación aleatoria de todo el genoma y ensamblaje de Haemophilus influenzae Rd". Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID  7542800. S2CID  10423613.
  10. ^ Adams, MD; et al. (2000). "La secuencia del genoma de Drosophila melanogaster" (PDF) . Science . 287 (5461): 2185–95. Bibcode :2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 . doi :10.1126/science.287.5461.2185. PMID  10731132. Archivado desde el original (PDF) el 22 de julio de 2018 . Consultado el 25 de octubre de 2017 . 
  11. ^ Pop, Mihai; Salzberg, Steven L. (marzo de 2008). "Desafíos bioinformáticos de la nueva tecnología de secuenciación". Tendencias en genética . 24 (3): 142–149. doi :10.1016/j.tig.2007.12.006. ISSN  0168-9525. PMC 2680276 . PMID  18262676. 
  12. ^ Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Avances en la comprensión de los genomas del cáncer mediante la secuenciación de segunda generación". Nature Reviews Genetics . 11 (10): 685–696. doi :10.1038/nrg2841. PMID  20847746. S2CID  2544266.
  13. ^ Dunham, Ian (9 de septiembre de 2005). "Secuenciación del genoma". Enciclopedia de ciencias de la vida . doi :10.1038/npg.els.0005378. ISBN 978-0-470-01617-6.
  14. ^ abc Venter, J Craig (9 de septiembre de 2005). "Shotgunning the Human Genome: A Personal View" (Aproximación del genoma humano: una visión personal). Enciclopedia de ciencias de la vida . doi :10.1038/npg.els.0005850. ISBN 978-0-470-01617-6.
  15. ^ ab Gibson, G. y Muse, SV Una introducción a la ciencia del genoma . 3.ª ed., pág. 84
  16. ^ Bozdag, Serdar; Close, Timothy J.; Lonardi, Stefano (marzo de 2013). "Un enfoque teórico de grafos para la selección de la ruta mínima de teselación a partir de un mapa físico". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 10 (2): 352–360. doi :10.1109/tcbb.2013.26. ISSN  1545-5963. PMID  23929859.
  17. ^ abc Estimado, Paul H (9 de septiembre de 2005). "Mapeo del genoma". Enciclopedia de ciencias de la vida . doi :10.1038/npg.els.0005353. ISBN 978-0-470-01617-6.
  18. ^ Voelkerding, Karl V; Dames, Shale A; Durtschi, Jacob D (1 de abril de 2009). "Secuenciación de próxima generación: de la investigación básica al diagnóstico". Química clínica . 55 (4): 641–658. doi : 10.1373/clinchem.2008.112789 . PMID  19246620.
  19. ^ Metzker, Michael L. (enero de 2010). "Tecnologías de secuenciación: la próxima generación". Nature Reviews Genetics . 11 (1): 31–46. CiteSeerX 10.1.1.719.3885 . doi :10.1038/nrg2626. PMID  19997069. S2CID  205484500. 
  20. ^ Roumpeka, Despoina D.; Wallace, R. John; Escalettes, Frank; Fotheringham, Ian; Watson, Mick (6 de marzo de 2017). "Una revisión de las herramientas bioinformáticas para la bioprospección a partir de datos de secuencias metagenómicas". Frontiers in Genetics . 8 : 23. doi : 10.3389/fgene.2017.00023 . PMC 5337752 . PMID  28321234. 
  21. ^ Gu, Wei; Miller, Steve; Chiu, Charles Y. (24 de enero de 2019). "Secuenciación de próxima generación metagenómica clínica para la detección de patógenos". Revisión anual de patología: mecanismos de la enfermedad . 14 (1): 319–338. doi :10.1146/annurev-pathmechdis-012418-012751. PMC 6345613 . PMID  30355154. 
  22. ^ Thoendel, Matthew; Jeraldo, Patricio; Greenwood-Quaintance, Kerryl E.; Yao, Janet; Chia, Nicholas; Hanssen, Arlen D.; Abdel, Matthew P.; Patel, Robin (junio de 2017). "Impacto del ADN contaminante en kits de amplificación de genoma completo utilizados para la secuenciación metagenómica shotgun para el diagnóstico de infecciones". Journal of Clinical Microbiology . 55 (6): 1789–1801. doi :10.1128/JCM.02402-16. PMC 5442535 . PMID  28356418. 

Lectura adicional

Enlaces externos

Dominio público Este artículo incorpora material de dominio público del Manual del NCBI. Centro Nacional de Información Biotecnológica .