En genética , la secuenciación escopeta es un método utilizado para secuenciar hebras de ADN aleatorias . Se denomina así por analogía con la agrupación de disparos casi aleatoria y en rápida expansión de una escopeta .
El método de secuenciación de ADN por terminación de cadena ("secuenciación de Sanger") sólo se puede utilizar para cadenas cortas de ADN de 100 a 1000 pares de bases . Debido a este límite de tamaño, las secuencias más largas se subdividen en fragmentos más pequeños que se pueden secuenciar por separado y estas secuencias se ensamblan para dar la secuencia general.
En la secuenciación escopeta, [1] [2] el ADN se divide aleatoriamente en numerosos segmentos pequeños, que se secuencian utilizando el método de terminación de cadena para obtener lecturas . Se obtienen múltiples lecturas superpuestas para el ADN objetivo realizando varias rondas de esta fragmentación y secuenciación. Luego, los programas de computadora utilizan los extremos superpuestos de diferentes lecturas para ensamblarlas en una secuencia continua. [1]
La secuenciación por escopeta fue una de las tecnologías precursoras responsables de permitir la secuenciación completa del genoma .
Por ejemplo, considere las siguientes dos rondas de lecturas de escopeta:
En este ejemplo extremadamente simplificado, ninguna de las lecturas cubre la longitud completa de la secuencia original, pero las cuatro lecturas se pueden ensamblar en la secuencia original utilizando la superposición de sus extremos para alinearlas y ordenarlas. En realidad, este proceso utiliza enormes cantidades de información plagada de ambigüedades y errores de secuenciación. El ensamblaje de genomas complejos se complica además por la gran abundancia de secuencias repetitivas , lo que significa que lecturas cortas similares podrían provenir de partes completamente diferentes de la secuencia.
Se necesitan muchas lecturas superpuestas para cada segmento del ADN original para superar estas dificultades y ensamblar la secuencia con precisión. Por ejemplo, para completar el Proyecto Genoma Humano , la mayor parte del genoma humano fue secuenciado con una cobertura 12X o mayor ; es decir, cada base en la secuencia final estuvo presente en promedio en 12 lecturas diferentes. Aun así, los métodos actuales no han logrado aislar o ensamblar una secuencia confiable para aproximadamente el 1% del genoma humano ( eucromático ), a partir de 2004. [3]
La secuenciación rápida del genoma completo para genomas pequeños (de 4000 a 7000 pares de bases) se sugirió por primera vez en 1979. [1] El primer genoma secuenciado mediante secuenciación rápida fue el del virus del mosaico de la coliflor , publicado en 1981. [4] [5]
Una aplicación más amplia se benefició de la secuenciación de extremos por pares , conocida coloquialmente como secuenciación de escopeta de doble cañón . A medida que los proyectos de secuenciación comenzaron a abordar secuencias de ADN más largas y complicadas, múltiples grupos comenzaron a darse cuenta de que se podía obtener información útil secuenciando ambos extremos de un fragmento de ADN. Aunque secuenciar ambos extremos del mismo fragmento y realizar un seguimiento de los datos emparejados era más engorroso que secuenciar un solo extremo de dos fragmentos distintos, el conocimiento de que las dos secuencias estaban orientadas en direcciones opuestas y estaban separadas por la longitud de un fragmento entre sí otro fue valioso para reconstruir la secuencia del fragmento objetivo original.
Historia . La primera descripción publicada del uso de extremos emparejados fue en 1990 [6] como parte de la secuenciación del locus HGPRT humano , aunque el uso de extremos emparejados se limitó a cerrar espacios después de la aplicación de un enfoque de secuenciación tradicional. La primera descripción teórica de una estrategia pura de secuenciación de extremos por pares, asumiendo fragmentos de longitud constante, fue en 1991. [7] En ese momento, había consenso en la comunidad de que la longitud óptima del fragmento para la secuenciación de extremos por pares sería tres veces la longitud de lectura de la secuencia. . En 1995 Roach et al. [8] introdujo la innovación de utilizar fragmentos de diferentes tamaños y demostró que una estrategia pura de secuenciación final por pares sería posible en objetivos grandes. La estrategia fue adoptada posteriormente por el Instituto de Investigación Genómica (TIGR) para secuenciar el genoma de la bacteria Haemophilus influenzae en 1995, [9] y luego por Celera Genomics para secuenciar el genoma de Drosophila melanogaster (mosca de la fruta) en 2000, [10]. y posteriormente el genoma humano.
Para aplicar la estrategia, una cadena de ADN de alto peso molecular se corta en fragmentos aleatorios, se seleccionan por tamaño (generalmente 2, 10, 50 y 150 kb) y se clona en un vector apropiado . Luego, los clones se secuencian desde ambos extremos utilizando el método de terminación de cadena, lo que produce dos secuencias cortas. Cada secuencia se denomina lectura final o lectura 1 y lectura 2, y dos lecturas del mismo clon se denominan pares de pareja . Dado que el método de terminación de cadena generalmente solo puede producir lecturas de entre 500 y 1000 bases de largo, en todos los clones, excepto en los más pequeños, los pares de parejas rara vez se superpondrán.
La secuencia original se reconstruye a partir de las lecturas utilizando un software de ensamblaje de secuencias . En primer lugar, las lecturas superpuestas se recopilan en secuencias compuestas más largas conocidas como contigs . Los contigs se pueden unir entre sí en andamios siguiendo las conexiones entre pares de compañeros. La distancia entre contigs se puede inferir a partir de las posiciones de los pares de pareja si se conoce la longitud promedio de los fragmentos de la biblioteca y tiene una ventana de desviación estrecha. Dependiendo del tamaño del espacio entre contigs, se pueden utilizar diferentes técnicas para encontrar la secuencia en los espacios. Si la brecha es pequeña (5-20 kb), entonces se requiere el uso de la reacción en cadena de la polimerasa (PCR) para amplificar la región, seguido de la secuenciación. Si la brecha es grande (>20 kb), entonces el fragmento grande se clona en vectores especiales, como cromosomas artificiales bacterianos (BAC), seguido de la secuenciación del vector.
Los defensores de este enfoque argumentan que es posible secuenciar todo el genoma a la vez utilizando grandes conjuntos de secuenciadores, lo que hace que todo el proceso sea mucho más eficiente que los enfoques más tradicionales. Los detractores argumentan que aunque la técnica secuencia rápidamente grandes regiones de ADN, su capacidad para vincular correctamente estas regiones es sospechosa, particularmente en el caso de genomas eucariotas con regiones repetidas. A medida que los programas de ensamblaje de secuencias se vuelven más sofisticados y la potencia de cálculo se vuelve más barata, es posible que se supere esta limitación. [11]
La cobertura (profundidad de lectura o profundidad) es el número promedio de lecturas que representan un nucleótido determinado en la secuencia reconstruida. Se puede calcular a partir de la longitud del genoma original ( G ), el número de lecturas ( N ) y la longitud promedio de lectura ( L ) como . Por ejemplo, un genoma hipotético con 2000 pares de bases reconstruido a partir de 8 lecturas con una longitud promedio de 500 nucleótidos tendrá una redundancia 2x. Este parámetro también permite estimar otras cantidades, como el porcentaje del genoma cubierto por lecturas (a veces también llamado cobertura). Se desea una alta cobertura en la secuenciación de escopetas porque puede superar errores en la llamada y el ensamblaje de bases. El tema de la teoría de la secuenciación del ADN aborda las relaciones de tales cantidades.
A veces se hace una distinción entre cobertura secuencial y cobertura física . La cobertura de secuencia es el número promedio de veces que se lee una base (como se describe anteriormente). La cobertura física es el número promedio de veces que se lee o abarca una base mediante lecturas de pares pares. [12]
Aunque en teoría la secuenciación directa puede aplicarse a un genoma de cualquier tamaño, su aplicación directa a la secuenciación de genomas grandes (por ejemplo, el genoma humano ) estuvo limitada hasta finales de los años 1990, cuando los avances tecnológicos hicieron práctico el manejo de grandes cantidades. de datos complejos involucrados en el proceso. [13] Históricamente, se creía que la secuenciación escopeta del genoma completo estaba limitada tanto por el tamaño de los genomas grandes como por la complejidad agregada por el alto porcentaje de ADN repetitivo (más del 50% para el genoma humano) presente en genomas grandes. [14] No fue ampliamente aceptado que una secuencia de escopeta del genoma completo de un genoma grande proporcionaría datos confiables. Por estas razones, se tuvieron que utilizar otras estrategias que redujeron la carga computacional del ensamblaje de la secuencia antes de realizar la secuenciación tipo shotgun. [14] En la secuenciación jerárquica, también conocida como secuenciación de arriba hacia abajo, se crea un mapa físico de baja resolución del genoma antes de la secuenciación real. A partir de este mapa se selecciona para la secuenciación un número mínimo de fragmentos que cubren todo el cromosoma. [15] De esta manera, se requiere la cantidad mínima de secuenciación y ensamblaje de alto rendimiento.
El genoma amplificado primero se corta en pedazos más grandes (50-200 kb) y se clona en un huésped bacteriano utilizando BAC o cromosomas artificiales derivados de P1 (PAC). Debido a que se han cortado al azar múltiples copias del genoma, los fragmentos contenidos en estos clones tienen extremos diferentes y, con suficiente cobertura (consulte la sección anterior), es teóricamente posible encontrar la estructura más pequeña posible de contigs BAC que cubra todo el genoma. Este andamio se denomina ruta de mosaico mínimo .
Una vez que se ha encontrado un camino en mosaico, los BAC que forman este camino se cortan al azar en fragmentos más pequeños y se pueden secuenciar utilizando el método de escopeta en una escala más pequeña. [16]
Aunque se desconocen las secuencias completas de los cóntigs BAC, se conocen sus orientaciones entre sí. Existen varios métodos para deducir este orden y seleccionar los BAC que componen una ruta de mosaico. La estrategia general implica identificar las posiciones de los clones entre sí y luego seleccionar la menor cantidad de clones necesarios para formar un andamio contiguo que cubra toda el área de interés. El orden de los clones se deduce determinando la forma en que se superponen. [17] Los clones superpuestos se pueden identificar de varias maneras. Una pequeña sonda marcada química o radiactivamente que contiene un sitio marcado con secuencia (STS) se puede hibridar en una micromatriz en la que se imprimen los clones. [17] De esta manera, se identifican todos los clones que contienen una secuencia particular en el genoma. Luego se puede secuenciar el extremo de uno de estos clones para producir una nueva sonda y repetir el proceso mediante un método llamado recorrido cromosómico.
Alternativamente, la biblioteca BAC se puede digerir mediante restricción . Se infiere que dos clones que tienen varios tamaños de fragmentos en común se superponen porque contienen múltiples sitios de restricción espaciados de manera similar en común. [17] Este método de mapeo genómico se llama restricción o huella digital BAC porque identifica un conjunto de sitios de restricción contenidos en cada clon. Una vez que se ha encontrado la superposición entre los clones y se ha conocido su orden en relación con el genoma, se secuencia un armazón de un subconjunto mínimo de estos contigs que cubre todo el genoma. [15]
Debido a que implica crear primero un mapa de baja resolución del genoma, la secuenciación jerárquica de escopeta es más lenta que la secuenciación de escopeta de todo el genoma, pero depende menos de algoritmos informáticos que la secuenciación de escopeta de todo el genoma. Sin embargo, el proceso de creación extensa de la biblioteca BAC y selección de rutas de mosaico hace que la secuenciación jerárquica de escopeta sea lenta y requiera mucha mano de obra. Ahora que la tecnología está disponible y la confiabilidad de los datos está demostrada, [14] la velocidad y la rentabilidad de la secuenciación rápida del genoma completo la han convertido en el método principal para la secuenciación del genoma.
La secuenciación clásica se basó en el método de secuenciación de Sanger: esta fue la técnica más avanzada para secuenciar genomas aproximadamente entre 1995 y 2005. La estrategia de escopeta todavía se aplica hoy en día, aunque se utilizan otras tecnologías de secuenciación, como la secuenciación de lectura corta y la secuenciación de lectura larga .
La secuenciación de lectura corta o de "próxima generación" produce lecturas más cortas (entre 25 y 500 pb), pero muchos cientos de miles o millones de lecturas en un tiempo relativamente corto (del orden de un día). [18] Esto da como resultado una alta cobertura, pero el proceso de ensamblaje es mucho más intensivo desde el punto de vista computacional. Estas tecnologías son muy superiores a la secuenciación de Sanger debido al gran volumen de datos y al tiempo relativamente corto que lleva secuenciar un genoma completo. [19]
Tener lecturas de 400-500 pares de bases de longitud es suficiente para determinar la especie o cepa del organismo de donde proviene el ADN, siempre que su genoma ya sea conocido, utilizando, por ejemplo, un software clasificador taxonómico basado en k -mer . Con millones de lecturas de secuenciación de próxima generación de una muestra ambiental, es posible obtener una descripción completa de cualquier microbioma complejo con miles de especies, como la flora intestinal . Las ventajas sobre la secuenciación del amplicón de ARNr 16S son: no limitarse a bacterias; clasificación a nivel de cepa donde la secuenciación de amplicones solo obtiene el género; y la posibilidad de extraer genes completos y especificar su función como parte del metagenoma. [20] La sensibilidad de la secuenciación metagenómica la convierte en una opción atractiva para uso clínico . [21] Sin embargo, enfatiza el problema de la contaminación de la muestra o del proceso de secuenciación. [22]
Este artículo incorpora material de dominio público del Manual NCBI. Centro Nacional de Información Biotecnológica .