stringtranslate.com

Contig

Un contig (de contiguo ) es un conjunto de segmentos de ADN superpuestos que juntos representan una región de consenso del ADN . [1] En proyectos de secuenciación ascendente , un contig se refiere a datos de secuencia superpuestos ( lecturas ); [2] en proyectos de secuenciación de arriba hacia abajo , contig se refiere a los clones superpuestos que forman un mapa físico del genoma que se utiliza para guiar la secuenciación y el ensamblaje . [3] Por lo tanto, los contigs pueden referirse tanto a secuencias de ADN superpuestas como a segmentos físicos (fragmentos) superpuestos contenidos en clones según el contexto.

Definición original de contig

En 1980, Staden [4] escribió: Para que sea más fácil hablar de los datos obtenidos mediante el método de secuenciación de escopeta, hemos inventado la palabra "contig". Un contig es un conjunto de lecturas de gel que están relacionadas entre sí mediante la superposición de sus secuencias. Todas las lecturas de gel pertenecen a un solo cóntig, y cada cóntig contiene al menos una lectura de gel. Las lecturas del gel en un contig se pueden sumar para formar una secuencia consenso contigua y la longitud de esta secuencia es la longitud del contig.

Secuencia contigs

Una secuencia contig es una secuencia continua (no contigua) resultante del reensamblaje de pequeños fragmentos de ADN generados mediante estrategias de secuenciación ascendente . Este significado de contig es consistente con la definición original de Rodger Staden (1979). [5] La estrategia de secuenciación de ADN ascendente implica cortar el ADN genómico en muchos fragmentos pequeños ("abajo"), secuenciar estos fragmentos, volver a ensamblarlos en contigs y, finalmente, el genoma completo ("arriba"). Debido a que la tecnología actual sólo permite la secuenciación directa de fragmentos de ADN relativamente cortos (300 a 1000 nucleótidos), el ADN genómico debe fragmentarse en fragmentos pequeños antes de la secuenciación. [6] En proyectos de secuenciación ascendente, el ADN amplificado se corta aleatoriamente en fragmentos del tamaño adecuado para la secuenciación. Las lecturas de secuencia posteriores, que son los datos que contienen las secuencias de los fragmentos pequeños, se colocan en una base de datos. El software de ensamblaje [6] luego busca en esta base de datos pares de lecturas superpuestas. El ensamblaje de las lecturas de dicho par (incluida, por supuesto, solo una copia de la secuencia idéntica) produce una lectura contigua más larga (contig) de ADN secuenciado. Repitiendo este proceso muchas veces, al principio con los pares iniciales cortos de lecturas pero luego usando pares cada vez más largos que son el resultado de un ensamblaje previo, se puede determinar la secuencia de ADN de un cromosoma completo.

Lecturas superpuestas de contigs de secuenciación de extremos emparejados; los contigs y los espacios de longitud conocida forman andamios.

Hoy en día, es común utilizar tecnología de secuenciación de extremos pares en la que se secuencian ambos extremos de fragmentos de ADN más largos y de tamaño constante . Aquí, un contig todavía se refiere a cualquier tramo contiguo de datos de secuencia creados por superposición de lectura. Debido a que los fragmentos tienen una longitud conocida, se conoce la distancia entre las dos lecturas finales de cada fragmento. [7] Esto brinda información adicional sobre la orientación de los contigs construidos a partir de estas lecturas y permite su ensamblaje en andamios en un proceso llamado andamiaje .

Los andamios consisten en contigs superpuestos separados por espacios de longitud conocida. Las nuevas limitaciones impuestas a la orientación de los cóntigs permiten la colocación de secuencias muy repetidas en el genoma. Si un extremo leído tiene una secuencia repetitiva, siempre que su par compañero esté ubicado dentro de un contig, se conoce su ubicación. [7] Los espacios restantes entre los contigs en los armazones se pueden secuenciar mediante una variedad de métodos, incluida la amplificación por PCR seguida de secuenciación (para espacios más pequeños) y métodos de clonación BAC seguidos de secuenciación para espacios más grandes. [2]

BAC contigs

Contig también puede referirse a los clones superpuestos que forman un mapa físico de un cromosoma cuando se utiliza la estrategia de secuenciación jerárquica o de arriba hacia abajo . [1] En este método de secuenciación, se crea un mapa de baja resolución antes de la secuenciación para proporcionar un marco que oriente el ensamblaje posterior de las lecturas de secuencia del genoma. Este mapa identifica las posiciones relativas y la superposición de los clones utilizados para la secuenciación. Los conjuntos de clones superpuestos que forman un tramo contiguo de ADN se denominan cóntigos; el número mínimo de clones que forman un cóntig que cubre todo el cromosoma comprende la ruta de mosaico que se utiliza para la secuenciación. Una vez que se ha seleccionado una ruta de mosaico, los BAC que la componen se cortan en fragmentos más pequeños y se secuencian. Por tanto, los contigs proporcionan el marco para la secuenciación jerárquica. [3]

El montaje de un mapa contig implica varios pasos. En primer lugar, el ADN se corta en trozos más grandes (de 50 a 200 kb), que se clonan en BAC o PAC para formar una biblioteca de BAC . Dado que estos clones deberían cubrir todo el genoma/cromosoma, es teóricamente posible ensamblar un contig de BAC que cubra todo el cromosoma. [1] La realidad, sin embargo, no siempre es ideal. A menudo quedan lagunas, y el primer resultado suele ser un andamiaje (que consta de contigs y lagunas) que cubre la región del mapa. [1] Las brechas entre contigs se pueden cerrar mediante varios métodos que se describen a continuación.

Construcción de contigs BAC.

Los contigs BAC se construyen alineando regiones BAC de superposición conocida mediante una variedad de métodos. Una estrategia común es utilizar el mapeo de contenido de sitios etiquetados con secuencias (STS) para detectar sitios de ADN únicos en común entre BAC. El grado de superposición se estima aproximadamente por el número de marcadores STS en común entre dos clones, donde más marcadores en común significa una mayor superposición. [2] Debido a que esta estrategia proporciona sólo una estimación muy aproximada de la superposición, a menudo se utiliza el análisis de fragmentos de resumen de restricción , que proporciona una medición más precisa de la superposición de clones. [2] En esta estrategia, los clones se tratan con una o dos enzimas de restricción y los fragmentos resultantes se separan mediante electroforesis en gel . Si se trata de dos clones, probablemente tendrán sitios de restricción en común y, por tanto, compartirán varios fragmentos. [3] Debido a que se conoce el número de fragmentos en común y la longitud de estos fragmentos (la longitud se juzga en comparación con un tamaño estándar), el grado de superposición se puede deducir con un alto grado de precisión.

Brechas entre contigs

A menudo quedan brechas después de la construcción inicial del contig BAC. Estas brechas ocurren si la biblioteca de cromosomas artificiales bacterianos (BAC) analizada tiene baja complejidad, lo que significa que no contiene una gran cantidad de STS o sitios de restricción, o si ciertas regiones eran menos estables en los huéspedes de clonación y, por lo tanto, estaban subrepresentadas en la biblioteca. [1] Si quedan espacios entre los contigs después de realizar el mapeo de puntos de referencia STS y la toma de huellas dactilares de restricción, la secuenciación de los extremos de los contiges se puede utilizar para cerrar estos espacios. Esta estrategia de secuenciación final esencialmente crea un STS novedoso con el cual examinar los otros contigs. Alternativamente, la secuencia final de un cóntig se puede utilizar como cebador para que el cebador cruce el espacio. [2]

Ver también

Referencias

  1. ^ abcde Gregory, Asamblea S. Contig . Enciclopedia de ciencias biológicas, 2005.
  2. ^ abcde Gibson, Greg; Musa, Spencer V. (2009). Introducción a la ciencia del genoma (3ª ed.). Asociados Sinauer. pag. 84.ISBN​ 978-0-878-93236-8.
  3. ^ abc Estimado, Mapeo del genoma de PH . Enciclopedia de ciencias biológicas, 2005. doi :10.1038/npg.els.0005353.
  4. ^ Staden, R (1980). "Un nuevo método informático para el almacenamiento y manipulación de datos de lectura de geles de ADN". Investigación de ácidos nucleicos . 8 (16): 3673–3694. doi :10.1093/nar/8.16.3673. PMC 324183 . PMID  7433103. 
  5. ^ Staden R (1979). "Una estrategia de secuenciación de ADN empleando programas informáticos". Investigación de ácidos nucleicos . 6 (7): 2601–2610. doi :10.1093/nar/6.7.2601. PMC 327874 . PMID  461197. 
  6. ^ ab Dunham, I. Secuenciación del genoma . Enciclopedia de ciencias biológicas, 2005.
  7. ^ ab Fullwood MJ, Wei C, Liu ET, et al. (2009). "Secuenciación de ADN de próxima generación de etiquetas de extremos pares (PET) para análisis de transcriptoma y genoma". Investigación del genoma . 19 (4): 521–532. doi :10.1101/gr.074906.107. PMC 3807531 . PMID  19339662. 

enlaces externos