stringtranslate.com

Ensamblaje de secuencias

En bioinformática , el ensamblaje de secuencias se refiere a la alineación y fusión de fragmentos de una secuencia de ADN más larga para reconstruir la secuencia original. [1] Esto es necesario ya que la tecnología de secuenciación de ADN podría no ser capaz de "leer" genomas completos de una sola vez, sino que lee pequeños fragmentos de entre 20 y 30.000 bases, dependiendo de la tecnología utilizada. [1] Por lo general, los fragmentos cortos (lecturas) resultan de la secuenciación shotgun de ADN genómico o transcripción genética ( EST ). [1]

El problema de ensamblar secuencias puede compararse con tomar muchas copias de un libro, pasar cada una de ellas por una trituradora con un cortador diferente y volver a unir el texto del libro con solo mirar los trozos triturados. Además de la dificultad obvia de esta tarea, existen algunos problemas prácticos adicionales: el original puede tener muchos párrafos repetidos y algunos fragmentos pueden modificarse durante la trituración para que tengan errores tipográficos. También pueden agregarse extractos de otro libro y algunos fragmentos pueden ser completamente irreconocibles.

Tipos

Tipos de ensamblaje de secuencias

Hay tres enfoques para recopilar datos de secuenciación:

  1. De novo: ensamblaje de lecturas de secuenciación para crear secuencias de longitud completa (a veces novedosas), sin utilizar una plantilla (ver ensambladores de secuencias de novo , ensamblaje de transcriptomas de novo ) [2]
  2. Mapeo/Alineación: ensamblar lecturas alineándolas con una plantilla (también conocida como referencia). El consenso ensamblado puede no ser idéntico a la plantilla.
  3. Guiado por referencia: agrupación de lecturas por similitud con la región más similar dentro de la referencia (mapeo por pasos). Las lecturas dentro de cada grupo se acortan para imitar la calidad de las lecturas cortas. Un método típico para hacerlo es el enfoque k-mer . El ensamblaje guiado por referencia es más útil cuando se utilizan lecturas largas . [3]

El ensamblaje guiado por referencia es una combinación de los otros tipos. Este tipo se aplica en lecturas largas para imitar las ventajas de las lecturas cortas (es decir, la calidad de la llamada). La lógica detrás de esto es agrupar las lecturas en ventanas más pequeñas dentro de la referencia. Las lecturas en cada grupo se reducirán en tamaño utilizando el enfoque k-mere para seleccionar la de mayor calidad y la más probable contigua (contig). Luego, los contigs se unirán para crear un andamiaje. El sentido final se logra cerrando los espacios en el andamiaje.

Asambleas

Genoma

Los primeros ensambladores de secuencias comenzaron a aparecer a finales de los años 1980 y principios de los años 1990 como variantes de programas de alineamiento de secuencias más simples para unir grandes cantidades de fragmentos generados por instrumentos de secuenciación automática llamados secuenciadores de ADN . [2] A medida que los organismos secuenciados crecieron en tamaño y complejidad (desde pequeños virus hasta plásmidos, bacterias y finalmente eucariotas ), los programas de ensamblaje utilizados en estos proyectos genómicos necesitaban estrategias cada vez más sofisticadas para manejar:

Ante el desafío de ensamblar los primeros genomas eucariotas más grandes (la mosca de la fruta Drosophila melanogaster en 2000 y el genoma humano solo un año después), los científicos desarrollaron ensambladores como Celera Assembler [4] y Arachne [5] capaces de manejar genomas de 130 millones (por ejemplo, la mosca de la fruta D. melanogaster ) a 3 mil millones (por ejemplo, el genoma humano) de pares de bases. Después de estos esfuerzos, varios otros grupos, principalmente en los principales centros de secuenciación de genomas, construyeron ensambladores a gran escala, y se lanzó un esfuerzo de código abierto conocido como AMOS [6] para reunir todas las innovaciones en tecnología de ensamblaje de genomas bajo el marco de código abierto .

Estrategia que seguiría un ensamblador de secuencias para tomar fragmentos (mostrados debajo de la barra negra) y hacer coincidir las superposiciones entre ellos para ensamblar la secuencia final (en negro). Las repeticiones potencialmente problemáticas se muestran encima de la secuencia (en rosa arriba). Sin fragmentos superpuestos, puede resultar imposible asignar estos segmentos a una región específica.

EST

La etiqueta de secuencia expresada o ensamblaje EST fue una estrategia temprana, que data de mediados de la década de 1990 a mediados de la década de 2000, para ensamblar genes individuales en lugar de genomas completos. [7] El problema difiere del ensamblaje del genoma en varias formas. Las secuencias de entrada para el ensamblaje EST son fragmentos del ARNm transcrito de una célula y representan solo un subconjunto de todo el genoma. [7] Una serie de problemas algorítmicos difieren entre el ensamblaje del genoma y EST. Por ejemplo, los genomas a menudo tienen grandes cantidades de secuencias repetitivas, concentradas en las regiones intergénicas. Los genes transcritos contienen muchas menos repeticiones, lo que hace que el ensamblaje sea algo más fácil. Por otro lado, algunos genes se expresan (transcriben) en cantidades muy altas (por ejemplo, genes de mantenimiento ), lo que significa que, a diferencia de la secuenciación shotgun del genoma completo, las lecturas no se muestrean uniformemente en todo el genoma.

El ensamblaje de EST se vuelve mucho más complicado por características como el empalme alternativo (cis) , el empalme trans , el polimorfismo de un solo nucleótido y la modificación postranscripcional . A partir de 2008, cuando se inventó el ARN-Seq , la secuenciación de EST fue reemplazada por esta tecnología mucho más eficiente, descrita en el ensamblaje del transcriptoma de novo .

Ensamblaje de novo vs. ensamblaje de mapeo

En términos de complejidad y requisitos de tiempo, los ensamblajes de novo son órdenes de magnitud más lentos y consumen más memoria que los ensamblajes de mapeo. Esto se debe principalmente al hecho de que el algoritmo de ensamblaje necesita comparar cada lectura con cada una de las otras lecturas (una operación que tiene una complejidad temporal ingenua de O( n 2 )). Los ensambladores de genomas de novo actuales pueden utilizar diferentes tipos de algoritmos basados ​​en grafos, como: [8]

En referencia a la comparación que se hace con los libros destrozados en la introducción: mientras que para los ensamblajes de mapas se tendría un libro muy similar como plantilla (quizás con los nombres de los personajes principales y algunas ubicaciones modificadas), los ensamblajes de novo presentan un desafío más abrumador, ya que no se sabría de antemano si se convertiría en un libro de ciencia, una novela, un catálogo o incluso varios libros. Además, cada fragmento se compararía con todos los demás fragmentos.

El manejo de repeticiones en un ensamblaje de novo requiere la construcción de un gráfico que represente las repeticiones vecinas. Esta información se puede obtener leyendo un fragmento largo que cubra las repeticiones en su totalidad o solo sus dos extremos . Por otro lado, en un ensamblaje de mapeo, las partes con múltiples coincidencias o sin coincidencias generalmente se dejan para que las examine otra técnica de ensamblaje. [3]

Avances tecnológicos

La complejidad del ensamblaje de secuencias depende de dos factores principales: la cantidad de fragmentos y sus longitudes. Si bien la cantidad de fragmentos y la longitud de los mismos permiten una mejor identificación de las superposiciones de secuencias, también plantean problemas, ya que los algoritmos subyacentes muestran un comportamiento de complejidad cuadrática o incluso exponencial tanto en relación con la cantidad de fragmentos como con su longitud. Y si bien las secuencias más cortas son más rápidas de alinear, también complican la fase de diseño de un ensamblaje, ya que las lecturas más cortas son más difíciles de usar con repeticiones o repeticiones casi idénticas.

En los primeros tiempos de la secuenciación del ADN, los científicos sólo podían obtener unas pocas secuencias de longitud corta (unas docenas de bases) tras semanas de trabajo en laboratorios. Por lo tanto, estas secuencias podían alinearse en unos minutos a mano.

En 1975 se inventó el método de terminación didesoxi (también conocido como secuenciación de Sanger ) y hasta poco después de 2000, la tecnología se mejoró hasta un punto en el que máquinas totalmente automatizadas podían generar secuencias en un modo altamente paralelizado las 24 horas del día. Grandes centros genómicos de todo el mundo albergaban granjas completas de estas máquinas de secuenciación, lo que a su vez llevó a la necesidad de que los ensambladores estuvieran optimizados para secuencias de proyectos de secuenciación shotgun de genoma completo donde las lecturas

Con la tecnología de Sanger, se podían reunir fácilmente en una sola computadora proyectos bacterianos con entre 20.000 y 200.000 lecturas. Los proyectos más grandes, como el genoma humano con aproximadamente 35 millones de lecturas, necesitaban grandes granjas de computación y computación distribuida.

En 2004/2005, la pirosecuenciación había alcanzado viabilidad comercial gracias a 454 Life Sciences . [9] Este nuevo método de secuenciación generó lecturas mucho más cortas que las de la secuenciación Sanger: inicialmente alrededor de 100 bases, ahora 400-500 bases. [9] Su rendimiento mucho mayor y su menor costo (en comparación con la secuenciación Sanger) impulsaron la adopción de esta tecnología por parte de los centros de genoma, lo que a su vez impulsó el desarrollo de ensambladores de secuencias que pudieran manejar eficientemente los conjuntos de lecturas. La gran cantidad de datos, junto con los patrones de error específicos de la tecnología en las lecturas, retrasaron el desarrollo de ensambladores; a principios de 2004, solo estaba disponible el ensamblador Newbler de 454. Lanzada a mediados de 2007, la versión híbrida del ensamblador MIRA de Chevreux et al. [10] fue el primer ensamblador disponible gratuitamente que podía ensamblar lecturas 454, así como mezclas de lecturas 454 y lecturas Sanger. El ensamblaje de secuencias de diferentes tecnologías de secuenciación se denominó posteriormente ensamblaje híbrido . [10]

Desde 2006, la tecnología Illumina (anteriormente Solexa) está disponible y puede generar alrededor de 100 millones de lecturas por ejecución en una sola máquina de secuenciación. Compárese esto con los 35 millones de lecturas del proyecto del genoma humano, que necesitaron varios años para producirse en cientos de máquinas de secuenciación. [11] Illumina inicialmente estaba limitada a una longitud de solo 36 bases, lo que la hacía menos adecuada para el ensamblaje de novo (como el ensamblaje de transcriptoma de novo ), pero las iteraciones más nuevas de la tecnología logran longitudes de lectura superiores a 100 bases desde ambos extremos de un clon de 3-400 pb. [11] Anunciado a fines de 2007, el ensamblador SHARCGS [12] por Dohm et al. fue el primer ensamblador publicado que se utilizó para un ensamblaje con lecturas Solexa. Fue seguido rápidamente por varios otros.

Más tarde, se lanzaron nuevas tecnologías como SOLiD de Applied Biosystems , Ion Torrent y SMRT y continúan surgiendo nuevas tecnologías (por ejemplo, secuenciación Nanopore ). A pesar de las mayores tasas de error de estas tecnologías, son importantes para el ensamblaje porque su mayor longitud de lectura ayuda a abordar el problema de la repetición. [11] Es imposible ensamblar a través de una repetición perfecta que sea más larga que la longitud de lectura máxima; sin embargo, a medida que las lecturas se hacen más largas, la posibilidad de una repetición perfecta tan grande se vuelve pequeña. Esto le da a las lecturas de secuenciación más largas una ventaja en el ensamblaje de repeticiones incluso si tienen baja precisión (~85%). [11]

Control de calidad

La mayoría de los ensambladores de secuencias tienen incorporados algunos algoritmos para el control de calidad, como Phred . [13] Sin embargo, estas medidas no evalúan la integridad del ensamblaje en términos de contenido genético. Algunas herramientas evalúan la calidad de un ensamblaje después del hecho.

Por ejemplo, BUSCO (Benchmarking Universal Single-Copy Orthologs) es una medida de la integridad de los genes en un genoma, conjunto de genes o transcriptoma , que utiliza el hecho de que muchos genes están presentes solo como genes de copia única en la mayoría de los genomas. [14] Los conjuntos BUSCO iniciales representaban 3023 genes para vertebrados , 2675 para artrópodos , 843 para metazoos , 1438 para hongos y 429 para eucariotas . Esta tabla muestra un ejemplo para genomas humanos y de moscas de la fruta: [14]

Algoritmos de ensamblaje

Cada organismo tiene una región específica de mayor complejidad dentro de su genoma, por lo que se necesitan diferentes métodos computacionales. Algunos de los algoritmos más utilizados son:

Dado un conjunto de fragmentos de secuencia, el objetivo es encontrar una secuencia más larga que contenga todos los fragmentos (ver figura en Tipos de ensamblaje de secuencias ):

  1. Calcular alineaciones por pares de todos los fragmentos.
  2. Elija dos fragmentos con la mayor superposición.
  3. Fusionar fragmentos seleccionados.
  4. Repita los pasos 2 y 3 hasta que solo quede un fragmento.

El resultado podría no ser una solución óptima al problema.

Proceso de bioinformática

En general, hay tres pasos para ensamblar lecturas de secuenciación en un andamio:

  1. Preensamblaje: este paso es esencial para garantizar la integridad del análisis posterior, como la llamada de variantes o la secuencia de estructura final. Este paso consta de dos flujos de trabajo cronológicos:
    1. Control de calidad: Dependiendo del tipo de tecnología de secuenciación, pueden surgir diferentes errores que llevarían a una falsa denominación de bases . Por ejemplo, la secuenciación "NAAAAAAAAAAAAN" y "NAAAAAAAAAAAN" que incluyen 12 adeninas puede ser erróneamente denominada con 11 adeninas en su lugar. La secuenciación de un segmento altamente repetitivo del ADN/ARN objetivo puede dar como resultado una denominación que sea una base más corta o una base más larga. La calidad de la lectura se mide típicamente por Phred , que es una puntuación codificada de la calidad de cada nucleótido dentro de la secuencia de una lectura. Algunas tecnologías de secuenciación como PacBio no tienen un método de puntuación para sus lecturas secuenciadas. Una herramienta común utilizada en este paso es FastQC. [16]
    2. Filtrado de lecturas: las lecturas que no pasaron el control de calidad deben eliminarse del archivo FASTQ para obtener los mejores contigs de ensamblaje.
  2. Ensamblaje: Durante este paso, se utilizará la alineación de lecturas con diferentes criterios para mapear cada lectura a la posible ubicación. La posición predicha de una lectura se basa en cuánto de su secuencia se alinea con otras lecturas o una referencia. Se utilizan diferentes algoritmos de alineación para lecturas de diferentes tecnologías de secuenciación. Algunos de los enfoques comúnmente utilizados en el ensamblaje son el gráfico de De Bruijn y la superposición. La longitud de la lectura, la cobertura , la calidad y la técnica de secuenciación utilizada juegan un papel importante en la elección del mejor algoritmo de alineación en el caso de la secuenciación de próxima generación . [17] Por otro lado, los algoritmos que alinean lecturas de secuenciación de tercera generación requieren enfoques avanzados para tener en cuenta la alta tasa de error asociada con ellos.
  3. Posensamblaje: este paso se centra en extraer información valiosa de la secuencia ensamblada. La genómica comparativa y el análisis de poblaciones son ejemplos de análisis posensamblaje.

Programas

Para obtener una lista de ensambladores de novo , consulte Ensambladores de secuencias de novo . Para obtener una lista de alineadores de mapeo, consulte Lista de software de alineación de secuencias § Alineación de secuencias de lectura corta .

Algunas de las herramientas comunes utilizadas en diferentes pasos de montaje se enumeran en la siguiente tabla:

Véase también

Referencias

  1. ^ abc Sohn JI, Nam JW (enero de 2018). "El presente y el futuro del ensamblaje de novo del genoma completo". Briefings in Bioinformatics . 19 (1): 23–40. doi :10.1093/bib/bbw096. PMID  27742661.
  2. ^ ab Baker M (27 de marzo de 2012). "Ensamblaje de genoma de novo: lo que todo biólogo debería saber". Nature Methods . 9 (4): 333–337. doi :10.1038/nmeth.1935. ISSN  1548-7105.
  3. ^ abc Wolf B. "Ensamblaje de genoma de novo versus mapeo a un genoma de referencia" (PDF) . Universidad de Ciencias Aplicadas de Suiza Occidental . Consultado el 6 de abril de 2019 .
  4. ^ Myers EW, Sutton GG, Delcher AL, Dew IM, Fasulo DP, Flanigan MJ, et al. (marzo de 2000). "Un ensamblaje del genoma completo de Drosophila". Science . 287 (5461): 2196–2204. Bibcode :2000Sci...287.2196M. CiteSeerX 10.1.1.79.9822 . doi :10.1126/science.287.5461.2196. PMID  10731133. S2CID  6049420. 
  5. ^ Batzoglou S, Jaffe DB, Stanley K, Butler J, Gnerre S, Mauceli E, et al. (enero de 2002). "ARACHNE: un ensamblador de escopeta de genoma completo". Genome Research . 12 (1): 177–189. doi :10.1101/gr.208902. PMC 155255 . PMID  11779843. 
  6. ^ "AMOS WIKI". amos.sourceforge.net . Consultado el 2 de enero de 2023 .
  7. ^ ab Nagaraj SH, Gasser RB, Ranganathan S (enero de 2007). "Guía del autoestopista para el análisis de etiquetas de secuencia expresada (EST)". Briefings in Bioinformatics . 8 (1): 6–21. doi :10.1093/bib/bbl015. PMID  16772268.
  8. ^ Li Z, Chen Y, Mu D, Yuan J, Shi Y, Zhang H, et al. (enero de 2012). "Comparación de las dos clases principales de algoritmos de ensamblaje: consenso de diseño superpuesto y grafo de-bruijn". Briefings in Functional Genomics . 11 (1): 25–37. doi :10.1093/bfgp/elr035. PMID  22184334.
  9. ^ ab Harrington CT, Lin EI, Olson MT, Eshleman JR (septiembre de 2013). "Fundamentos de la pirosecuenciación". Archivos de patología y medicina de laboratorio . 137 (9): 1296–1303. doi :10.5858/arpa.2012-0463-RA. PMID  23991743.
  10. ^ ab "MIRA 2.9.8 para ensamblaje híbrido 454 y 454/Sanger". groups.google.com . Consultado el 2 de enero de 2023 .
  11. ^ abcd Hu T, Chitnis N, Monos D, Dinh A (noviembre de 2021). "Tecnologías de secuenciación de próxima generación: una descripción general". Inmunología humana . Secuenciación de próxima generación y su aplicación a la inmunología de laboratorio médico. 82 (11): 801–811. doi :10.1016/j.humimm.2021.02.012. PMID  33745759.
  12. ^ Dohm JC, Lottaz C, Borodina T, Himmelbauer H (noviembre de 2007). "SHARCGS, un algoritmo de ensamblaje de lectura corta rápido y altamente preciso para la secuenciación genómica de novo". Genome Research . 17 (11): 1697–1706. doi :10.1101/gr.6435207. PMC 2045152 . PMID  17908823. 
  13. ^ Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (abril de 2010). "El formato de archivo Sanger FASTQ para secuencias con puntuaciones de calidad y las variantes Solexa/Illumina FASTQ". Nucleic Acids Research . 38 (6): 1767–1771. doi :10.1093/nar/gkp1137. PMC 2847217 . PMID  20015970. 
  14. ^ ab Simão FA, Waterhouse RM, Ioannidis P, Kriventseva EV, Zdobnov EM (octubre de 2015). "BUSCO: evaluación de la integridad del ensamblaje y la anotación del genoma con ortólogos de copia única". Bioinformática . 31 (19): 3210–3212. doi :10.1093/bioinformatics/btv351. PMID  26059717.
  15. ^ Compeau PE, Pevzner PA, Tesler G (noviembre de 2011). "Cómo aplicar los grafos de De Bruijn al ensamblaje del genoma". Nature Biotechnology . 29 (11): 987–991. doi :10.1038/nbt.2023. PMC 5531759 . PMID  22068540. 
  16. ^ "Babraham Bioinformatics - FastQC: una herramienta de control de calidad para datos de secuencias de alto rendimiento". www.bioinformatics.babraham.ac.uk . Consultado el 9 de mayo de 2022 .
  17. ^ Ruffalo M, LaFramboise T, Koyutürk M (octubre de 2011). "Análisis comparativo de algoritmos para la alineación de lecturas de secuenciación de próxima generación". Bioinformática . 27 (20): 2790–2796. doi : 10.1093/bioinformatics/btr477 . PMID  21856737.
  18. ^ Vasimuddin M, Misra S, Li H, Aluru S (mayo de 2019). "Aceleración eficiente de BWA-MEM consciente de la arquitectura para sistemas multinúcleo". Simposio internacional de procesamiento paralelo y distribuido (IPDPS) del IEEE de 2019. IEEE. págs. 314–324. arXiv : 1907.12931 . doi :10.1109/IPDPS.2019.00041. ISBN . 978-1-7281-1246-6.
  19. ^ Jung Y, Han D (7 de marzo de 2022). "BWA-MEME: BWA-MEM emulado con un enfoque de aprendizaje automático". Bioinformática . 38 (9): 2404–2413. doi :10.1093/bioinformatics/btac137. ISSN  1367-4803.