Montaje de secuencia

En bioinformática , el ensamblaje de secuencias se refiere a alinear y fusionar fragmentos de una secuencia de ADN más larga para reconstruir la secuencia original. Esto es necesario ya que la tecnología de secuenciación de ADN podría no ser capaz de "leer" genomas completos de una sola vez, sino que lee pequeños fragmentos de entre 20 y 30.000 bases, dependiendo de la tecnología utilizada. Normalmente, los fragmentos cortos (lecturas) resultan de la secuenciación rápida de ADN genómico o transcripción genética ( EST ).

El problema del ensamblaje de secuencias se puede comparar con tomar muchas copias de un libro, pasar cada una de ellas por una trituradora con un cortador diferente y reconstruir el texto del libro con solo mirar los pedazos triturados. Además de la dificultad obvia de esta tarea, existen algunas cuestiones prácticas adicionales: el original puede tener muchos párrafos repetidos y algunos fragmentos pueden modificarse durante la trituración para tener errores tipográficos. También se pueden agregar extractos de otro libro y algunos fragmentos pueden resultar completamente irreconocibles.

Ensambladores del genoma

Los primeros ensambladores de secuencias comenzaron a aparecer a finales de los años 1980 y principios de los 1990 como variantes de programas de alineación de secuencias más simples para unir grandes cantidades de fragmentos generados por instrumentos de secuenciación automatizados llamados secuenciadores de ADN . A medida que los organismos secuenciados crecieron en tamaño y complejidad (desde pequeños virus pasando por plásmidos hasta bacterias y finalmente eucariotas ), los programas de ensamblaje utilizados en estos proyectos genómicos necesitaron estrategias cada vez más sofisticadas para manejar:

terabytes de datos de secuenciación que necesitan procesamiento en grupos informáticos ;
secuencias idénticas y casi idénticas (conocidas como repeticiones ) que pueden, en el peor de los casos, aumentar cuadráticamente la complejidad temporal y espacial de los algoritmos;
Errores de lectura de ADN en los fragmentos de los instrumentos de secuenciación, lo que puede confundir el ensamblaje.

Ante el desafío de ensamblar los primeros genomas eucariotas más grandes (la mosca de la fruta Drosophila melanogaster en 2000 y el genoma humano apenas un año después), los científicos desarrollaron ensambladores como Celera Assembler ^[1] y Arachne ^[2] capaces de manejar genomas de 130 millones. (p. ej., la mosca de la fruta D. melanogaster ) hasta 3 mil millones (p. ej., el genoma humano) de pares de bases. Después de estos esfuerzos, varios otros grupos, principalmente en los principales centros de secuenciación del genoma, construyeron ensambladores a gran escala y se lanzó un esfuerzo de código abierto conocido como AMOS ^[3] para reunir todas las innovaciones en la tecnología de ensamblaje del genoma bajo el código abierto. estructura.

Planifique cómo un ensamblador de secuencias tomaría fragmentos (que se muestran debajo de la barra negra) y uniría las superposiciones entre ellos para ensamblar la secuencia final (en negro). Las repeticiones potencialmente problemáticas se muestran encima de la secuencia (en rosa arriba). Sin fragmentos superpuestos, puede resultar imposible asignar estos segmentos a una región específica.

ensambladores EST

La etiqueta de secuencia expresada o ensamblaje EST fue una estrategia temprana, que data desde mediados de la década de 1990 hasta mediados de la década de 2000, para ensamblar genes individuales en lugar de genomas completos. El problema difiere del ensamblaje del genoma en varios aspectos. Las secuencias de entrada para el ensamblaje de EST son fragmentos del ARNm transcrito de una célula y representan sólo un subconjunto del genoma completo. Varios problemas algorítmicos difieren entre el genoma y el ensamblaje EST. Por ejemplo, los genomas suelen tener grandes cantidades de secuencias repetitivas, concentradas en las regiones intergénicas. Los genes transcritos contienen muchas menos repeticiones, lo que facilita un poco el ensamblaje. Por otro lado, algunos genes se expresan (transcriben) en cantidades muy elevadas (p. ej., genes de mantenimiento ), lo que significa que, a diferencia de la secuenciación directa del genoma completo, las lecturas no se muestrean de manera uniforme en todo el genoma.

El ensamblaje de EST se vuelve mucho más complicado debido a características como el empalme alternativo (cis-) , el empalme trans , el polimorfismo de un solo nucleótido y la modificación postranscripcional . A partir de 2008, cuando se inventó RNA-Seq , la secuenciación EST fue reemplazada por esta tecnología mucho más eficiente, descrita en ensamblaje de transcriptoma de novo .

Tipos de ensamblaje de secuencia.

Hay tres enfoques para recopilar datos de secuenciación:

De novo: ensamblaje de lecturas de secuenciación para crear secuencias completas (a veces novedosas), sin utilizar una plantilla (consulte ensambladores de secuencias de novo , ensamblaje de transcriptomas de novo )
Mapeo/Alineación: ensamblar lecturas alineando lecturas con una plantilla (también conocida como referencia). El consenso reunido puede no ser idéntico al modelo.
Guiado por referencia: agrupación de lecturas por similitud con la región más similar dentro de la referencia (mapeo paso a paso). Luego, las lecturas dentro de cada grupo se acortan para imitar la calidad de las lecturas cortas. Un método típico para hacerlo es el enfoque k-mer . El ensamblaje guiado por referencias es más útil utilizando lecturas largas .

El ensamblaje guiado por referencia es una combinación de los otros tipos. Este tipo se aplica en lecturas largas para imitar las ventajas de las lecturas cortas (es decir, calidad de la llamada). La lógica detrás de esto es agrupar las lecturas por ventanas más pequeñas dentro de la referencia. Luego, se reducirá el tamaño de las lecturas en cada grupo utilizando el enfoque k-mera para seleccionar la calidad más alta y la contigua más probable (contig). Luego se unirán los contigs para crear un andamio. El consenso final se logra cerrando cualquier brecha en el andamiaje.

Ensamblaje de novo versus mapeo

En términos de complejidad y requisitos de tiempo, los ensamblajes de novo son órdenes de magnitud más lentos y consumen más memoria que los ensamblajes de mapeo. Esto se debe principalmente al hecho de que el algoritmo de ensamblaje necesita comparar cada lectura con cada otra lectura (una operación que tiene una complejidad temporal ingenua de O ( n ² )). Los ensambladores de genoma de novo actuales pueden utilizar diferentes tipos de algoritmos basados en gráficos, como:

Enfoque de superposición/diseño/consenso (OLC), que era típico de los ensambladores de datos de Sanger y se basa en un gráfico de superposición.
enfoque de Bruijn Graph (DBG), que se aplica más ampliamente a las lecturas cortas de las plataformas Solexa y SOLiD. Se basa en gráficos K-mer, que funcionan bien con grandes cantidades de lecturas cortas.
Enfoque codicioso basado en gráficos , que también puede utilizar uno de los enfoques OLC o DBG. Con algoritmos codiciosos basados en gráficos, los contigs ^{[ se necesita más explicación ]} crecen por extensión codiciosa, siempre asumiendo la lectura que se encuentra siguiendo la superposición de puntuación más alta. ^[4]

Refiriéndose a la comparación hecha con los libros triturados en la introducción: mientras que para mapear asambleas uno tendría un libro muy similar como plantilla (quizás con los nombres de los personajes principales y algunas ubicaciones cambiadas), las asambleas de novo presentan una situación más desalentadora. desafío en el sentido de que no se sabría de antemano si esto se convertiría en un libro de ciencia, una novela, un catálogo o incluso varios libros. Además, cada fragmento se compararía con cualquier otro fragmento.

El manejo de repeticiones en un ensamblaje de novo requiere la construcción de un gráfico que represente las repeticiones vecinas. Esta información puede derivarse de la lectura de un fragmento largo que cubra las repeticiones en su totalidad o sólo en sus dos extremos . Por otro lado, en un ensamblaje de mapeo, las piezas con múltiples o ninguna coincidencia generalmente se dejan para que se analice otra técnica de ensamblaje. ^[5]

Tubería de ensamblaje de secuencias (bioinformática)

En general, hay tres pasos para ensamblar lecturas de secuenciación en un andamio:

Preensamblaje: este paso es esencial para garantizar la integridad del análisis posterior, como la llamada de variantes o la secuencia de andamiaje final. Este paso consta de dos flujos de trabajo cronológicos:
1. Control de calidad: Dependiendo del tipo de tecnología de secuenciación, pueden surgir diferentes errores que conducirían a una llamada de base falsa . Por ejemplo, la secuenciación "NAAAAAAAAAAAAN" y "NAAAAAAAAAAAN" que incluyen 12 adenina podría denominarse erróneamente con 11 adenina. La secuenciación de un segmento altamente repetitivo del ADN/ARN objetivo podría dar como resultado una llamada que sea una base más corta o una base más larga. La calidad de la lectura generalmente se mide mediante Phred , que es una puntuación codificada de cada calidad de nucleótido dentro de la secuencia de una lectura. Algunas tecnologías de secuenciación, como PacBio, no tienen un método de puntuación para sus lecturas secuenciadas. Una herramienta común utilizada en este paso es FastQC. ^[6]
2. Filtrado de lecturas: las lecturas que no pasaron el control de calidad deben eliminarse del archivo FASTQ para obtener los mejores contigs de ensamblaje.
Ensamblaje: durante este paso, la alineación de las lecturas se utilizará con diferentes criterios para asignar cada lectura a la posible ubicación. La posición prevista de una lectura se basa en qué parte de su secuencia se alinea con otras lecturas o con una referencia. Se utilizan diferentes algoritmos de alineación para lecturas de diferentes tecnologías de secuenciación. Algunos de los enfoques comúnmente utilizados en el ensamblaje son el gráfico de De Bruijn y la superposición. La duración de la lectura, la cobertura , la calidad y la técnica de secuenciación utilizada desempeñan un papel importante a la hora de elegir el mejor algoritmo de alineación en el caso de la secuenciación de próxima generación . ^[7] Por otro lado, los algoritmos que alinean las lecturas de secuenciación de tercera generación requieren enfoques avanzados para tener en cuenta la alta tasa de error asociada con ellos.
Post-ensamblaje: este paso se centra en extraer información valiosa de la secuencia ensamblada. La genómica comparada y el análisis de poblaciones son ejemplos de análisis post-ensamblaje.

Influencia de los cambios tecnológicos.

La complejidad del ensamblaje de secuencias está impulsada por dos factores principales: el número de fragmentos y sus longitudes. Si bien un mayor número de fragmentos y más largos permiten una mejor identificación de las superposiciones de secuencias, también plantean problemas ya que los algoritmos subyacentes muestran un comportamiento de complejidad cuadrático o incluso exponencial tanto en el número de fragmentos como en su longitud. Y si bien las secuencias más cortas son más rápidas de alinear, también complican la fase de diseño de un ensamblaje, ya que las lecturas más cortas son más difíciles de usar con repeticiones o repeticiones casi idénticas.

En los primeros días de la secuenciación del ADN, los científicos sólo podían obtener unas pocas secuencias de corta longitud (unas docenas de bases) después de semanas de trabajo en laboratorios. Por tanto, estas secuencias podrían alinearse manualmente en unos minutos.

En 1975, se inventó el método de terminación didesoxi (también conocido como secuenciación de Sanger ) y hasta poco después del año 2000, la tecnología fue mejorando hasta un punto en el que máquinas totalmente automatizadas podían producir secuencias en un modo altamente paralelizado las 24 horas del día. Los grandes centros genómicos de todo el mundo albergaban granjas completas de estas máquinas de secuenciación, lo que a su vez llevó a la necesidad de optimizar los ensambladores para secuencias de proyectos de secuenciación de genoma completo donde las lecturas

tienen entre 800 y 900 bases de largo
contener artefactos de secuenciación como vectores de secuenciación y clonación
tener tasas de error entre 0,5 y 10%

Con la tecnología Sanger, se podrían ensamblar fácilmente en una computadora proyectos bacterianos con entre 20.000 y 200.000 lecturas. Los proyectos más grandes, como el genoma humano con aproximadamente 35 millones de lecturas, necesitaban grandes granjas informáticas y computación distribuida.

En 2004/2005, 454 Life Sciences había llevado la pirosecuenciación a la viabilidad comercial . Este nuevo método de secuenciación generó lecturas mucho más cortas que las de la secuenciación de Sanger: inicialmente alrededor de 100 bases, ahora entre 400 y 500 bases. Su rendimiento mucho mayor y su menor costo (en comparación con la secuenciación de Sanger) impulsaron la adopción de esta tecnología por parte de los centros genómicos, lo que a su vez impulsó el desarrollo de ensambladores de secuencias que pudieran manejar eficientemente los conjuntos de lectura. La gran cantidad de datos junto con patrones de error específicos de la tecnología en las lecturas retrasaron el desarrollo de ensambladores; A principios de 2004 sólo estaba disponible el ensamblador Newbler del 454. Lanzada a mediados de 2007, ^[8] la versión híbrida del ensamblador MIRA de Chevreux et al. fue el primer ensamblador disponible gratuitamente que podía ensamblar 454 lecturas, así como mezclas de 454 lecturas y lecturas Sanger. Posteriormente, el ensamblaje de secuencias a partir de diferentes tecnologías de secuenciación se denominó ensamblaje híbrido .

Desde 2006, la tecnología Illumina (anteriormente Solexa) está disponible y puede generar alrededor de 100 millones de lecturas por ejecución en una sola máquina de secuenciación. Compárese esto con los 35 millones de lecturas del proyecto del genoma humano, que necesitaron varios años para producirse en cientos de máquinas de secuenciación. Inicialmente, Illumina estaba limitada a una longitud de solo 36 bases, lo que la hacía menos adecuada para el ensamblaje de novo (como el ensamblaje del transcriptoma de novo ), pero las iteraciones más recientes de la tecnología logran longitudes de lectura superiores a 100 bases desde ambos extremos de un clon de 3-400 pb. . Anunciado a finales de 2007, el ensamblador SHARCGS ^[9] de Dohm et al. fue el primer ensamblador publicado que se utilizó para un ensamblaje con lecturas de Solexa. Rápidamente le siguieron varios otros.

Posteriormente, se lanzaron nuevas tecnologías como SOLiD de Applied Biosystems , Ion Torrent y SMRT y siguen surgiendo nuevas tecnologías (por ejemplo, secuenciación de nanoporos ). A pesar de las mayores tasas de error de estas tecnologías, son importantes para el ensamblaje porque su mayor longitud de lectura ayuda a abordar el problema de la repetición. Es imposible ensamblar mediante una repetición perfecta que sea más larga que la longitud máxima de lectura; sin embargo, a medida que las lecturas se vuelven más largas, la posibilidad de una repetición perfecta tan grande se vuelve pequeña. Esto proporciona una ventaja a las lecturas de secuenciación más largas a la hora de ensamblar repeticiones incluso si tienen una precisión baja (~85%).

Algoritmos de ensamblaje

Diferentes organismos tienen una región distinta de mayor complejidad dentro de su genoma. Por lo tanto, se necesitan diferentes enfoques computacionales. Algunos de los algoritmos comúnmente utilizados son:

Ensamblaje de grafos: se basa en la teoría de grafos en informática. El gráfico de Bruijn es un ejemplo de este enfoque y utiliza k-mers para ensamblar lecturas contiguas.
Conjunto de gráficos codiciosos: este enfoque califica cada lectura agregada al ensamblaje y selecciona la puntuación más alta posible de la región superpuesta.

Dado un conjunto de fragmentos de secuencia, el objetivo es encontrar una secuencia más larga que contenga todos los fragmentos (consulte la figura en Tipos de ensamblaje de secuencia ):

Calcular alineaciones por pares de todos los fragmentos.
Elija dos fragmentos con la mayor superposición.
Fusionar fragmentos elegidos.
Repita los pasos 2 y 3 hasta que solo quede un fragmento.

Es posible que el resultado no sea una solución óptima al problema.

Control de calidad

La mayoría de los ensambladores de secuencias tienen algunos algoritmos integrados para el control de calidad, como Phred . Sin embargo, tales medidas no evalúan la integridad del ensamblaje en términos de contenido genético. Algunas herramientas evalúan la calidad de un ensamblaje a posteriori.

Por ejemplo, BUSCO (Benchmarking Universal Single-Copy Orthologs) es una medida de la integridad genética en un genoma, conjunto de genes o transcriptoma , utilizando el hecho de que muchos genes están presentes solo como genes de copia única en la mayoría de los genomas. ^[10] Los conjuntos iniciales de BUSCO representaban 3023 genes para vertebrados , 2675 para artrópodos , 843 para metazoos , 1438 para hongos y 429 para eucariotas . Esta tabla muestra un ejemplo de genomas humanos y de mosca de la fruta: ^[10]

Programas

Para obtener listas de ensambladores de novo , consulte Ensambladores de secuencias de novo . Para obtener una lista de alineadores de mapeo, consulte Lista de software de alineación de secuencias § Alineación de secuencias de lectura corta .

Algunas de las herramientas comunes utilizadas en diferentes pasos de ensamblaje se enumeran en la siguiente tabla:

Ver también

Referencias

^ Myers, EW; Sutton, GG; Delcher, AL; Rocío, IM; Fasulo, DP; Flanigan, MJ; Kravitz, SA; Mobarry, CM; et al. (Marzo de 2000). "Un ensamblaje del genoma completo de Drosophila". Ciencia . 287 (5461): 2196–204. Código Bib : 2000 Ciencia... 287.2196M. CiteSeerX 10.1.1.79.9822 . doi : 10.1126/ciencia.287.5461.2196. PMID 10731133. S2CID 6049420.
^ Batzoglou, S.; Jaffe, DB; Stanley, K; Mayordomo, J; Gnerre, S; Mauceli, E; Berger, B ; Mesirov, JP; Lander, ES (enero de 2002). "ARACHNE: un ensamblador de escopetas de genoma completo". Investigación del genoma . 12 (1): 177–89. doi :10.1101/gr.208902. PMC 155255 . PMID 11779843.
^ "AMOS WIKI". amos.sourceforge.net . Consultado el 2 de enero de 2023 .
^ Molinero, Jason R.; Koren, Sergey; Sutton, Granger (6 de marzo de 2010). "Algoritmos de ensamblaje para datos de secuenciación de próxima generación". Genómica . 95 (6): 315–327. doi :10.1016/j.ygeno.2010.03.001. PMC 2874646 . PMID 20211242.
^ Lobo, vencer. "Ensamblaje del genoma de novo versus mapeo a un genoma de referencia" (PDF) . Universidad de Ciencias Aplicadas de Suiza Occidental . Consultado el 6 de abril de 2019 .
^ "Babraham Bioinformatics: FastQC, una herramienta de control de calidad para datos de secuencia de alto rendimiento". www.bioinformatics.babraham.ac.uk . Consultado el 9 de mayo de 2022 .
^ Ruffalo, M.; LaFramboise, T.; Koyuturk, M. (15 de octubre de 2011). "Análisis comparativo de algoritmos para la alineación de lectura de secuenciación de próxima generación". Bioinformática . 27 (20): 2790–2796. doi : 10.1093/bioinformática/btr477 . ISSN 1367-4803. PMID 21856737.
^ "MIRA 2.9.8 para ensamblaje híbrido 454 y 454 / Sanger". grupos.google.com . Consultado el 2 de enero de 2023 .
^ Dohm, JC; Lottaz, C.; Borodina, T.; Himmelbauer, H. (noviembre de 2007). "SHARCGS, un algoritmo de ensamblaje de lectura corta rápido y de alta precisión para secuenciación genómica de novo". Investigación del genoma . 17 (11): 1697–706. doi :10.1101/gr.6435207. PMC 2045152 . PMID 17908823.
^ ab Simão, Felipe A.; Waterhouse, Robert M.; Ioannidis, Panagiotis; Kriventseva, Evgenia V.; Zdobnov, Evgeny M. (1 de octubre de 2015). "BUSCO: evaluación de la integridad del ensamblaje y la anotación del genoma con ortólogos de copia única". Bioinformática . 31 (19): 3210–3212. doi : 10.1093/bioinformática/btv351. ISSN 1367-4811.