Andamiaje (bioinformática)

El andamiaje es una técnica utilizada en bioinformática . Se define de la siguiente manera: ^[1]

Unir una serie no contigua de secuencias genómicas para formar un andamiaje, que consiste en secuencias separadas por espacios de longitud conocida. Las secuencias que se unen son, por lo general, secuencias contiguas que corresponden a superposiciones de lecturas.

Al crear un borrador del genoma, las lecturas individuales de ADN se ensamblan en segundo lugar en contigs , que, por la naturaleza de su ensamblaje, tienen espacios entre ellos. El siguiente paso es unir los espacios entre estos contigs para crear un andamiaje. ^[2] Esto se puede hacer mediante mapeo óptico o secuenciación de pares de apareamiento. ^[3]

Software de ensamblaje

La secuenciación del genoma de Haemophilus influenzae marcó el advenimiento del andamiaje. Ese proyecto generó un total de 140 contigs, que se orientaron y vincularon mediante lecturas de extremos emparejados. El éxito de esta estrategia impulsó al Instituto de Investigación Genómica a desarrollar el programa de andamiaje Grouper para sus otros proyectos de secuenciación. Hasta 2001, Grouper era el único software de andamiaje independiente. ^[4] Después de que el Proyecto Genoma Humano y Celera demostraran que era posible crear un borrador grande del genoma, se crearon varios otros programas similares. Bambus se creó en 2003 y fue una reescritura del software grouper original, pero brindó a los investigadores la capacidad de ajustar los parámetros de andamiaje. ^[4] Este software también permitió el uso opcional de otros datos de enlace, como el orden de los contigs en un genoma de referencia.

Los algoritmos utilizados por el software de ensamblaje son muy diversos y pueden clasificarse como basados en ordenamiento iterativo de marcadores o basados en gráficos. Las aplicaciones basadas en gráficos tienen la capacidad de ordenar y orientar más de 10 000 marcadores, en comparación con el máximo de 3000 marcadores que pueden tener las aplicaciones de marcadores iterativos. ^[5] Los algoritmos pueden clasificarse además como voraces, no voraces, conservadores o no conservadores. Bambus utiliza un algoritmo voraz, definido como tal porque une primero los contigs con la mayor cantidad de enlaces. El algoritmo utilizado por Bambus 2 elimina los contigs repetitivos antes de orientarlos y ordenarlos en los andamios. SSPACE también utiliza un algoritmo voraz que comienza a construir su primer andamio con el contig más largo proporcionado por los datos de secuencia. SSPACE es la herramienta de ensamblaje más citada en publicaciones de biología, probablemente debido al hecho de que está calificado como un programa significativamente más intuitivo para instalar y ejecutar que otros ensambladores. ^[6]

En los últimos años, han surgido nuevos tipos de ensambladores capaces de integrar datos de ligamiento de múltiples tipos de mapas de ligamiento. ALLMAPS es el primero de estos programas y es capaz de combinar datos de mapas genéticos, creados utilizando SNP o datos de recombinación, con mapas físicos como mapas ópticos o de sintenia. ^[7]

Algunos programas, como ABySS y SOAPdenovo, contienen algoritmos de relleno de huecos que, aunque no crean nuevos andamios, sirven para reducir la longitud de los huecos entre los contigs de los andamios individuales. Un programa independiente, GapFiller, es capaz de cerrar una mayor cantidad de huecos, utilizando menos memoria que los algoritmos de relleno de huecos contenidos en los programas de ensamblaje. ^[8]

Utturkar et al. investigaron la utilidad de varios paquetes de software de ensamblaje diferentes en combinación con datos de secuencias híbridas. Llegaron a la conclusión de que los algoritmos ALLPATHS-LG y SPAdes eran superiores a otros ensambladores en términos de número, longitud máxima y longitud N50 de contigs y andamios. ^[9]

Andamiaje y secuenciación de próxima generación

La mayoría de las plataformas de secuenciación de alto rendimiento y de última generación producen longitudes de lectura más cortas en comparación con la secuenciación de Sanger . Estas nuevas plataformas pueden generar grandes cantidades de datos en períodos cortos de tiempo, pero hasta que se desarrollaron métodos para el ensamblaje de novo de genomas grandes a partir de secuencias de lectura cortas, la secuenciación de Sanger siguió siendo el método estándar para crear un genoma de referencia. ^[10] Aunque las plataformas Illumina ahora pueden generar lecturas de pares de apareamiento con longitudes promedio de 150 pb, originalmente solo podían generar lecturas de 75 pb o menos, lo que hizo que muchas personas en la comunidad científica dudaran de que alguna vez se pudiera construir un genoma de referencia confiable con tecnología de lectura corta. La mayor dificultad del ensamblaje de contig y andamiaje asociado con las nuevas tecnologías ha creado una demanda de nuevos y poderosos programas informáticos y algoritmos capaces de dar sentido a los datos. ^[11]

Una estrategia que incorpora la secuenciación de última generación de alto rendimiento es la secuenciación híbrida, en la que se utilizan varias tecnologías de secuenciación en diferentes niveles de cobertura, de modo que puedan complementarse entre sí con sus respectivas fortalezas. El lanzamiento de la plataforma SMRT, de Pacific Biosciences, marcó el comienzo de la secuenciación de moléculas individuales y la tecnología de lectura larga. Se ha demostrado que una cobertura de 80 a 100X con la tecnología SMRT, que genera una lectura promedio con longitudes de 5456 pb, suele ser suficiente para crear un ensamblaje de novo terminado para organismos procariotas. Cuando los fondos para ese nivel de cobertura no están disponibles para un investigador, puede decidir utilizar un enfoque híbrido.

Goldberg et al. evaluaron la eficacia de combinar la pirosecuenciación de alto rendimiento con la secuenciación tradicional de Sanger. Pudieron aumentar considerablemente la longitud del contig N50 y disminuir la longitud del gap, e incluso cerrar un genoma microbiano con este enfoque. ^[12]

Mapeo óptico

Se ha demostrado que la integración de mapas de ligamiento puede ayudar a los ensamblajes de novo con datos de recombinación a escala cromosómica de largo alcance, sin los cuales, los ensamblajes pueden estar sujetos a errores de ordenamiento macroscópico. El mapeo óptico es el proceso de inmovilizar el ADN en un portaobjetos y digerirlo con enzimas de restricción. Luego, los extremos de los fragmentos se etiquetan con fluorescencia y se vuelven a unir. Durante las últimas dos décadas, el mapeo óptico ha sido prohibitivamente costoso, pero los avances recientes en tecnología han reducido el costo significativamente. ^[5]^[13]

Véase también

^ "Ontología EDAM de operaciones bioinformáticas y formatos de datos".
^ Waterston, Robert (2002). "Sobre la secuenciación del genoma humano". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 99 (6): 3712–3716. Bibcode :2002PNAS...99.3712W. doi : 10.1073/pnas.042692499 . PMC 122589 . PMID 11880605.
^ Flot, Jean-François; Marie-Nelly, Hervé; Koszul, Romain (7 de octubre de 2015). "Genómica de contacto: andamiaje y puesta en fase de (meta)genomas utilizando firmas físicas 3D de cromosomas". FEBS Letters . 589 (20 Pt A): 2966–2974. doi : 10.1016/j.febslet.2015.04.034 . ISSN 1873-3468. PMID 25935414.
^ ab Pop, Mihai; Kosack, Daniel S.; Salzberg, Steven L. (1 de enero de 2004). "Andamiaje jerárquico con bambú". Genome Research . 14 (1): 149–159. doi :10.1101/gr.1536204. ISSN 1088-9051. PMC 314292 . PMID 14707177.
^ ab Fierst JL (2015) Uso de mapas de ligamiento para corregir y estructurar ensamblajes de genomas de novo: métodos, desafíos y herramientas computacionales. En: Frontiers in Genetics. http://journal.frontiersin.org/article/10.3389/fgene.2015.00220/full . Consultado el 7 de abril de 2017
^ Hunt, M; Newbold, C; Berriman, M; Otto, TD (2014). "Una evaluación integral de las herramientas de andamiaje de ensamblaje". Genome Biology . 15 (3): R42. doi : 10.1186/gb-2014-15-3-r42 . PMC 4053845 . PMID 24581555.
^ Tang, H; Zhang, X; Miao, C; et al. (2015). "ALLMAPS: ordenamiento robusto de andamiaje basado en múltiples mapas". Genome Biology . 16 (1): 3. doi : 10.1186/s13059-014-0573-1 . PMC 4305236 . PMID 25583564.
^ Boetzer, M; Pirovano, W (2012). "Hacia genomas casi cerrados con GapFiller". Genome Biology . 13 (6): R56. doi : 10.1186/gb-2012-13-6-r56 . PMC 3446322 . PMID 22731987.
^ Utturkar, SM; Klingeman, DM; Land, ML; et al. (2014). "Evaluación y validación de técnicas de ensamblaje de novo e híbrido para derivar secuencias genómicas de alta calidad". Bioinformática . 30 (19): 2709–2716. doi :10.1093/bioinformatics/btu391. PMC 4173024 . PMID 24930142.
^ Li, Ruiqiang; Zhu, Hongmei; Ruan, Jue; Qian, Wubin; Colmillo, Xiaodong; Shi, Zhongbin; Li, Yingrui; Li, Shengting; Shan, Gao (9 de febrero de 2017). "Ensamblaje de novo de genomas humanos con secuenciación de lectura corta masivamente paralela". Investigación del genoma . 20 (2): 265–272. doi :10.1101/gr.097261.109. ISSN 1088-9051. PMC 2813482 . PMID 20019144.
^ Pareek, Chandra Shekhar; Smoczynski, Rafal; Tretyn, Andrzej (9 de febrero de 2017). "Tecnologías de secuenciación y secuenciación del genoma". Revista de Genética Aplicada . 52 (4): 413–435. doi :10.1007/s13353-011-0057-x. ISSN 1234-1983. PMC 3189340 . PMID 21698376.
^ Goldberg, Susanne MD; et al. (2006). "Un enfoque híbrido de Sanger/pirosecuenciación para la generación de borradores de alta calidad de genomas microbianos marinos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 103 (30): 11240–11245. Bibcode :2006PNAS..10311240G. doi : 10.1073/pnas.0604351103 . JSTOR 30049789. PMC 1544072 . PMID 16840556.
^ Chaisson, Mark; Wilson, Richard; Eichler, Evan (7 de octubre de 2015). "Variación genética y ensamblaje de novo de genomas humanos". Nature Reviews Genetics . 16 (11): 627–640. doi :10.1038/nrg3933. PMC 4745987 . PMID 26442640.