El andamiaje es una técnica utilizada en bioinformática . Se define de la siguiente manera: [1]
Unir una serie no contigua de secuencias genómicas para formar un andamiaje, que consiste en secuencias separadas por espacios de longitud conocida. Las secuencias que se unen son, por lo general, secuencias contiguas que corresponden a superposiciones de lecturas.
Al crear un borrador del genoma, las lecturas individuales de ADN se ensamblan en segundo lugar en contigs , que, por la naturaleza de su ensamblaje, tienen espacios entre ellos. El siguiente paso es unir los espacios entre estos contigs para crear un andamiaje. [2] Esto se puede hacer mediante mapeo óptico o secuenciación de pares de apareamiento. [3]
La secuenciación del genoma de Haemophilus influenzae marcó el advenimiento del andamiaje. Ese proyecto generó un total de 140 contigs, que se orientaron y vincularon mediante lecturas de extremos emparejados. El éxito de esta estrategia impulsó al Instituto de Investigación Genómica a desarrollar el programa de andamiaje Grouper para sus otros proyectos de secuenciación. Hasta 2001, Grouper era el único software de andamiaje independiente. [4] Después de que el Proyecto Genoma Humano y Celera demostraran que era posible crear un borrador grande del genoma, se crearon varios otros programas similares. Bambus se creó en 2003 y fue una reescritura del software grouper original, pero brindó a los investigadores la capacidad de ajustar los parámetros de andamiaje. [4] Este software también permitió el uso opcional de otros datos de enlace, como el orden de los contigs en un genoma de referencia.
Los algoritmos utilizados por el software de ensamblaje son muy diversos y pueden clasificarse como basados en ordenamiento iterativo de marcadores o basados en gráficos. Las aplicaciones basadas en gráficos tienen la capacidad de ordenar y orientar más de 10 000 marcadores, en comparación con el máximo de 3000 marcadores que pueden tener las aplicaciones de marcadores iterativos. [5] Los algoritmos pueden clasificarse además como voraces, no voraces, conservadores o no conservadores. Bambus utiliza un algoritmo voraz, definido como tal porque une primero los contigs con la mayor cantidad de enlaces. El algoritmo utilizado por Bambus 2 elimina los contigs repetitivos antes de orientarlos y ordenarlos en los andamios. SSPACE también utiliza un algoritmo voraz que comienza a construir su primer andamio con el contig más largo proporcionado por los datos de secuencia. SSPACE es la herramienta de ensamblaje más citada en publicaciones de biología, probablemente debido al hecho de que está calificado como un programa significativamente más intuitivo para instalar y ejecutar que otros ensambladores. [6]
En los últimos años, han surgido nuevos tipos de ensambladores capaces de integrar datos de ligamiento de múltiples tipos de mapas de ligamiento. ALLMAPS es el primero de estos programas y es capaz de combinar datos de mapas genéticos, creados utilizando SNP o datos de recombinación, con mapas físicos como mapas ópticos o de sintenia. [7]
Algunos programas, como ABySS y SOAPdenovo, contienen algoritmos de relleno de huecos que, aunque no crean nuevos andamios, sirven para reducir la longitud de los huecos entre los contigs de los andamios individuales. Un programa independiente, GapFiller, es capaz de cerrar una mayor cantidad de huecos, utilizando menos memoria que los algoritmos de relleno de huecos contenidos en los programas de ensamblaje. [8]
Utturkar et al. investigaron la utilidad de varios paquetes de software de ensamblaje diferentes en combinación con datos de secuencias híbridas. Llegaron a la conclusión de que los algoritmos ALLPATHS-LG y SPAdes eran superiores a otros ensambladores en términos de número, longitud máxima y longitud N50 de contigs y andamios. [9]
La mayoría de las plataformas de secuenciación de alto rendimiento y de última generación producen longitudes de lectura más cortas en comparación con la secuenciación de Sanger . Estas nuevas plataformas pueden generar grandes cantidades de datos en períodos cortos de tiempo, pero hasta que se desarrollaron métodos para el ensamblaje de novo de genomas grandes a partir de secuencias de lectura cortas, la secuenciación de Sanger siguió siendo el método estándar para crear un genoma de referencia. [10] Aunque las plataformas Illumina ahora pueden generar lecturas de pares de apareamiento con longitudes promedio de 150 pb, originalmente solo podían generar lecturas de 75 pb o menos, lo que hizo que muchas personas en la comunidad científica dudaran de que alguna vez se pudiera construir un genoma de referencia confiable con tecnología de lectura corta. La mayor dificultad del ensamblaje de contig y andamiaje asociado con las nuevas tecnologías ha creado una demanda de nuevos y potentes programas informáticos y algoritmos capaces de dar sentido a los datos. [11]
Una estrategia que incorpora la secuenciación de última generación de alto rendimiento es la secuenciación híbrida, en la que se utilizan varias tecnologías de secuenciación en diferentes niveles de cobertura, de modo que puedan complementarse entre sí con sus respectivas fortalezas. El lanzamiento de la plataforma SMRT, de Pacific Biosciences, marcó el comienzo de la secuenciación de moléculas individuales y la tecnología de lectura larga. Se ha demostrado que una cobertura de 80 a 100X con la tecnología SMRT, que genera una lectura promedio con longitudes de 5456 pb, suele ser suficiente para crear un ensamblaje de novo terminado para organismos procariotas. Cuando los fondos para ese nivel de cobertura no están disponibles para un investigador, puede decidir utilizar un enfoque híbrido.
Goldberg et al. evaluaron la eficacia de combinar la pirosecuenciación de alto rendimiento con la secuenciación tradicional de Sanger. Pudieron aumentar considerablemente la longitud del contig N50 y disminuir la longitud del gap, e incluso cerrar un genoma microbiano con este enfoque. [12]
Se ha demostrado que la integración de mapas de ligamiento puede ayudar a los ensamblajes de novo con datos de recombinación a escala cromosómica de largo alcance, sin los cuales, los ensamblajes pueden estar sujetos a errores de ordenamiento macroscópico. El mapeo óptico es el proceso de inmovilizar el ADN en un portaobjetos y digerirlo con enzimas de restricción. Luego, los extremos de los fragmentos se etiquetan con fluorescencia y se vuelven a unir. Durante las últimas dos décadas, el mapeo óptico ha sido prohibitivamente costoso, pero los avances recientes en tecnología han reducido el costo significativamente. [5] [13]