El skimming del genoma es un enfoque de secuenciación que utiliza una secuenciación superficial de paso bajo de un genoma (hasta un 5 %) para generar fragmentos de ADN, conocidos como skims del genoma . [1] [2] Estos skims del genoma contienen información sobre la fracción de alta copia del genoma. [2] La fracción de alta copia del genoma consiste en el ADN ribosómico , el genoma del plástido ( plastoma ), el genoma mitocondrial ( mitogenoma ) y las repeticiones nucleares como los microsatélites y los elementos transponibles . [3] Emplea tecnología de secuenciación de última generación de alto rendimiento para generar estos skims. [1] Aunque estos skims son simplemente "la punta del iceberg genómico", el análisis filogenómico de ellos aún puede proporcionar información sobre la historia evolutiva y la biodiversidad a un menor costo y a mayor escala que los métodos tradicionales. [2] [3] [4] Debido a la pequeña cantidad de ADN requerida para el skimming del genoma, su metodología se puede aplicar en otros campos distintos de la genómica. Tareas como ésta incluyen determinar la trazabilidad de los productos en la industria alimentaria, hacer cumplir las regulaciones internacionales sobre biodiversidad y recursos biológicos y la ciencia forense . [5]
Además del ensamblaje de los genomas de organelas más pequeñas, el desnatado del genoma también se puede utilizar para descubrir secuencias ortólogas conservadas para estudios filogenómicos . En los estudios filogenómicos de patógenos multicelulares , el desnatado del genoma se puede utilizar para encontrar genes efectores , descubrir endosimbiontes y caracterizar la variación genómica . [6]
Los espaciadores transcritos internos (ITS) son regiones no codificantes dentro del ADNr 18-5.8-28S en eucariotas y son una característica del ADNr que se ha utilizado en estudios de desnatado del genoma. [7] Los ITS se utilizan para detectar diferentes especies dentro de un género , debido a su alta variabilidad interespecies. [7] Estos tienen baja variabilidad individual, lo que impide la identificación de cepas o individuos distintos. [7] También están presentes en todos los eucariotas , tienen una alta tasa de evolución y se han utilizado en análisis filogenéticos entre y a través de especies. [7]
Cuando se apunta al ADNr nuclear, se sugiere que se logre una profundidad de secuenciación final mínima de 100X y que se enmascaren las secuencias con una profundidad inferior a 5X. [1]
El genoma del plástido , o plastoma, se ha utilizado ampliamente en estudios de identificación y evolución mediante el desnatado del genoma debido a su alta abundancia en las plantas (~3-5% del ADN celular), tamaño pequeño, estructura simple, mayor conservación de la estructura genética que los genes nucleares o mitocondriales. [8] [9] Los estudios de plástidos se han visto limitados anteriormente por el número de regiones que se podían evaluar con los enfoques tradicionales. [9] Mediante el desnatado del genoma, la secuenciación de todo el genoma del plástido, o plastoma, se puede realizar a una fracción del coste y el tiempo necesarios para los enfoques de secuenciación típicos como la secuenciación de Sanger . [3] Se han sugerido los plastomas como un método para sustituir los códigos de barras de ADN tradicionales en las plantas, [3] como los genes de código de barras rbcL y matK . En comparación con el código de barras de ADN típico, el desnatado del genoma produce plastomas a una décima parte del coste por base. [5] Los usos recientes de los análisis de genomas de plastomas han permitido una mayor resolución de las filogenias, una mayor diferenciación de grupos específicos dentro de taxones y estimaciones más precisas de la biodiversidad. [9] Además, el plastoma se ha utilizado para comparar especies dentro de un género y observar los cambios evolutivos y la diversidad dentro de un grupo. [9]
Cuando se trabaja con plastomas, se recomienda lograr una profundidad de secuenciación final mínima de 30X para las regiones de copia única a fin de garantizar ensamblajes de alta calidad. Los polimorfismos de un solo nucleótido (SNP) con una profundidad inferior a 20X deben enmascararse. [1]
El genoma mitocondrial , o mitogenoma, se utiliza como marcador molecular en una gran variedad de estudios debido a su herencia materna , alto número de copias en la célula, falta de recombinación y alta tasa de mutación. A menudo se utiliza para estudios filogenéticos, ya que es muy uniforme en todos los grupos de metazoos, con una estructura de molécula de ADN circular de doble cadena, de aproximadamente 15 a 20 kilobases, con 37 genes de ARN ribosómico, 13 genes codificadores de proteínas y 22 genes de ARN de transferencia. Las secuencias de código de barras mitocondriales, como COI, NADH2 , 16S rRNA y 12S rRNA , también se pueden utilizar para la identificación taxonómica. [10] La mayor publicación de mitogenomas completos permite la inferencia de filogenias robustas en muchos grupos taxonómicos, y puede capturar eventos como reordenamientos genéticos y posicionamiento de elementos genéticos móviles. Utilizando el análisis genético para ensamblar mitogenomas completos, se puede resolver la historia filogenética y la biodiversidad de muchos organismos. [4]
Cuando se apunta a mitogenomas, no hay sugerencias específicas para la profundidad mínima de secuenciación final, ya que los mitogenomas son más variables en tamaño y más variables en complejidad en las especies vegetales, lo que aumenta la dificultad de ensamblar secuencias repetidas. Sin embargo, las secuencias codificantes altamente conservadas y las regiones flanqueantes no repetitivas se pueden ensamblar utilizando el ensamblaje guiado por referencia . Las secuencias deben enmascararse de manera similar a cuando se apunta a plastomas y ADN ribosómico nuclear. [1]
Las repeticiones nucleares en el genoma son una fuente de datos filogenéticos poco utilizada. Cuando se secuencia el genoma nuclear en un 5% del genoma, se encuentran presentes miles de copias de las repeticiones nucleares. Aunque las repeticiones secuenciadas solo serán representativas de las que se encuentran en todo el genoma, se ha demostrado que estas fracciones secuenciadas reflejan con precisión la abundancia genómica. Estas repeticiones se pueden agrupar de novo y se puede estimar su abundancia. La distribución y la aparición de estos tipos de repeticiones pueden ser filogenéticamente informativas y proporcionar información sobre la historia evolutiva de varias especies. [1]
El ADN de bajo número de copias puede resultar útil para estudios filogenéticos y de desarrollo evolutivo. [11] Se puede extraer de fracciones de alto número de copias de varias maneras, como desarrollar cebadores a partir de bases de datos que contienen genes ortólogos conservados , genes ortólogos conservados de copia única y genes de copia compartida. [11] Otro método es buscar sondas novedosas que se dirijan a genes de bajo número de copias utilizando transcriptómica a través de Hyb-Seq. [11] Si bien los genomas nucleares ensamblados mediante desnatado de genoma están extremadamente fragmentados, algunos genes nucleares de copia única de bajo número de copias se pueden ensamblar con éxito. [12]
Los métodos anteriores para intentar recuperar ADN degradado se basaban en la secuenciación de Sanger y dependían de grandes plantillas de ADN intactas, y se veían afectados por la contaminación y el método de conservación. Por otro lado, el descifrado del genoma se puede utilizar para extraer información genética de especies preservadas en herbarios y museos, donde el ADN suele estar muy degradado y queda muy poco. [4] [13] Los estudios en plantas muestran que el ADN de hasta 80 años y con tan solo 500 pg de ADN degradado se puede utilizar con el descifrado del genoma para inferir información genómica. [13] En los herbarios , incluso con un bajo rendimiento y ADN de baja calidad, un estudio aún pudo producir "secuencias completas de ADN ribosómico y de cloroplastos de alta calidad" a gran escala para análisis posteriores. [14]
En los estudios de campo, los invertebrados se almacenan en etanol, que generalmente se descarta durante los estudios basados en ADN. [15] Se ha demostrado que la extracción del genoma detecta la baja cantidad de ADN de esta fracción de etanol y proporciona información sobre la biomasa de los especímenes en una fracción, la microbiota de las capas de tejido externas y el contenido intestinal (como presas) liberado por el reflejo del vómito. [15] Por lo tanto, la extracción del genoma puede proporcionar un método adicional para comprender la ecología a través del ADN de bajo número de copias. [15]
Los protocolos de extracción de ADN varían según la fuente de la muestra (es decir, plantas, animales, etc.). Los siguientes protocolos de extracción de ADN se han utilizado en el análisis de genomas:
Los protocolos de preparación de bibliotecas dependerán de diversos factores: organismo, tipo de tejido, etc. En el caso de especímenes conservados, puede ser necesario realizar modificaciones específicas en los protocolos de preparación de bibliotecas. [1] Los siguientes protocolos de preparación de bibliotecas se han utilizado en el skimming del genoma:
La secuenciación con lecturas cortas o largas dependerá del genoma o los genes de destino. Los microsatélites en repeticiones nucleares requieren lecturas más largas. [23] Las siguientes plataformas de secuenciación se han utilizado en el skimming del genoma:
Algunos investigadores han elegido la plataforma Illumina MiSeq por su gran longitud de lectura para lecturas cortas. [6]
Después de la extracción del genoma, el ADN organelar de alto número de copias se puede ensamblar con una guía de referencia o ensamblarse de novo . Las repeticiones nucleares de alto número de copias se pueden agrupar de novo . [1] Los ensambladores elegidos dependerán del genoma de destino y de si se utilizan lecturas cortas o largas. Se han utilizado las siguientes herramientas para ensamblar genomas a partir de extracciones del genoma:
La anotación se utiliza para identificar genes en los conjuntos de genomas. La herramienta de anotación elegida dependerá del genoma de destino y de las características de destino de ese genoma. Las siguientes herramientas de anotación se han utilizado en el análisis de genomas para anotar genomas de organelos:
Las secuencias ensambladas se alinean globalmente y luego se infieren los árboles filogenéticos utilizando un software de reconstrucción filogenética. El software elegido para la reconstrucción filogenética dependerá de si es apropiado un método de máxima verosimilitud (ML) , máxima parsimonia (MP) o inferencia bayesiana (BI) . Los siguientes programas de reconstrucción filogenética se han utilizado en el descifrado de genomas:
Se han desarrollado varios protocolos, procesos y herramientas bioinformáticas para ayudar a automatizar los procesos posteriores del análisis del genoma.
Hyb-Seq es un nuevo protocolo para capturar genes nucleares de bajo número de copias que combina el enriquecimiento del objetivo y el desnatado del genoma. [29] El enriquecimiento del objetivo de los loci de bajo número de copias se logra a través de sondas de enriquecimiento diseñadas para exones de copia única específicos, pero requiere un borrador nuclear del genoma y el transcriptoma del organismo objetivo. Luego, las bibliotecas enriquecidas con el objetivo se secuencian y las lecturas resultantes se procesan, ensamblan e identifican. Usando lecturas fuera del objetivo, también se pueden ensamblar cistrones de ADNr y plastomas completos. A través de este proceso, Hyb-Seq puede producir conjuntos de datos a escala del genoma para la filogenómica .
GetOrganelle es un kit de herramientas que ensambla genomas de organelos mediante lecturas de desnatado del genoma. [30] Las lecturas asociadas a organelos se reclutan utilizando un enfoque modificado de "cebo y mapeo iterativo". Las lecturas que se alinean con el genoma objetivo, utilizando Bowtie2, [31] se denominan "lecturas semilla". Las lecturas semilla se utilizan como "cebos" para reclutar más lecturas asociadas a organelos a través de múltiples iteraciones de extensión. El algoritmo de extensión de lectura utiliza un enfoque de hash , donde las lecturas se cortan en subcadenas de ciertas longitudes, denominadas "palabras". En cada iteración de extensión, estas "palabras" se agregan a una tabla hash , denominada "grupo de cebos", que aumenta dinámicamente de tamaño con cada iteración. Debido a la baja cobertura de secuenciación de los desnatados del genoma, las lecturas no objetivo, incluso aquellas con alta similitud de secuencia con las lecturas objetivo, en gran medida no se reclutan. Utilizando las lecturas finales asociadas a los organelos reclutados, GetOrganelle lleva a cabo un ensamblaje de novo , utilizando SPAdes . [32] El gráfico de ensamblaje se filtra y desenreda, produciendo todas las rutas posibles del gráfico y, por lo tanto, todas las configuraciones de los genomas organelos circulares.
Skmer es una herramienta que no requiere ensamblaje ni alineación para calcular distancias genómicas entre los fragmentos de genoma de consulta y de referencia. [33] Skmer utiliza un enfoque de dos etapas para calcular estas distancias. En primer lugar, genera un perfil de frecuencia de k-meros utilizando una herramienta llamada JellyFish [34] y luego estos k-meros se convierten en hashes. [33] Se selecciona un subconjunto aleatorio de estos hashes para formar un denominado "boceto". [33] Para su segunda etapa, Skmer utiliza Mash [35] para estimar el índice Jaccard de dos de estos bocetos. [33] La combinación de estas dos etapas se utiliza para estimar la distancia evolutiva. [33]
Geneious es una plataforma de software integradora que permite a los usuarios realizar varios pasos en el análisis bioinformático, como ensamblaje , alineación y filogenética, incorporando otras herramientas dentro de una plataforma basada en GUI. [18] [28]
PhyloHerb es un sistema de procesamiento bioinformático escrito en Python . Utiliza una base de datos incorporada o una referencia especificada por el usuario para extraer secuencias ortólogas de regiones ribosómicas nucleares , mitocondriales y de plástidos mediante una búsqueda BLAST. [36]
Aunque el skimming del genoma suele elegirse como un método rentable para secuenciar genomas organelares, el skimming del genoma puede realizarse in silico si ya se han obtenido datos de secuenciación (profunda) de todo el genoma. Se ha demostrado que el skimming del genoma simplifica el ensamblaje del genoma organelar al submuestrear las lecturas del genoma nuclear mediante el skimming del genoma in silico . [37] [38] Dado que los genomas organelares tendrán un alto número de copias en la célula, el skimming del genoma in silico esencialmente filtra las secuencias nucleares, dejando una mayor proporción de secuencias organelares a secuencias nucleares para el ensamblaje, lo que reduce la complejidad del paradigma de ensamblaje. El skimming del genoma in silico se realizó primero como una prueba de concepto, optimizando los parámetros para el tipo de lectura, la longitud de la lectura y la cobertura de la secuenciación. [1]
Además de los usos actuales enumerados anteriormente, el skimming del genoma también se ha aplicado a otras tareas, como la cuantificación de mezclas de polen, [19] el monitoreo y la conservación de ciertas poblaciones. [39] El skimming del genoma también se puede utilizar para la llamada de variantes, para examinar polimorfismos de un solo nucleótido en una especie. [22]
El desnatado del genoma es un método rentable, rápido y confiable para generar grandes conjuntos de datos superficiales, [5] ya que se generan varios conjuntos de datos (plástidos, mitocondriales, nucleares) por ejecución. [3] Es muy simple de implementar, requiere menos trabajo de laboratorio y optimización, y no requiere conocimiento a priori del organismo ni del tamaño de su genoma. [3] Esto proporciona una vía de bajo riesgo para la investigación biológica y la generación de hipótesis sin un gran compromiso de recursos. [6]
El skimming del genoma es un enfoque especialmente ventajoso en los casos en los que el ADN genómico puede ser antiguo y estar degradado por tratamientos químicos, como en el caso de especímenes de colecciones de herbarios y museos, [4] un recurso genómico en gran medida sin explotar. El skimming del genoma permite la caracterización molecular de especies raras o extintas. [5] Los procesos de conservación en etanol a menudo dañan el ADN genómico, lo que dificulta el éxito de los protocolos de PCR estándar [3] y otros enfoques basados en amplicones. [5] Esto presenta una oportunidad para secuenciar muestras con concentraciones de ADN muy bajas, sin la necesidad de enriquecimiento o amplificación del ADN. Se ha demostrado que la preparación de bibliotecas para skimming específico del genoma funciona con tan solo 37 ng de ADN (0,2 ng/ul), 135 veces menos de lo recomendado por Illumina. [1]
Aunque el desnatado del genoma se utiliza principalmente para extraer plastomas y mitogenomas con un alto número de copias, también puede proporcionar secuencias parciales de secuencias nucleares con un bajo número de copias. Estas secuencias pueden no ser lo suficientemente completas para el análisis filogenómico, pero pueden ser suficientes para diseñar cebadores y sondas de PCR para enfoques basados en hibridación. [1]
El skimming del genoma no depende de ningún cebador específico y no se ve afectado por los reordenamientos genéticos. [4]
El análisis superficial del genoma solo alcanza para analizarlo superficialmente, por lo que no será suficiente para cuestiones biológicas que requieran predicción y anotación de genes. [6] Estos pasos posteriores son necesarios para realizar análisis más profundos y significativos.
Aunque las secuencias genómicas de plástidos son abundantes en los análisis del genoma, la presencia de pseudogenes mitocondriales y nucleares de origen plástido puede plantear problemas potenciales para los ensamblajes de plastomas. [1]
Una combinación de profundidad de secuenciación y tipo de lectura, así como el objetivo genómico (plastoma, mitogenoma, etc.), influirán en el éxito de los ensamblajes de un solo extremo y de extremos emparejados, por lo que estos parámetros deben elegirse con cuidado. [1]
Tanto la parte de laboratorio húmedo como la bioinformática del skimming del genoma tienen ciertos desafíos con la escalabilidad. Aunque el costo de la secuenciación en el skimming del genoma es asequible a $80 por 1 Gb en 2016, la preparación de la biblioteca para la secuenciación sigue siendo muy cara, al menos ~$200 por muestra (a partir de 2016). Además, la mayoría de los protocolos de preparación de bibliotecas aún no se han automatizado completamente con robótica. En el lado de la bioinformática, se deben diseñar bases de datos complejas y flujos de trabajo automatizados para manejar las grandes cantidades de datos resultantes del skimming del genoma. Se debe implementar la automatización de los siguientes procesos: [40]
Algunos de estos desafíos de escalabilidad ya se han implementado, como se muestra arriba en la sección "Herramientas y pipelines".
{{cite book}}
: |last=
tiene nombre genérico ( ayuda )Mantenimiento de CS1: varios nombres: lista de autores ( enlace ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )