La metagenómica es el estudio del material genético recuperado directamente de muestras ambientales o clínicas mediante un método llamado secuenciación . El campo amplio también puede denominarse genómica ambiental , ecogenómica , genómica comunitaria o microbiómica .
Mientras que la microbiología tradicional , la secuenciación del genoma microbiano y la genómica se basan en cultivos clonales cultivados , la secuenciación temprana de genes ambientales clonaba genes específicos (a menudo el gen 16S rRNA ) para producir un perfil de diversidad en una muestra natural. Dicho trabajo reveló que los métodos basados en el cultivo habían pasado por alto la gran mayoría de la biodiversidad microbiana . [2]
Debido a su capacidad para revelar la diversidad previamente oculta de la vida microscópica, la metagenómica ofrece una forma poderosa de comprender el mundo microbiano que podría revolucionar la comprensión de la biología. [3] A medida que el precio de la secuenciación del ADN continúa cayendo, la metagenómica ahora permite investigar la ecología microbiana a una escala y detalle mucho mayores que antes. Estudios recientes utilizan secuenciación dirigida por " escopeta " o por PCR para obtener muestras en gran medida imparciales de todos los genes de todos los miembros de las comunidades muestreadas. [4]
El término "metagenómica" fue utilizado por primera vez por Jo Handelsman , Robert M. Goodman , Michelle R. Rondon, Jon Clardy y Sean F. Brady, y apareció por primera vez en una publicación en 1998. [5] El término metagenoma hacía referencia a la idea de que un Una colección de genes secuenciados del medio ambiente podría analizarse de forma análoga al estudio de un único genoma . En 2005, Kevin Chen y Lior Pachter (investigadores de la Universidad de California, Berkeley ) definieron la metagenómica como "la aplicación de la técnica genómica moderna sin la necesidad de aislamiento y cultivo en laboratorio de especies individuales". [6]
La secuenciación convencional comienza con un cultivo de células idénticas como fuente de ADN . Sin embargo, los primeros estudios metagenómicos revelaron que probablemente existen grandes grupos de microorganismos en muchos entornos que no pueden cultivarse y, por tanto, no pueden secuenciarse. Estos primeros estudios se centraron en secuencias de ARN ribosomal (ARNr) 16S que son relativamente cortas, a menudo conservadas dentro de una especie y, en general, diferentes entre especies. Se han encontrado muchas secuencias de ARNr 16S que no pertenecen a ninguna especie cultivada conocida , lo que indica que existen numerosos organismos no aislados. Estos estudios de genes de ARN ribosomal tomados directamente del medio ambiente revelaron que los métodos basados en el cultivo encuentran menos del 1% de las especies de bacterias y arqueas en una muestra. [2] Gran parte del interés en la metagenómica proviene de estos descubrimientos que demostraron que la gran mayoría de los microorganismos habían pasado desapercibidos anteriormente.
En la década de 1980, Norman R. Pace y sus colegas llevaron a cabo los primeros trabajos moleculares en este campo , quienes utilizaron la PCR para explorar la diversidad de secuencias de ARN ribosomal. [7] Los conocimientos adquiridos a partir de estos estudios innovadores llevaron a Pace a proponer la idea de clonar ADN directamente a partir de muestras ambientales ya en 1985. [8] Esto llevó al primer informe sobre el aislamiento y la clonación de ADN en masa a partir de una muestra ambiental, publicado por Pace y colegas en 1991 [9] mientras Pace estaba en el Departamento de Biología de la Universidad de Indiana . Se hicieron esfuerzos considerables para garantizar que no se tratara de falsos positivos de PCR y respaldaron la existencia de una comunidad compleja de especies inexploradas. Aunque esta metodología se limitó a explorar genes codificantes no proteicos altamente conservados , apoyó las primeras observaciones basadas en la morfología microbiana de que la diversidad era mucho más compleja de lo que se conocía mediante los métodos de cultivo. Poco después, en 1995, Healy informó sobre el aislamiento metagenómico de genes funcionales de "zoobibliotecas" construidas a partir de un cultivo complejo de organismos ambientales cultivados en el laboratorio sobre pastos secos . [10] Después de dejar el laboratorio Pace, Edward DeLong continuó en el campo y ha publicado trabajos que en gran medida han sentado las bases para las filogenias ambientales basadas en secuencias distintivas de 16S, comenzando con la construcción de bibliotecas por parte de su grupo a partir de muestras marinas . [11]
En 2002, Mya Breitbart , Forest Rohwer y sus colegas utilizaron secuenciación ambiental tipo escopeta (ver más abajo) para demostrar que 200 litros de agua de mar contienen más de 5000 virus diferentes. [12] Estudios posteriores demostraron que hay más de mil especies virales en las heces humanas y posiblemente un millón de virus diferentes por kilogramo de sedimento marino , incluidos muchos bacteriófagos . Básicamente, todos los virus en estos estudios eran especies nuevas. En 2004, Gene Tyson, Jill Banfield y sus colegas de la Universidad de California, Berkeley y el Joint Genome Institute secuenciaron el ADN extraído de un sistema de drenaje ácido de una mina . [13] Este esfuerzo dio como resultado los genomas completos, o casi completos, de un puñado de bacterias y arqueas que previamente se habían resistido a los intentos de cultivarlas. [14]
A partir de 2003, Craig Venter , líder del proyecto paralelo financiado con fondos privados del Proyecto Genoma Humano , ha dirigido la Expedición Global de Muestreo de Océanos (GOS), circunnavegando el mundo y recolectando muestras metagenómicas a lo largo del viaje. Todas estas muestras fueron secuenciadas mediante secuenciación de escopeta, con la esperanza de identificar nuevos genomas (y, por lo tanto, nuevos organismos). El proyecto piloto, llevado a cabo en el Mar de los Sargazos , encontró ADN de casi 2.000 especies diferentes , incluidos 148 tipos de bacterias nunca antes vistas. [15] Venter exploró a fondo la costa oeste de los Estados Unidos y completó una expedición de dos años en 2006 para explorar los mares Báltico , Mediterráneo y Negro . El análisis de los datos metagenómicos recopilados durante este viaje reveló dos grupos de organismos, uno compuesto por taxones adaptados a condiciones ambientales de "festín o hambruna", y un segundo compuesto por taxones relativamente menos pero más abundantes y ampliamente distribuidos, compuestos principalmente de plancton . [dieciséis]
En 2005, Stephan C. Schuster de la Universidad Penn State y sus colegas publicaron las primeras secuencias de una muestra ambiental generada con secuenciación de alto rendimiento , en este caso pirosecuenciación masiva paralela desarrollada por 454 Life Sciences . [17] Otro artículo inicial en esta área apareció en 2006 por Robert Edwards, Forest Rohwer y colegas de la Universidad Estatal de San Diego . [18]
La recuperación de secuencias de ADN de más de unos pocos miles de pares de bases a partir de muestras ambientales era muy difícil hasta que los avances recientes en las técnicas de biología molecular permitieron la construcción de bibliotecas en cromosomas artificiales bacterianos (BAC), que proporcionaron mejores vectores para la clonación molecular . [20]
Los avances en bioinformática , los refinamientos de la amplificación del ADN y la proliferación del poder computacional han ayudado enormemente al análisis de secuencias de ADN recuperadas de muestras ambientales, permitiendo la adaptación de la secuenciación de escopeta a muestras metagenómicas (conocida también como secuenciación de escopeta de metagenoma completo o secuenciación WMGS). El enfoque, utilizado para secuenciar muchos microorganismos cultivados y el genoma humano , corta aleatoriamente el ADN, secuencia muchas secuencias cortas y las reconstruye en una secuencia consenso . La secuenciación de escopeta revela genes presentes en muestras ambientales. Históricamente, se utilizaban bibliotecas de clones para facilitar esta secuenciación. Sin embargo, con los avances en las tecnologías de secuenciación de alto rendimiento, el paso de clonación ya no es necesario y se pueden obtener mayores rendimientos de datos de secuenciación sin este paso de cuello de botella que requiere mucha mano de obra. La metagenómica de escopeta proporciona información sobre qué organismos están presentes y qué procesos metabólicos son posibles en la comunidad. [21] Debido a que la recolección de ADN de un entorno en gran medida no está controlada, los organismos más abundantes en una muestra ambiental están mejor representados en los datos de secuencia resultantes. Para lograr la alta cobertura necesaria para resolver completamente los genomas de miembros de la comunidad subrepresentados, se necesitan muestras grandes, a menudo prohibitivas. Por otro lado, la naturaleza aleatoria de la secuenciación escopeta garantiza que muchos de estos organismos, que de otro modo pasarían desapercibidos utilizando técnicas de cultivo tradicionales, estarán representados por al menos algunos pequeños segmentos de secuencia. [13]
Una ventaja de la secuenciación de alto rendimiento es que esta técnica no requiere clonar el ADN antes de la secuenciación, lo que elimina uno de los principales sesgos y cuellos de botella en el muestreo ambiental. Los primeros estudios metagenómicos realizados mediante secuenciación de alto rendimiento utilizaron pirosecuenciación 454 masivamente paralela . [17] Otras tres tecnologías comúnmente aplicadas al muestreo ambiental son la Ion Torrent Personal Genome Machine , Illumina MiSeq o HiSeq y el sistema SOLiD de Applied Biosystems . [22] Estas técnicas de secuenciación de ADN generan fragmentos más cortos que la secuenciación de Sanger ; El sistema Ion Torrent PGM y la pirosecuenciación 454 normalmente producen lecturas de ~400 pb, Illumina MiSeq produce lecturas de 400 a 700 pb (dependiendo de si se utilizan opciones de extremos emparejados) y SOLiD produce lecturas de 25 a 75 pb. [23] Históricamente, estas longitudes de lectura eran significativamente más cortas que la longitud de lectura de secuenciación típica de Sanger de ~750 pb; sin embargo, la tecnología Illumina se está acercando rápidamente a este punto de referencia. Sin embargo, esta limitación se compensa con un número mucho mayor de lecturas de secuencia. En 2009, los metagenomas pirosecuenciados generan entre 200 y 500 megabases, y las plataformas Illumina generan entre 20 y 50 gigabases, pero estos resultados han aumentado en órdenes de magnitud en los últimos años. [24]
Un enfoque emergente combina la secuenciación escopeta y la captura de la conformación cromosómica (Hi-C), que mide la proximidad de dos secuencias de ADN dentro de la misma célula, para guiar el ensamblaje del genoma microbiano. [25] Las tecnologías de secuenciación de lectura larga, incluidas PacBio RSII y PacBio Sequel de Pacific Biosciences , y Nanopore MinION, GridION, PromethION de Oxford Nanopore Technologies , son otra opción para obtener lecturas de secuenciación largas que deberían facilitar el proceso de ensamblaje. [26]
Los datos generados por los experimentos de metagenómica son enormes e inherentemente ruidosos y contienen datos fragmentados que representan hasta 10.000 especies. [1] La secuenciación del metagenoma del rumen de vaca generó 279 gigabases , o 279 mil millones de pares de bases de datos de secuencia de nucleótidos, [28] mientras que el catálogo de genes del microbioma intestinal humano identificó 3,3 millones de genes ensamblados a partir de 567,7 gigabases de datos de secuencia. [29] Recopilar, curar y extraer información biológica útil de conjuntos de datos de este tamaño representa importantes desafíos computacionales para los investigadores. [21] [30] [31] [32]
El primer paso del análisis de datos metagenómicos requiere la ejecución de ciertos pasos de prefiltrado, incluida la eliminación de secuencias redundantes y de baja calidad y de secuencias de probable origen eucariota (especialmente en metagenomas de origen humano). [33] [34] Los métodos disponibles para la eliminación de secuencias contaminantes de ADN genómico eucariótico incluyen Eu-Detect y DeConseq. [35] [36]
Los datos de secuencia de ADN de proyectos genómicos y metagenómicos son esencialmente los mismos, pero los datos de secuencia genómica ofrecen una mayor cobertura , mientras que los datos metagenómicos suelen ser muy no redundantes. [31] Además, el mayor uso de tecnologías de secuenciación de segunda generación con longitudes de lectura cortas significa que gran parte de los datos metagenómicos futuros serán propensos a errores. En combinación, estos factores hacen que el ensamblaje de lecturas de secuencias metagenómicas en genomas sea difícil y poco confiable. Los errores de ensamblaje son causados por la presencia de secuencias de ADN repetitivas que dificultan especialmente el ensamblaje debido a la diferencia en la abundancia relativa de especies presentes en la muestra. [37] Los errores de ensamblaje también pueden implicar la combinación de secuencias de más de una especie en contigs quiméricos . [37]
Existen varios programas de ensamblaje, la mayoría de los cuales pueden usar información de etiquetas de extremos emparejados para mejorar la precisión de los ensamblajes. Algunos programas, como Phrap o Celera Assembler, fueron diseñados para usarse para ensamblar genomas individuales pero, sin embargo, producen buenos resultados al ensamblar conjuntos de datos metagenómicos. [1] Otros programas, como el ensamblador Velvet , se han optimizado para las lecturas más cortas producidas por la secuenciación de segunda generación mediante el uso de gráficos de De Bruijn . [38] [39] El uso de genomas de referencia permite a los investigadores mejorar el ensamblaje de las especies microbianas más abundantes, pero este enfoque está limitado por el pequeño subconjunto de filos microbianos para los cuales hay genomas secuenciados disponibles. [37] Después de crear un ensamblaje, un desafío adicional es la "deconvolución metagenómica", o determinar qué secuencias provienen de qué especies en la muestra. [40]
Los canales de análisis metagenómico utilizan dos enfoques en la anotación de regiones codificantes en los contigs ensamblados. [37] El primer enfoque consiste en identificar genes basándose en la homología con genes que ya están disponibles públicamente en bases de datos de secuencias , generalmente mediante búsquedas BLAST . Este tipo de enfoque se implementa en el programa MEGAN 4. [41] El segundo, ab initio , utiliza características intrínsecas de la secuencia para predecir regiones codificantes basadas en conjuntos de entrenamiento de genes de organismos relacionados. Este es el enfoque adoptado por programas como GeneMark [42] y GLIMMER . La principal ventaja de la predicción ab initio es que permite la detección de regiones codificantes que carecen de homólogos en las bases de datos de secuencias; sin embargo, es más preciso cuando hay grandes regiones de ADN genómico contiguo disponibles para comparación. [1]
Las anotaciones genéticas proporcionan el "qué", mientras que las mediciones de la diversidad de especies proporcionan el "quién". [43] Para conectar la composición y función de la comunidad en los metagenomas, las secuencias deben agruparse. Binning es el proceso de asociar una secuencia particular con un organismo. [37] En la combinación basada en similitudes, se utilizan métodos como BLAST para buscar rápidamente marcadores filogenéticos o secuencias similares en bases de datos públicas existentes. Este enfoque se implementa en MEGAN . [44] Otra herramienta, PhymmBL, utiliza modelos de Markov interpolados para asignar lecturas. [1] MetaPhlAn y AMPHORA son métodos basados en marcadores únicos específicos de clados para estimar abundancias relativas de organismos con rendimientos computacionales mejorados. [45] Otras herramientas, como mOTU [46] [47] y MetaPhyler, [48] utilizan genes marcadores universales para perfilar especies procarióticas. Con el perfilador mOTUs es posible perfilar especies sin un genoma de referencia, mejorando la estimación de la diversidad de la comunidad microbiana. [47] Los métodos recientes, como SLIMM, utilizan el panorama de cobertura de lectura de genomas de referencia individuales para minimizar los resultados falsos positivos y obtener abundancias relativas confiables. [49] En la combinación basada en composición, los métodos utilizan características intrínsecas de la secuencia, como frecuencias de oligonucleótidos o sesgo de uso de codones . [1] Una vez agrupadas las secuencias, es posible realizar análisis comparativos de diversidad y riqueza.
La enorme cantidad de datos de secuencias que crecen exponencialmente es un desafío abrumador que se complica por la complejidad de los metadatos asociados con los proyectos metagenómicos. Los metadatos incluyen información detallada sobre la geografía tridimensional (incluida la profundidad o la altura) y las características ambientales de la muestra, datos físicos sobre el sitio de la muestra y la metodología del muestreo. [31] Esta información es necesaria tanto para garantizar la replicabilidad como para permitir el análisis posterior. Debido a su importancia, la revisión y curación de metadatos y datos colaborativos requieren formatos de datos estandarizados ubicados en bases de datos especializadas, como Genomes OnLine Database (GOLD). [50]
Se han desarrollado varias herramientas para integrar metadatos y datos de secuencia, lo que permite realizar análisis comparativos posteriores de diferentes conjuntos de datos utilizando una serie de índices ecológicos. En 2007, Folker Meyer y Robert Edwards y un equipo del Laboratorio Nacional Argonne y la Universidad de Chicago lanzaron Metagenomics Rapid Annotation utilizando el servidor de tecnología de subsistema ( MG-RAST ), un recurso comunitario para el análisis de conjuntos de datos de metagenomas. [51] Hasta junio de 2012 se han analizado más de 14,8 terabases (14x10 12 bases) de ADN, con más de 10.000 conjuntos de datos públicos disponibles gratuitamente para comparar dentro de MG-RAST. Más de 8.000 usuarios han enviado un total de 50.000 metagenomas a MG-RAST. El sistema Integrated Microbial Genomes/Metagenomes (IMG/M) también proporciona una colección de herramientas para el análisis funcional de comunidades microbianas en función de su secuencia de metagenomas, basándose en genomas aislados de referencia incluidos en el sistema Integrated Microbial Genomes (IMG) y la Enciclopedia Genómica de Proyecto Bacterias y Arqueas (GEBA). [52]
Una de las primeras herramientas independientes para analizar datos de escopeta de metagenoma de alto rendimiento fue MEGAN (MEta Genome ANalyzer). [41] [44] Una primera versión del programa se utilizó en 2005 para analizar el contexto metagenómico de secuencias de ADN obtenidas de un hueso de mamut. [17] Basada en una comparación BLAST con una base de datos de referencia, esta herramienta realiza una combinación taxonómica y funcional, colocando las lecturas en los nodos de la taxonomía NCBI utilizando un algoritmo simple de ancestro común más bajo (LCA) o en los nodos de SEED. o clasificaciones KEGG , respectivamente. [53]
Con la llegada de instrumentos de secuenciación rápidos y económicos, el crecimiento de las bases de datos de secuencias de ADN es ahora exponencial (por ejemplo, la base de datos NCBI GenBank [54] ). Se necesitan herramientas más rápidas y eficientes para mantener el ritmo de la secuenciación de alto rendimiento, porque los enfoques basados en BLAST como MG-RAST o MEGAN se ejecutan lentamente para anotar muestras grandes (por ejemplo, varias horas para procesar un conjunto de datos/muestra de tamaño pequeño/mediano). [55] ). Así, recientemente han surgido clasificadores ultrarrápidos, gracias a servidores potentes y más asequibles. Estas herramientas pueden realizar la anotación taxonómica a una velocidad extremadamente alta, por ejemplo CLARK [56] (según los autores de CLARK, puede clasificar con precisión "32 millones de lecturas cortas metagenómicas por minuto"). A esa velocidad, se puede procesar un conjunto de datos/muestra muy grande de mil millones de lecturas cortas en aproximadamente 30 minutos.
Con la creciente disponibilidad de muestras que contienen ADN antiguo y debido a la incertidumbre asociada con la naturaleza de esas muestras (daño en el ADN antiguo), [57] se ha puesto a disposición una herramienta rápida capaz de producir estimaciones de similitud conservadoras. Según los autores de FALCON, puede utilizar umbrales relajados y editar distancias sin afectar la memoria y el rendimiento de velocidad.
Los análisis comparativos entre metagenomas pueden proporcionar información adicional sobre la función de comunidades microbianas complejas y su papel en la salud del huésped. [58] Se pueden realizar comparaciones por pares o múltiples entre metagenomas a nivel de composición de secuencia (comparando el contenido de GC o el tamaño del genoma), diversidad taxonómica o complemento funcional. Se pueden hacer comparaciones de la estructura poblacional y la diversidad filogenética sobre la base del ARNr 16S y otros genes marcadores filogenéticos o, en el caso de comunidades de baja diversidad, mediante la reconstrucción del genoma a partir del conjunto de datos metagenómicos. [59] Se pueden hacer comparaciones funcionales entre metagenomas comparando secuencias con bases de datos de referencia como COG o KEGG , tabulando la abundancia por categoría y evaluando cualquier diferencia para determinar su significación estadística. [53] Este enfoque centrado en los genes enfatiza el complemento funcional de la comunidad en su conjunto en lugar de los grupos taxonómicos, y muestra que los complementos funcionales son análogos en condiciones ambientales similares. [59] En consecuencia, los metadatos sobre el contexto ambiental de la muestra metagenómica son especialmente importantes en los análisis comparativos, ya que brindan a los investigadores la capacidad de estudiar el efecto del hábitat sobre la estructura y función de la comunidad. [1]
Además, varios estudios también han utilizado patrones de uso de oligonucleótidos para identificar las diferencias entre diversas comunidades microbianas. Ejemplos de tales metodologías incluyen el enfoque de abundancia relativa de dinucleótidos de Willner et al. [60] y el enfoque HabiSign de Ghosh et al. [61] Este último estudio también indicó que las diferencias en los patrones de uso de tetranucleótidos se pueden utilizar para identificar genes (o lecturas metagenómicas) que se originan en hábitats específicos. Además, algunos métodos como TriageTools [62] o Compareads [63] detectan lecturas similares entre dos conjuntos de lecturas. La medida de similitud que aplican en las lecturas se basa en un número de palabras idénticas de longitud k compartidas por pares de lecturas.
Un objetivo clave en la metagenómica comparada es identificar grupos microbianos responsables de conferir características específicas a un entorno determinado. Sin embargo, debido a problemas en las tecnologías de secuenciación, es necesario tener en cuenta los artefactos, como en metagenomeSeq. [30] Otros han caracterizado las interacciones intermicrobianas entre los grupos microbianos residentes. Kuntal et al. desarrollaron una aplicación de análisis metagenómico comparativo basada en GUI llamada Community-Analyzer. [64] que implementa un algoritmo de diseño de gráficos basado en correlación que no solo facilita una visualización rápida de las diferencias en las comunidades microbianas analizadas (en términos de su composición taxonómica), sino que también proporciona información sobre las interacciones intermicrobianas inherentes que ocurren en ellas. En particular, este algoritmo de diseño también permite agrupar los metagenomas en función de los probables patrones de interacción intermicrobiana en lugar de simplemente comparar valores de abundancia de varios grupos taxonómicos. Además, la herramienta implementa varias funcionalidades interactivas basadas en GUI que permiten a los usuarios realizar análisis comparativos estándar entre microbiomas.
En muchas comunidades bacterianas, naturales o artificiales (como los biorreactores ), existe una importante división del trabajo en el metabolismo ( sintrofia ), durante la cual los productos de desecho de algunos organismos son metabolitos de otros. [65] En uno de esos sistemas, el biorreactor metanogénico , la estabilidad funcional requiere la presencia de varias especies sintróficas ( Syntrophobacterales y Synergistia ) trabajando juntas para convertir los recursos crudos en desechos completamente metabolizados ( metano ). [66] Utilizando estudios genéticos comparativos y experimentos de expresión con microarrays o proteómica, los investigadores pueden reconstruir una red metabólica que vaya más allá de los límites de las especies. Dichos estudios requieren un conocimiento detallado sobre qué versiones de qué proteínas están codificadas por qué especie e incluso por qué cepas de qué especie. Por lo tanto, la información genómica comunitaria es otra herramienta fundamental (junto con la metabolómica y la proteómica) en la búsqueda de determinar cómo una comunidad transfiere y transforma los metabolitos. [67]
La metagenómica permite a los investigadores acceder a la diversidad funcional y metabólica de las comunidades microbianas, pero no puede mostrar cuáles de estos procesos están activos. [59] La extracción y el análisis del ARNm metagenómico (el metatranscriptoma ) proporciona información sobre los perfiles de regulación y expresión de comunidades complejas. Debido a las dificultades técnicas (la corta vida media del ARNm, por ejemplo) en la recolección de ARN ambiental, hasta la fecha se han realizado relativamente pocos estudios metatranscriptómicos in situ de comunidades microbianas. [59] Aunque originalmente se limitaban a la tecnología de microarrays , los estudios de metatranscriptómica han utilizado tecnologías transcriptómicas para medir la expresión del genoma completo y la cuantificación de una comunidad microbiana, [59] empleadas por primera vez en el análisis de la oxidación del amoníaco en los suelos. [68]
La secuenciación metagenómica es particularmente útil en el estudio de comunidades virales. Como los virus carecen de un marcador filogenético universal compartido (como el ARN 16S para bacterias y arqueas, y el ARN 18S para eukarya), la única forma de acceder a la diversidad genética de la comunidad viral a partir de una muestra ambiental es a través de la metagenómica. Los metagenomas virales (también llamados viromas) deberían proporcionar cada vez más información sobre la diversidad y evolución viral. [69] [70] [71] [72] [73] Por ejemplo, un tubo metagenómico llamado Giant Virus Finder mostró la primera evidencia de la existencia de virus gigantes en un desierto salino [74] y en valles secos de la Antártida. [75]
La metagenómica tiene el potencial de avanzar en el conocimiento en una amplia variedad de campos. También se puede aplicar para resolver desafíos prácticos en medicina , ingeniería , agricultura , sostenibilidad y ecología . [31] [76]
Los suelos en los que crecen las plantas están habitados por comunidades microbianas, y un gramo de suelo contiene alrededor de 10 9 -10 10 células microbianas que comprenden aproximadamente una gigabase de información de secuencia. [77] [78] Las comunidades microbianas que habitan en los suelos son algunas de las más complejas conocidas por la ciencia y siguen siendo poco comprendidas a pesar de su importancia económica. [79] Los consorcios microbianos realizan una amplia variedad de servicios ecosistémicos necesarios para el crecimiento de las plantas, incluida la fijación de nitrógeno atmosférico , el ciclo de nutrientes , la supresión de enfermedades y el secuestro de hierro y otros metales . [80] Se están utilizando estrategias de metagenómica funcional para explorar las interacciones entre plantas y microbios a través del estudio independiente del cultivo de estas comunidades microbianas. [81] [82] Al permitir comprender el papel de miembros raros o no cultivados previamente de la comunidad en el ciclo de nutrientes y la promoción del crecimiento de las plantas, los enfoques metagenómicos pueden contribuir a una mejor detección de enfermedades en cultivos y ganado y a la adaptación de prácticas agrícolas mejoradas que mejoren la salud de los cultivos aprovechando la relación entre los microbios y las plantas. [31]
Los biocombustibles son combustibles derivados de la conversión de biomasa , como en la conversión de celulosa contenida en tallos de maíz , pasto varilla y otra biomasa en etanol celulósico . [31] Este proceso depende de consorcios (asociaciones) microbianos que transforman la celulosa en azúcares , seguido de la fermentación de los azúcares en etanol . Los microbios también producen una variedad de fuentes de bioenergía, incluidos metano e hidrógeno . [31]
La deconstrucción eficiente de biomasa a escala industrial requiere nuevas enzimas con mayor productividad y menor costo. [28] Los enfoques metagenómicos para el análisis de comunidades microbianas complejas permiten la detección selectiva de enzimas con aplicaciones industriales en la producción de biocombustibles, como las glucósidos hidrolasas . [83] Además, se requiere conocimiento de cómo funcionan estas comunidades microbianas para controlarlas, y la metagenómica es una herramienta clave para su comprensión. Los enfoques metagenómicos permiten análisis comparativos entre sistemas microbianos convergentes como fermentadores de biogás [84] o insectos herbívoros como el jardín de hongos de las hormigas cortadoras de hojas . [85]
Las comunidades microbianas producen una amplia gama de sustancias químicas biológicamente activas que se utilizan en la competencia y la comunicación. [80] Muchos de los medicamentos que se utilizan hoy en día se descubrieron originalmente en microbios; Los avances recientes en la extracción del rico recurso genético de microbios no cultivables han llevado al descubrimiento de nuevos genes, enzimas y productos naturales. [59] [86] La aplicación de la metagenómica ha permitido el desarrollo de productos básicos y de química fina , agroquímicos y productos farmacéuticos donde el beneficio de la síntesis quiral catalizada por enzimas es cada vez más reconocido. [87]
En la bioprospección de datos metagenómicos se utilizan dos tipos de análisis : el cribado basado en funciones para un rasgo expresado y el cribado basado en secuencias para secuencias de ADN de interés. [88] El análisis basado en funciones busca identificar clones que expresen un rasgo deseado o una actividad útil, seguido de una caracterización bioquímica y un análisis de secuencia. Este enfoque está limitado por la disponibilidad de una pantalla adecuada y el requisito de que el rasgo deseado se exprese en la célula huésped. Además, la baja tasa de descubrimiento (menos de uno por cada 1.000 clones examinados) y su naturaleza intensiva en mano de obra limitan aún más este enfoque. [89] Por el contrario, el análisis basado en secuencias utiliza secuencias de ADN conservadas para diseñar cebadores de PCR para detectar clones en busca de la secuencia de interés. [88] En comparación con los enfoques basados en la clonación, el uso de un enfoque de secuencia única reduce aún más la cantidad de trabajo de laboratorio requerido. La aplicación de secuenciación masiva paralela también aumenta en gran medida la cantidad de datos de secuencia generados, lo que requiere canales de análisis bioinformáticos de alto rendimiento. [89] El enfoque de detección basado en secuencias está limitado por la amplitud y precisión de las funciones genéticas presentes en las bases de datos públicas de secuencias. En la práctica, los experimentos utilizan una combinación de enfoques funcionales y basados en secuencias según la función de interés, la complejidad de la muestra a analizar y otros factores. [89] [90] Un ejemplo de éxito en el uso de la metagenómica como biotecnología para el descubrimiento de fármacos se ilustra con los antibióticos malacidina . [91]
La metagenómica puede proporcionar información valiosa sobre la ecología funcional de las comunidades ambientales. [92] El análisis metagenómico de los consorcios bacterianos encontrados en las defecaciones de los leones marinos australianos sugiere que las heces de los leones marinos ricas en nutrientes pueden ser una fuente importante de nutrientes para los ecosistemas costeros. Esto se debe a que las bacterias que se expulsan simultáneamente con las deposiciones son expertas en descomponer los nutrientes de las heces en una forma biodisponible que puede incorporarse a la cadena alimentaria. [93]
La secuenciación de ADN también se puede utilizar de manera más amplia para identificar especies presentes en una masa de agua, [94] desechos filtrados del aire, muestras de tierra o heces de animales, [95] e incluso detectar elementos dietéticos a partir de sangre. [96] Esto puede establecer la variedad de especies invasoras y especies en peligro de extinción , y realizar un seguimiento de las poblaciones estacionales.
La metagenómica puede mejorar las estrategias para monitorear el impacto de los contaminantes en los ecosistemas y para limpiar los ambientes contaminados. Una mayor comprensión de cómo las comunidades microbianas hacen frente a los contaminantes mejora las evaluaciones del potencial de los sitios contaminados para recuperarse de la contaminación y aumenta las posibilidades de que los ensayos de bioaumentación o bioestimulación tengan éxito. [97]
Las comunidades microbianas desempeñan un papel clave en la preservación de la salud humana , pero su composición y el mecanismo por el que lo hacen siguen siendo un misterio. [98] La secuenciación metagenómica se está utilizando para caracterizar las comunidades microbianas de 15 a 18 sitios del cuerpo de al menos 250 individuos. Esto es parte de la iniciativa del Microbioma Humano con objetivos principales para determinar si existe un microbioma humano central , comprender los cambios en el microbioma humano que pueden correlacionarse con la salud humana y desarrollar nuevas herramientas tecnológicas y bioinformáticas para respaldar estos objetivos. [99]
Otro estudio médico como parte del proyecto MetaHit (Metagenomics of the Human Intestinal Tract) incluyó a 124 personas de Dinamarca y España, entre ellos pacientes sanos, con sobrepeso y con enfermedad del intestino irritable. [100] El estudio intentó categorizar la profundidad y la diversidad filogenética de las bacterias gastrointestinales. Utilizando datos de secuencia GA de Illumina y SOAPdenovo, una herramienta basada en gráficos de De Bruijn diseñada específicamente para ensamblar lecturas cortas, pudieron generar 6,58 millones de contigs de más de 500 pb para una longitud total de contig de 10,3 Gb y una longitud N50 de 2,2 kb.
El estudio demostró que dos divisiones bacterianas, Bacteroidetes y Firmicutes, constituyen más del 90% de las categorías filogenéticas conocidas que dominan las bacterias del intestino distal. Utilizando las frecuencias genéticas relativas que se encuentran en el intestino, estos investigadores identificaron 1244 grupos metagenómicos que son de importancia crítica para la salud del tracto intestinal. Hay dos tipos de funciones en estos grupos de rango: las de limpieza y las específicas del intestino. Los grupos de genes de mantenimiento son necesarios en todas las bacterias y, a menudo, son actores importantes en las principales vías metabólicas, incluido el metabolismo central del carbono y la síntesis de aminoácidos. Las funciones específicas del intestino incluyen la adhesión a las proteínas del huésped y la recolección de azúcares de los glicolípidos de la serie globosa. Se demostró que los pacientes con síndrome del intestino irritable exhiben un 25 % menos de genes y una menor diversidad bacteriana que los individuos que no padecen el síndrome del intestino irritable, lo que indica que los cambios en la diversidad del bioma intestinal de los pacientes pueden estar asociados con esta afección. [100]
Si bien estos estudios destacan algunas aplicaciones médicas potencialmente valiosas, solo entre el 31% y el 48,8% de las lecturas podrían alinearse con 194 genomas bacterianos públicos del intestino humano y entre el 7,6% y el 21,2% con genomas bacterianos disponibles en GenBank, lo que indica que todavía se necesita mucha más investigación para capturar nuevos genomas bacterianos. [101]
En el Proyecto Microbioma Humano (HMP), se analizaron comunidades microbianas intestinales mediante secuenciación de ADN de alto rendimiento. HMP demostró que, a diferencia de las especies microbianas individuales, muchos procesos metabólicos estaban presentes en todos los hábitats corporales con diferentes frecuencias. Como parte del proyecto del microbioma humano, se estudiaron comunidades microbianas de 649 metagenomas extraídos de siete sitios primarios del cuerpo de 102 individuos . El análisis metagenómico reveló variaciones en la abundancia específica de nichos entre 168 módulos funcionales y 196 vías metabólicas dentro del microbioma. Estos incluyeron la degradación de glucosaminoglucanos en el intestino, así como el transporte de fosfato y aminoácidos vinculado al fenotipo del huésped (pH vaginal) en el fondo de saco posterior. El HMP ha sacado a la luz la utilidad de la metagenómica en el diagnóstico y la medicina basada en la evidencia . Por tanto, la metagenómica es una herramienta poderosa para abordar muchas de las cuestiones apremiantes en el campo de la medicina personalizada . [102]
En animales, la metagenómica se puede utilizar para perfilar sus microbiomas intestinales y permitir la detección de bacterias resistentes a los antibióticos. [103] Esto puede tener implicaciones en el seguimiento de la propagación de enfermedades desde la vida silvestre a los animales de granja y a los humanos.
Diferenciar entre enfermedades infecciosas y no infecciosas e identificar la etiología subyacente de la infección puede resultar un desafío. Por ejemplo, más de la mitad de los casos de encefalitis siguen sin diagnosticarse, a pesar de realizar pruebas exhaustivas utilizando métodos de laboratorio clínico de última generación. La secuenciación metagenómica clínica se muestra prometedora como método sensible y rápido para diagnosticar infecciones al comparar el material genético encontrado en la muestra de un paciente con bases de datos de todos los patógenos humanos microscópicos conocidos y miles de otros organismos bacterianos, virales, fúngicos y parásitos, y bases de datos sobre genes de resistencia a los antimicrobianos. secuencias con fenotipos clínicos asociados. [104]
La metagenómica ha sido una herramienta invaluable para ayudar a caracterizar la diversidad y la ecología de los patógenos transmitidos por insectos hematófagos (que se alimentan de sangre), como los mosquitos y las garrapatas. [105] [106] [107] La metagenómica es [ ¿cuándo? ] utilizado habitualmente por funcionarios y organizaciones de salud pública [ ¿dónde? ] para la vigilancia de arbovirus . [108] [109]