La metagenómica es el estudio del material genético recuperado directamente de muestras ambientales o clínicas mediante un método llamado secuenciación . Este amplio campo también puede denominarse genómica ambiental , ecogenómica , genómica comunitaria o microbiómica .
Mientras que la microbiología tradicional y la secuenciación y genómica del genoma microbiano se basan en cultivos clonales cultivados , la secuenciación temprana de genes ambientales clonó genes específicos (a menudo el gen ARNr 16S ) para producir un perfil de diversidad en una muestra natural. Este trabajo reveló que la gran mayoría de la biodiversidad microbiana había sido ignorada por los métodos basados en cultivos. [2]
Debido a su capacidad para revelar la diversidad previamente oculta de la vida microscópica, la metagenómica ofrece una poderosa manera de entender el mundo microbiano que podría revolucionar la comprensión de la biología. [3] A medida que el precio de la secuenciación de ADN continúa cayendo, la metagenómica ahora permite que la ecología microbiana se investigue a una escala y detalle mucho mayores que antes. Estudios recientes utilizan la secuenciación dirigida por PCR o por " shotgun " para obtener muestras en gran medida imparciales de todos los genes de todos los miembros de las comunidades muestreadas. [4]
El término "metagenómica" fue utilizado por primera vez por Jo Handelsman , Robert M. Goodman , Michelle R. Rondon, Jon Clardy y Sean F. Brady, y apareció por primera vez en una publicación en 1998. [5] El término metagenoma hacía referencia a la idea de que una colección de genes secuenciados del entorno podía analizarse de forma análoga al estudio de un único genoma . En 2005, Kevin Chen y Lior Pachter (investigadores de la Universidad de California, Berkeley ) definieron la metagenómica como "la aplicación de la técnica genómica moderna sin la necesidad de aislar y cultivar en laboratorio especies individuales". [6]
La secuenciación convencional comienza con un cultivo de células idénticas como fuente de ADN . Sin embargo, los primeros estudios metagenómicos revelaron que probablemente existen grandes grupos de microorganismos en muchos entornos que no se pueden cultivar y, por lo tanto, no se pueden secuenciar. Estos primeros estudios se centraron en las secuencias de ARN ribosómico (ARNr) 16S que son relativamente cortas, a menudo conservadas dentro de una especie y generalmente diferentes entre especies. Se han encontrado muchas secuencias de ARNr 16S que no pertenecen a ninguna especie cultivada conocida , lo que indica que existen numerosos organismos no aislados. Estos estudios de genes de ARN ribosómico tomados directamente del entorno revelaron que los métodos basados en el cultivo encuentran menos del 1% de las especies bacterianas y arqueales en una muestra. [2] Gran parte del interés en la metagenómica proviene de estos descubrimientos que mostraron que la gran mayoría de los microorganismos habían pasado desapercibidos anteriormente.
En la década de 1980, Norman R. Pace y sus colegas realizaron los primeros trabajos moleculares en este campo y utilizaron la PCR para explorar la diversidad de secuencias de ARN ribosómico. [7] Los conocimientos adquiridos a partir de estos estudios innovadores llevaron a Pace a proponer la idea de clonar ADN directamente a partir de muestras ambientales ya en 1985. [8] Esto condujo al primer informe de aislamiento y clonación de ADN a granel a partir de una muestra ambiental, publicado por Pace y sus colegas en 1991 [9] mientras Pace estaba en el Departamento de Biología de la Universidad de Indiana . Se realizaron considerables esfuerzos para garantizar que no se tratara de falsos positivos de PCR y respaldaron la existencia de una comunidad compleja de especies inexploradas. Aunque esta metodología se limitaba a explorar genes altamente conservados que no codificaban proteínas , sí respaldó las primeras observaciones basadas en la morfología microbiana de que la diversidad era mucho más compleja de lo que se sabía mediante métodos de cultivo. Poco después, en 1995, Healy informó sobre el aislamiento metagenómico de genes funcionales a partir de "zoolibraries" construidas a partir de un cultivo complejo de organismos ambientales cultivados en el laboratorio sobre hierbas secas . [10] Después de dejar el laboratorio de Pace, Edward DeLong continuó en el campo y ha publicado trabajos que han sentado en gran medida las bases para las filogenias ambientales basadas en secuencias distintivas 16S, comenzando con la construcción de bibliotecas por parte de su grupo a partir de muestras marinas . [11]
En 2002, Mya Breitbart , Forest Rohwer y sus colegas utilizaron la secuenciación ambiental shotgun (ver más abajo) para demostrar que 200 litros de agua de mar contienen más de 5000 virus diferentes. [12] Estudios posteriores mostraron que hay más de mil especies virales en las heces humanas y posiblemente un millón de virus diferentes por kilogramo de sedimento marino , incluidos muchos bacteriófagos . Esencialmente, todos los virus en estos estudios eran especies nuevas. En 2004, Gene Tyson, Jill Banfield y colegas de la Universidad de California, Berkeley y el Joint Genome Institute secuenciaron ADN extraído de un sistema de drenaje ácido de una mina . [13] Este esfuerzo dio como resultado los genomas completos, o casi completos, de un puñado de bacterias y arqueas que previamente habían resistido los intentos de cultivarlos. [14]
A partir de 2003, Craig Venter , líder del paralelo financiado con fondos privados del Proyecto Genoma Humano , dirigió la Expedición Global de Muestreo Oceánico (GOS), circunnavegando el globo y recolectando muestras metagenómicas durante todo el viaje. Todas estas muestras se secuenciaron mediante secuenciación shotgun, con la esperanza de que se identificaran nuevos genomas (y, por lo tanto, nuevos organismos). El proyecto piloto, realizado en el mar de los Sargazos , encontró ADN de casi 2000 especies diferentes , incluidos 148 tipos de bacterias nunca antes vistos. [15] Venter exploró a fondo la costa oeste de los Estados Unidos y completó una expedición de dos años en 2006 para explorar los mares Báltico , Mediterráneo y Negro . El análisis de los datos metagenómicos recopilados durante este viaje reveló dos grupos de organismos, uno compuesto por taxones adaptados a condiciones ambientales de "festín o hambruna", y un segundo compuesto por taxones relativamente menos numerosos pero más abundantes y ampliamente distribuidos compuestos principalmente de plancton . [16]
En 2005, Stephan C. Schuster de la Universidad Estatal de Pensilvania y sus colegas publicaron las primeras secuencias de una muestra ambiental generada con secuenciación de alto rendimiento , en este caso pirosecuenciación masiva paralela desarrollada por 454 Life Sciences . [17] Otro artículo temprano en esta área apareció en 2006 por Robert Edwards, Forest Rohwer y sus colegas de la Universidad Estatal de San Diego . [18]
La recuperación de secuencias de ADN de más de unos pocos miles de pares de bases a partir de muestras ambientales era muy difícil hasta que los recientes avances en técnicas de biología molecular permitieron la construcción de bibliotecas en cromosomas artificiales bacterianos (BAC), que proporcionaron mejores vectores para la clonación molecular . [20]
Los avances en bioinformática , los refinamientos de la amplificación de ADN y la proliferación de la potencia computacional han ayudado en gran medida al análisis de secuencias de ADN recuperadas de muestras ambientales, lo que ha permitido la adaptación de la secuenciación shotgun a muestras metagenómicas (conocida también como secuenciación shotgun de metagenoma completo o WMGS). El enfoque, utilizado para secuenciar muchos microorganismos cultivados y el genoma humano , corta aleatoriamente el ADN, secuencia muchas secuencias cortas y las reconstruye en una secuencia de consenso . La secuenciación shotgun revela genes presentes en muestras ambientales. Históricamente, se utilizaban bibliotecas de clones para facilitar esta secuenciación. Sin embargo, con los avances en las tecnologías de secuenciación de alto rendimiento, el paso de clonación ya no es necesario y se pueden obtener mayores rendimientos de datos de secuenciación sin este paso de cuello de botella que requiere mucho trabajo. La metagenómica shotgun proporciona información tanto sobre qué organismos están presentes como sobre qué procesos metabólicos son posibles en la comunidad. [21] Debido a que la recolección de ADN de un entorno es en gran medida incontrolada, los organismos más abundantes en una muestra ambiental son los que están más representados en los datos de secuencia resultantes. Para lograr la alta cobertura necesaria para resolver por completo los genomas de los miembros de la comunidad subrepresentados, se necesitan muestras grandes, a menudo prohibitivamente grandes. Por otro lado, la naturaleza aleatoria de la secuenciación aleatoria asegura que muchos de estos organismos, que de otro modo pasarían desapercibidos utilizando técnicas de cultivo tradicionales, estarán representados por al menos algunos segmentos de secuencia pequeños. [13]
Una ventaja de la secuenciación de alto rendimiento es que esta técnica no requiere clonar el ADN antes de la secuenciación, eliminando uno de los principales sesgos y cuellos de botella en el muestreo ambiental. Los primeros estudios metagenómicos realizados utilizando secuenciación de alto rendimiento utilizaron pirosecuenciación masiva paralela 454. [17] Otras tres tecnologías comúnmente aplicadas al muestreo ambiental son la Ion Torrent Personal Genome Machine , Illumina MiSeq o HiSeq y el sistema SOLiD de Applied Biosystems . [22] Estas técnicas para secuenciar ADN generan fragmentos más cortos que la secuenciación Sanger ; Ion Torrent PGM System y la pirosecuenciación 454 generalmente producen lecturas de ~400 pb, Illumina MiSeq produce lecturas de 400-700 pb (dependiendo de si se utilizan opciones de extremos pareados) y SOLiD produce lecturas de 25-75 pb. [23] Históricamente, estas longitudes de lectura eran significativamente más cortas que la longitud de lectura típica de la secuenciación de Sanger de ~750 pb, sin embargo, la tecnología Illumina se está acercando rápidamente a este punto de referencia. Sin embargo, esta limitación se compensa con el número mucho mayor de lecturas de secuencias. En 2009, los metagenomas pirosecuenciados generan entre 200 y 500 megabases, y las plataformas Illumina generan alrededor de 20 a 50 gigabases, pero estos resultados han aumentado en órdenes de magnitud en los últimos años. [24]
Un enfoque emergente combina la secuenciación shotgun y la captura de conformación cromosómica (Hi-C), que mide la proximidad de dos secuencias de ADN dentro de la misma célula, para guiar el ensamblaje del genoma microbiano. [25] Las tecnologías de secuenciación de lectura larga, incluidas PacBio RSII y PacBio Sequel de Pacific Biosciences , y Nanopore MinION, GridION, PromethION de Oxford Nanopore Technologies , son otra opción para obtener lecturas de secuenciación shotgun largas que deberían facilitar el proceso de ensamblaje. [26]
Los datos generados por los experimentos de metagenómica son enormes e inherentemente ruidosos, y contienen datos fragmentados que representan hasta 10 000 especies. [1] La secuenciación del metagenoma del rumen de la vaca generó 279 gigabases , o 279 mil millones de pares de bases de datos de secuencias de nucleótidos, [28] mientras que el catálogo de genes del microbioma intestinal humano identificó 3,3 millones de genes ensamblados a partir de 567,7 gigabases de datos de secuencias. [29] Recopilar, curar y extraer información biológica útil de conjuntos de datos de este tamaño representa desafíos computacionales significativos para los investigadores. [21] [30] [31] [32]
El primer paso del análisis de datos metagenómicos requiere la ejecución de ciertos pasos de prefiltrado, incluida la eliminación de secuencias redundantes, de baja calidad y secuencias de probable origen eucariota (especialmente en metagenomas de origen humano). [33] [34] Los métodos disponibles para la eliminación de secuencias de ADN genómico eucariota contaminantes incluyen Eu-Detect y DeConseq. [35] [36]
Los datos de secuencias de ADN de proyectos genómicos y metagenómicos son esencialmente los mismos, pero los datos de secuencias genómicas ofrecen una mayor cobertura mientras que los datos metagenómicos suelen ser altamente no redundantes. [31] Además, el mayor uso de tecnologías de secuenciación de segunda generación con longitudes de lectura cortas significa que gran parte de los datos metagenómicos futuros serán propensos a errores. Tomados en conjunto, estos factores hacen que el ensamblaje de lecturas de secuencias metagenómicas en genomas sea difícil y poco confiable. Los ensamblajes incorrectos son causados por la presencia de secuencias de ADN repetitivas que hacen que el ensamblaje sea especialmente difícil debido a la diferencia en la abundancia relativa de especies presentes en la muestra. [37] Los ensamblajes incorrectos también pueden involucrar la combinación de secuencias de más de una especie en contigs quiméricos . [37]
Existen varios programas de ensamblaje, la mayoría de los cuales pueden utilizar información de etiquetas de extremos emparejados para mejorar la precisión de los ensamblajes. Algunos programas, como Phrap o Celera Assembler, fueron diseñados para usarse para ensamblar genomas individuales pero, sin embargo, producen buenos resultados al ensamblar conjuntos de datos metagenómicos. [1] Otros programas, como Velvet Assembler , se han optimizado para las lecturas más cortas producidas por la secuenciación de segunda generación mediante el uso de gráficos de De Bruijn . [38] [39] El uso de genomas de referencia permite a los investigadores mejorar el ensamblaje de las especies microbianas más abundantes, pero este enfoque está limitado por el pequeño subconjunto de filos microbianos para los que hay genomas secuenciados disponibles. [37] Después de crear un ensamblaje, un desafío adicional es la "deconvolución metagenómica", o determinar qué secuencias provienen de qué especie en la muestra. [40]
Los procesos de análisis metagenómico utilizan dos enfoques para la anotación de regiones codificantes en los contigs ensamblados. [37] El primer enfoque consiste en identificar genes basándose en la homología con genes que ya están disponibles públicamente en bases de datos de secuencias , normalmente mediante búsquedas BLAST . Este tipo de enfoque se implementa en el programa MEGAN 4. [41] El segundo, ab initio , utiliza características intrínsecas de la secuencia para predecir regiones codificantes basándose en conjuntos de entrenamiento de genes de organismos relacionados. Este es el enfoque adoptado por programas como GeneMark [42] y GLIMMER . La principal ventaja de la predicción ab initio es que permite la detección de regiones codificantes que carecen de homólogos en las bases de datos de secuencias; sin embargo, es más precisa cuando hay grandes regiones de ADN genómico contiguo disponibles para la comparación. [1]
Las anotaciones genéticas proporcionan el "qué", mientras que las mediciones de la diversidad de especies proporcionan el "quién". [43] Para conectar la composición y la función de la comunidad en los metagenomas, las secuencias deben clasificarse. La clasificación es el proceso de asociar una secuencia particular con un organismo. [37] En la clasificación basada en similitud, se utilizan métodos como BLAST para buscar rápidamente marcadores filogenéticos o secuencias similares en bases de datos públicas existentes. Este enfoque se implementa en MEGAN . [44] Otra herramienta, PhymmBL, utiliza modelos de Markov interpolados para asignar lecturas. [1] MetaPhlAn y AMPHORA son métodos basados en marcadores únicos específicos de clados para estimar abundancias relativas de organismos con rendimientos computacionales mejorados. [45] Otras herramientas, como mOTUs [46] [47] y MetaPhyler, [48] utilizan genes marcadores universales para perfilar especies procariotas. Con el perfilador mOTUs es posible perfilar especies sin un genoma de referencia, mejorando la estimación de la diversidad de la comunidad microbiana. [47] Los métodos recientes, como SLIMM, utilizan el panorama de cobertura de lectura de genomas de referencia individuales para minimizar los resultados falsos positivos y obtener abundancias relativas confiables. [49] En la clasificación basada en la composición, los métodos utilizan características intrínsecas de la secuencia, como frecuencias de oligonucleótidos o sesgo en el uso de codones . [1] Una vez que las secuencias están clasificadas, es posible realizar un análisis comparativo de diversidad y riqueza.
La enorme cantidad de datos de secuencias que crece exponencialmente es un desafío abrumador que se complica por la complejidad de los metadatos asociados con los proyectos metagenómicos. Los metadatos incluyen información detallada sobre la geografía tridimensional (incluida la profundidad o altura) y las características ambientales de la muestra, datos físicos sobre el sitio de la muestra y la metodología del muestreo. [31] Esta información es necesaria tanto para garantizar la replicabilidad como para permitir el análisis posterior. Debido a su importancia, los metadatos y la revisión y curación colaborativa de datos requieren formatos de datos estandarizados ubicados en bases de datos especializadas, como la base de datos Genomes OnLine (GOLD). [50]
Se han desarrollado varias herramientas para integrar metadatos y datos de secuencias, lo que permite realizar análisis comparativos posteriores de diferentes conjuntos de datos utilizando una serie de índices ecológicos. En 2007, Folker Meyer y Robert Edwards y un equipo del Laboratorio Nacional Argonne y la Universidad de Chicago lanzaron el servidor Metagenomics Rapid Annotation using Subsystem Technology ( MG-RAST ), un recurso comunitario para el análisis de conjuntos de datos de metagenomas. [51] Hasta junio de 2012, se han analizado más de 14,8 terabases (14x10 12 bases) de ADN, y hay más de 10 000 conjuntos de datos públicos disponibles de forma gratuita para su comparación en MG-RAST. Más de 8000 usuarios han enviado un total de 50 000 metagenomas a MG-RAST. El sistema de Genomas/Metagenomas Microbianos Integrados (IMG/M) también proporciona una colección de herramientas para el análisis funcional de comunidades microbianas basadas en su secuencia de metagenoma, a partir de genomas aislados de referencia incluidos en el sistema de Genomas Microbianos Integrados (IMG) y el proyecto Enciclopedia Genómica de Bacterias y Arqueas (GEBA). [52]
Una de las primeras herramientas independientes para analizar datos metagenómicos shotgun de alto rendimiento fue MEGAN (MEta Genome ANalyzer). [41] [44] Una primera versión del programa se utilizó en 2005 para analizar el contexto metagenómico de secuencias de ADN obtenidas de un hueso de mamut. [17] Basándose en una comparación BLAST con una base de datos de referencia, esta herramienta realiza una clasificación taxonómica y funcional, colocando las lecturas en los nodos de la taxonomía del NCBI utilizando un algoritmo simple de ancestro común más bajo (LCA) o en los nodos de las clasificaciones SEED o KEGG , respectivamente. [53]
Con la llegada de instrumentos de secuenciación rápidos y económicos, el crecimiento de las bases de datos de secuencias de ADN es ahora exponencial (por ejemplo, la base de datos NCBI GenBank [54] ). Se necesitan herramientas más rápidas y eficientes para mantener el ritmo de la secuenciación de alto rendimiento, porque los enfoques basados en BLAST, como MG-RAST o MEGAN, se ejecutan lentamente para anotar muestras grandes (por ejemplo, varias horas para procesar un conjunto de datos/muestra de tamaño pequeño/mediano [55] ). Por lo tanto, recientemente han surgido clasificadores ultrarrápidos, gracias a servidores potentes más asequibles. Estas herramientas pueden realizar la anotación taxonómica a una velocidad extremadamente alta, por ejemplo CLARK [56] (según los autores de CLARK, puede clasificar con precisión "32 millones de lecturas cortas metagenómicas por minuto"). A tal velocidad, un conjunto de datos/muestra muy grande de mil millones de lecturas cortas se puede procesar en aproximadamente 30 minutos.
Con la creciente disponibilidad de muestras que contienen ADN antiguo y debido a la incertidumbre asociada con la naturaleza de dichas muestras (daño en el ADN antiguo), [57] se ha puesto a disposición una herramienta rápida capaz de producir estimaciones de similitud conservadoras. Según los autores de FALCON, puede utilizar umbrales relajados y distancias de edición sin afectar el rendimiento de la memoria y la velocidad.
Los análisis comparativos entre metagenomas pueden proporcionar información adicional sobre la función de comunidades microbianas complejas y su papel en la salud del huésped. [58] Se pueden realizar comparaciones por pares o múltiples entre metagenomas a nivel de composición de secuencia (comparando el contenido de GC o el tamaño del genoma), diversidad taxonómica o complemento funcional. Se pueden realizar comparaciones de la estructura de la población y la diversidad filogenética sobre la base del ARNr 16S y otros genes marcadores filogenéticos, o, en el caso de comunidades de baja diversidad, mediante la reconstrucción del genoma a partir del conjunto de datos metagenómicos. [59] Se pueden realizar comparaciones funcionales entre metagenomas comparando secuencias con bases de datos de referencia como COG o KEGG , y tabulando la abundancia por categoría y evaluando cualquier diferencia para la significación estadística. [53] Este enfoque centrado en los genes enfatiza el complemento funcional de la comunidad como un todo en lugar de grupos taxonómicos, y muestra que los complementos funcionales son análogos en condiciones ambientales similares. [59] En consecuencia, los metadatos sobre el contexto ambiental de la muestra metagenómica son especialmente importantes en los análisis comparativos, ya que brindan a los investigadores la capacidad de estudiar el efecto del hábitat sobre la estructura y la función de la comunidad. [1]
Además, varios estudios también han utilizado patrones de uso de oligonucleótidos para identificar las diferencias entre diversas comunidades microbianas. Ejemplos de tales metodologías incluyen el enfoque de abundancia relativa de dinucleótidos de Willner et al. [60] y el enfoque HabiSign de Ghosh et al. [61] Este último estudio también indicó que las diferencias en los patrones de uso de tetranucleótidos se pueden utilizar para identificar genes (o lecturas metagenómicas) que se originan en hábitats específicos. Además, algunos métodos como TriageTools [62] o Compareads [63] detectan lecturas similares entre dos conjuntos de lecturas. La medida de similitud que aplican en las lecturas se basa en una cantidad de palabras idénticas de longitud k compartidas por pares de lecturas.
Un objetivo clave en la metagenómica comparativa es identificar los grupos microbianos que son responsables de conferir características específicas a un entorno determinado. Sin embargo, debido a problemas en las tecnologías de secuenciación, es necesario tener en cuenta los artefactos como en metagenomeSeq. [30] Otros han caracterizado las interacciones intermicrobianas entre los grupos microbianos residentes. Kuntal et al. [64] desarrollaron una aplicación de análisis metagenómico comparativo basada en GUI llamada Community-Analyzer que implementa un algoritmo de diseño de gráficos basado en correlación que no solo facilita una visualización rápida de las diferencias en las comunidades microbianas analizadas (en términos de su composición taxonómica), sino que también proporciona información sobre las interacciones intermicrobianas inherentes que ocurren en ellas. En particular, este algoritmo de diseño también permite agrupar los metagenomas en función de los patrones probables de interacción intermicrobiana en lugar de simplemente comparar los valores de abundancia de varios grupos taxonómicos. Además, la herramienta implementa varias funcionalidades interactivas basadas en GUI que permiten a los usuarios realizar análisis comparativos estándar en todos los microbiomas.
En muchas comunidades bacterianas, naturales o diseñadas (como los biorreactores ), existe una importante división del trabajo en el metabolismo ( sintrofia ), durante la cual los productos de desecho de algunos organismos son metabolitos para otros. [65] En uno de estos sistemas, el biorreactor metanogénico , la estabilidad funcional requiere la presencia de varias especies sintróficas ( Syntrophobacterales y Synergistia ) trabajando juntas para convertir los recursos en bruto en desechos completamente metabolizados ( metano ). [66] Mediante estudios genéticos comparativos y experimentos de expresión con microarreglos o proteómica, los investigadores pueden reconstruir una red metabólica que va más allá de los límites de las especies. Dichos estudios requieren un conocimiento detallado sobre qué versiones de qué proteínas están codificadas por qué especies e incluso por qué cepas de qué especies. Por lo tanto, la información genómica de la comunidad es otra herramienta fundamental (con la metabolómica y la proteómica) en la búsqueda para determinar cómo los metabolitos son transferidos y transformados por una comunidad. [67]
La metagenómica permite a los investigadores acceder a la diversidad funcional y metabólica de las comunidades microbianas, pero no puede mostrar cuáles de estos procesos están activos. [59] La extracción y el análisis del ARNm metagenómico (el metatranscriptoma ) proporciona información sobre los perfiles de regulación y expresión de comunidades complejas. Debido a las dificultades técnicas (la corta vida media del ARNm, por ejemplo) en la recolección de ARN ambiental , hasta la fecha se han realizado relativamente pocos estudios metatranscriptómicos in situ de comunidades microbianas. [59] Aunque originalmente se limitaban a la tecnología de microarrays , los estudios metatranscriptómicos han hecho uso de tecnologías transcriptómicas para medir la expresión del genoma completo y la cuantificación de una comunidad microbiana, [59] empleadas por primera vez en el análisis de la oxidación del amoníaco en suelos. [68]
La secuenciación metagenómica es particularmente útil en el estudio de las comunidades virales. Como los virus carecen de un marcador filogenético universal compartido (como el ARN 16S para bacterias y arqueas, y el ARN 18S para eucariotas), la única forma de acceder a la diversidad genética de la comunidad viral a partir de una muestra ambiental es a través de la metagenómica. Por lo tanto, los metagenomas virales (también llamados viromas) deberían proporcionar cada vez más información sobre la diversidad y la evolución viral. [69] [70] [71] [72] [73] Por ejemplo, un proceso metagenómico llamado Giant Virus Finder mostró la primera evidencia de la existencia de virus gigantes en un desierto salino [74] y en valles secos antárticos. [75]
La metagenómica tiene el potencial de hacer avanzar el conocimiento en una amplia variedad de campos. También puede aplicarse para resolver desafíos prácticos en medicina , ingeniería , agricultura , sostenibilidad y ecología . [31] [76]
Los suelos en los que crecen las plantas están habitados por comunidades microbianas, y un gramo de suelo contiene alrededor de 10 9 -10 10 células microbianas que comprenden aproximadamente una gigabase de información de secuencia. [77] [78] Las comunidades microbianas que habitan los suelos son algunas de las más complejas conocidas por la ciencia y siguen siendo poco comprendidas a pesar de su importancia económica. [79] Los consorcios microbianos realizan una amplia variedad de servicios ecosistémicos necesarios para el crecimiento de las plantas, incluida la fijación de nitrógeno atmosférico , el ciclo de nutrientes , la supresión de enfermedades y el secuestro de hierro y otros metales . [80] Se están utilizando estrategias de metagenómica funcional para explorar las interacciones entre plantas y microbios a través del estudio independiente del cultivo de estas comunidades microbianas. [81] [82] Al permitir conocimientos sobre el papel de los miembros de la comunidad previamente no cultivados o raros en el ciclo de nutrientes y la promoción del crecimiento de las plantas, los enfoques metagenómicos pueden contribuir a una mejor detección de enfermedades en cultivos y ganado y a la adaptación de prácticas agrícolas mejoradas que mejoren la salud de los cultivos aprovechando la relación entre microbios y plantas. [31]
Los biocombustibles son combustibles derivados de la conversión de biomasa , como la conversión de la celulosa contenida en los tallos de maíz , el pasto varilla y otras biomasas en etanol celulósico . [31] Este proceso depende de consorcios microbianos (asociación) que transforman la celulosa en azúcares , seguido de la fermentación de los azúcares en etanol . Los microbios también producen una variedad de fuentes de bioenergía, incluido el metano y el hidrógeno . [31]
La deconstrucción eficiente a escala industrial de la biomasa requiere enzimas novedosas con mayor productividad y menor costo. [28] Los enfoques metagenómicos para el análisis de comunidades microbianas complejas permiten la selección dirigida de enzimas con aplicaciones industriales en la producción de biocombustibles, como las hidrolasas de glicósido . [83] Además, se requiere el conocimiento de cómo funcionan estas comunidades microbianas para controlarlas, y la metagenómica es una herramienta clave para su comprensión. Los enfoques metagenómicos permiten análisis comparativos entre sistemas microbianos convergentes como los fermentadores de biogás [84] o herbívoros de insectos como el jardín de hongos de las hormigas cortadoras de hojas . [85]
Las comunidades microbianas producen una amplia gama de sustancias químicas biológicamente activas que se utilizan en la competencia y la comunicación. [80] Muchos de los medicamentos que se utilizan hoy en día se descubrieron originalmente en microbios; el progreso reciente en la explotación del rico recurso genético de microbios no cultivables ha llevado al descubrimiento de nuevos genes, enzimas y productos naturales. [59] [86] La aplicación de la metagenómica ha permitido el desarrollo de productos químicos finos y básicos , agroquímicos y farmacéuticos donde el beneficio de la síntesis quiral catalizada por enzimas se reconoce cada vez más. [87]
En la bioprospección de datos metagenómicos se utilizan dos tipos de análisis : el cribado basado en funciones para un rasgo expresado y el cribado basado en secuencias para secuencias de ADN de interés. [88] El análisis basado en funciones busca identificar clones que expresen un rasgo deseado o una actividad útil, seguido de la caracterización bioquímica y el análisis de secuencias. Este enfoque está limitado por la disponibilidad de un cribado adecuado y el requisito de que el rasgo deseado se exprese en la célula huésped. Además, la baja tasa de descubrimiento (menos de uno por cada 1.000 clones cribado) y su naturaleza intensiva en mano de obra limitan aún más este enfoque. [89] Por el contrario, el análisis basado en secuencias utiliza secuencias de ADN conservadas para diseñar cebadores de PCR para cribar clones en busca de la secuencia de interés. [88] En comparación con los enfoques basados en la clonación, el uso de un enfoque basado únicamente en secuencias reduce aún más la cantidad de trabajo de laboratorio necesario. La aplicación de la secuenciación masiva en paralelo también aumenta en gran medida la cantidad de datos de secuencia generados, lo que requiere canales de análisis bioinformáticos de alto rendimiento. [89] El enfoque basado en secuencias para la detección está limitado por la amplitud y precisión de las funciones genéticas presentes en las bases de datos de secuencias públicas. En la práctica, los experimentos utilizan una combinación de enfoques tanto funcionales como basados en secuencias en función de la función de interés, la complejidad de la muestra que se va a examinar y otros factores. [89] [90] Un ejemplo de éxito en el uso de la metagenómica como biotecnología para el descubrimiento de fármacos se ilustra con los antibióticos malacidínicos . [91]
La metagenómica puede proporcionar información valiosa sobre la ecología funcional de las comunidades ambientales. [92] El análisis metagenómico de los consorcios bacterianos encontrados en las defecaciones de los leones marinos australianos sugiere que las heces de estos animales, ricas en nutrientes, pueden ser una fuente importante de nutrientes para los ecosistemas costeros. Esto se debe a que las bacterias que se expulsan simultáneamente con las defecaciones son expertas en descomponer los nutrientes de las heces en una forma biodisponible que puede ser absorbida por la cadena alimentaria. [93]
La secuenciación de ADN también se puede utilizar de manera más amplia para identificar especies presentes en un cuerpo de agua, [94] desechos filtrados del aire, muestras de tierra o heces de animales, [95] e incluso detectar elementos de la dieta de las comidas de sangre. [96] Esto puede establecer el rango de especies invasoras y especies en peligro de extinción , y rastrear poblaciones estacionales.
La metagenómica puede mejorar las estrategias para monitorear el impacto de los contaminantes en los ecosistemas y para limpiar los ambientes contaminados. Una mayor comprensión de cómo las comunidades microbianas enfrentan los contaminantes mejora las evaluaciones del potencial de los sitios contaminados para recuperarse de la contaminación y aumenta las posibilidades de éxito de los ensayos de bioaumentación o bioestimulación . [97]
Las comunidades microbianas desempeñan un papel fundamental en la preservación de la salud humana , pero su composición y el mecanismo por el que lo hacen sigue siendo un misterio. [98] La secuenciación metagenómica se está utilizando para caracterizar las comunidades microbianas de 15 a 18 sitios corporales de al menos 250 individuos. Esto es parte de la iniciativa del Microbioma Humano con objetivos principales para determinar si existe un microbioma humano central , comprender los cambios en el microbioma humano que se puedan correlacionar con la salud humana y desarrollar nuevas herramientas tecnológicas y bioinformáticas para respaldar estos objetivos. [99]
Otro estudio médico como parte del proyecto MetaHit (Metagenómica del tracto intestinal humano) consistió en 124 individuos de Dinamarca y España que consistían en pacientes sanos, con sobrepeso y con enfermedad del intestino irritable. [100] El estudio intentó categorizar la profundidad y la diversidad filogenética de las bacterias gastrointestinales. Utilizando datos de secuencias de Illumina GA y SOAPdenovo, una herramienta basada en gráficos de De Bruijn diseñada específicamente para lecturas cortas de ensamblaje, pudieron generar 6,58 millones de contigs mayores de 500 pb para una longitud total de contig de 10,3 Gb y una longitud N50 de 2,2 kb.
El estudio demostró que dos divisiones bacterianas, Bacteroidetes y Firmicutes, constituyen más del 90% de las categorías filogenéticas conocidas que dominan las bacterias del intestino distal. Utilizando las frecuencias genéticas relativas encontradas dentro del intestino, estos investigadores identificaron 1.244 grupos metagenómicos que son de importancia crítica para la salud del tracto intestinal. Hay dos tipos de funciones en estos grupos de rango: las de mantenimiento y las específicas del intestino. Los grupos de genes de mantenimiento son necesarios en todas las bacterias y a menudo son actores importantes en las principales vías metabólicas, incluido el metabolismo central del carbono y la síntesis de aminoácidos. Las funciones específicas del intestino incluyen la adhesión a las proteínas del huésped y la recolección de azúcares de los glicolípidos de la serie globosa. Se demostró que los pacientes con síndrome del intestino irritable exhiben un 25% menos de genes y una diversidad bacteriana menor que las personas que no padecen síndrome del intestino irritable, lo que indica que los cambios en la diversidad del bioma intestinal de los pacientes pueden estar asociados con esta afección. [100]
Si bien estos estudios resaltan algunas aplicaciones médicas potencialmente valiosas, solo entre el 31 y el 48,8 % de las lecturas pudieron alinearse con 194 genomas bacterianos intestinales humanos públicos y entre el 7,6 y el 21,2 % con genomas bacterianos disponibles en GenBank, lo que indica que todavía se necesita mucha más investigación para capturar nuevos genomas bacterianos. [101]
En el Proyecto del Microbioma Humano (HMP), se analizaron las comunidades microbianas intestinales mediante secuenciación de ADN de alto rendimiento. El HMP mostró que, a diferencia de las especies microbianas individuales, muchos procesos metabólicos estaban presentes entre todos los hábitats corporales con frecuencias variables. Se estudiaron las comunidades microbianas de 649 metagenomas extraídos de siete sitios corporales primarios en 102 individuos como parte del proyecto del microbioma humano . El análisis metagenómico reveló variaciones en la abundancia específica de nicho entre 168 módulos funcionales y 196 vías metabólicas dentro del microbioma. Estos incluyeron la degradación de glicosaminoglicanos en el intestino, así como el transporte de fosfato y aminoácidos vinculado al fenotipo del huésped (pH vaginal) en el fórnix posterior. El HMP ha sacado a la luz la utilidad de la metagenómica en el diagnóstico y la medicina basada en la evidencia . Por lo tanto, la metagenómica es una herramienta poderosa para abordar muchos de los problemas urgentes en el campo de la medicina personalizada . [102]
En los animales, la metagenómica se puede utilizar para perfilar sus microbiomas intestinales y permitir la detección de bacterias resistentes a los antibióticos. [103] Esto puede tener implicaciones en el seguimiento de la propagación de enfermedades de la vida silvestre a los animales de granja y a los seres humanos.
Diferenciar entre enfermedades infecciosas y no infecciosas e identificar la etiología subyacente de la infección puede ser un desafío. Por ejemplo, más de la mitad de los casos de encefalitis permanecen sin diagnosticar, a pesar de las pruebas exhaustivas realizadas con métodos de laboratorio clínico de última generación. La secuenciación metagenómica clínica parece prometedora como un método sensible y rápido para diagnosticar la infección mediante la comparación del material genético encontrado en la muestra de un paciente con bases de datos de todos los patógenos humanos microscópicos conocidos y miles de otros organismos bacterianos, virales, fúngicos y parasitarios y bases de datos sobre secuencias de genes de resistencia a los antimicrobianos con fenotipos clínicos asociados. [104]
La metagenómica ha sido una herramienta invaluable para ayudar a caracterizar la diversidad y ecología de los patógenos que son transmitidos por insectos hematófagos (que se alimentan de sangre) como los mosquitos y las garrapatas. [105] [106] [107] La metagenómica es [ ¿cuándo? ] utilizada rutinariamente por funcionarios y organizaciones de salud pública [ ¿dónde? ] para la vigilancia de los arbovirus . [108] [109]