La metatranscriptómica es el conjunto de técnicas utilizadas para estudiar la expresión genética de los microbios en entornos naturales, es decir, el metatranscriptoma. [1]
Mientras que la metagenómica se centra en el estudio del contenido genómico y en la identificación de los microbios presentes en una comunidad, la metatranscriptómica se puede utilizar para estudiar la diversidad de genes activos dentro de dicha comunidad, cuantificar sus niveles de expresión y monitorear cómo estos niveles cambian en diferentes condiciones (por ejemplo, condiciones fisiológicas y patológicas en un organismo). La ventaja de la metatranscriptómica es que puede proporcionar información sobre las diferencias en las funciones activas de las comunidades microbianas que, de otro modo, parecerían tener una composición similar. [2]
El microbioma se ha definido como una comunidad microbiana que ocupa un hábitat bien definido. [3] Estas comunidades son ubicuas y pueden desempeñar un papel clave en el mantenimiento de las características de su entorno, y un desequilibrio en estas comunidades puede afectar negativamente las actividades del entorno en el que residen. Para estudiar estas comunidades y luego determinar su impacto y correlación con su nicho, se han utilizado diferentes enfoques ómicos . Mientras que la metagenómica puede ayudar a los investigadores a generar un perfil taxonómico de la muestra, la metatranscriptómica proporciona un perfil funcional al analizar qué genes se expresan en la comunidad. Es posible inferir qué genes se expresan en condiciones específicas, y esto se puede hacer utilizando anotaciones funcionales de los genes expresados.
Dado que la metatranscriptómica se centra en qué genes se expresan, permite la caracterización del perfil funcional activo de toda la comunidad microbiana. [4] La descripción general de la expresión genética en una muestra determinada se obtiene capturando el ARNm total del microbioma y realizando una secuenciación shotgun de metatranscriptómica completa .
Aunque los microarrays pueden utilizarse para determinar los perfiles de expresión génica de algunos organismos modelo, la secuenciación de próxima generación y la secuenciación de tercera generación son las técnicas preferidas en metatranscriptómica. El protocolo que se utiliza para realizar un análisis del metatranscriptoma puede variar según el tipo de muestra que se necesite analizar. De hecho, se han desarrollado muchos protocolos diferentes para estudiar el metatranscriptoma de muestras microbianas. En general, los pasos incluyen la recolección de la muestra, la extracción de ARN (se han descrito en la literatura diferentes métodos de extracción para diferentes tipos de muestras), el enriquecimiento del ARNm, la síntesis del ADNc y la preparación de bibliotecas metatranscriptómicas, la secuenciación y el procesamiento y análisis de datos. El enriquecimiento del ARNm es uno de los pasos técnicamente más desafiantes, para el que se han propuesto diferentes estrategias:
No se recomiendan las dos últimas estrategias porque se ha informado que son altamente sesgadas. [6]
Un proceso típico de análisis del metatranscriptoma:
La primera estrategia asigna lecturas a genomas de referencia en bases de datos, para recopilar información que es útil para deducir la expresión relativa de los genes individuales. Las lecturas metatranscriptómicas se asignan a bases de datos utilizando herramientas de alineamiento, como Bowtie2 , BWA y BLAST . Luego, los resultados se anotan utilizando recursos, como GO , KEGG , COG y Swiss-Prot . El análisis final de los resultados se lleva a cabo dependiendo del objetivo del estudio. Una de las últimas técnicas de metatranscriptómica es el sondeo de isótopos estables (SIP), que se ha utilizado para recuperar transcriptomas específicos de microbios aeróbicos en sedimentos de lagos. [7] La limitación de esta estrategia es su dependencia de la información de genomas de referencia en bases de datos.
La segunda estrategia recupera la abundancia en la expresión de los diferentes genes mediante el ensamblaje de lecturas metatranscriptómicas en fragmentos más largos llamados contigs utilizando un software diferente. Se informó que el software Trinity para RNA-seq , en comparación con otros ensambladores de transcriptomas de novo, recuperaba más transcripciones de longitud completa en un amplio rango de niveles de expresión, con una sensibilidad similar a los métodos que se basan en alineaciones genómicas. Esto es particularmente importante en ausencia de un genoma de referencia. [8]
Li y Dewey [9] desarrollaron un sistema cuantitativo para el análisis transcriptómico, denominado RSEM (RNA-Seq by Expectation Maximization). Puede funcionar como software independiente o como complemento de Trinity. RSEM comienza con un transcriptoma o ensamblaje de referencia junto con lecturas de RNA-Seq generadas a partir de la muestra y calcula la abundancia normalizada de transcripción (es decir, la cantidad de lecturas de RNA-Seq correspondientes a cada transcriptoma o ensamblaje de referencia). [10] [11]
Aunque tanto Trinity como RSEM fueron diseñados para conjuntos de datos transcriptómicos (es decir, obtenidos de un solo organismo), es posible que se puedan aplicar a datos metatranscriptómicos (es decir, obtenidos de una comunidad microbiana completa). [12] [13] [14] [15] [16] [17]
El uso de herramientas de análisis computacional ha cobrado mayor importancia a medida que han crecido las capacidades de secuenciación de ADN, en particular en el análisis metagenómico y metatranscriptómico, que puede generar un enorme volumen de datos. Se han desarrollado muchos canales bioinformáticos diferentes para estos fines, a menudo como plataformas de código abierto como HUMAnN y las más recientes HUMAnN2, MetaTrans, SAMSA, Leimena-2013 y mOTUs2. [18]
HUMAnN2 es un proceso bioinformático diseñado a partir del software HUMAnN anterior, que se desarrolló durante el Proyecto del Microbioma Humano (HMP), que implementa un enfoque de “búsqueda por niveles”. En el primer nivel, HUMAnN2 examina las lecturas de ADN o ARN con MetaPhlAn2 para identificar microbios ya conocidos y construir una base de datos específica de la muestra mediante la fusión de pangenomas de especies anotadas; en el segundo nivel, el algoritmo realiza un mapeo de las lecturas contra la base de datos de pangenomas ensamblada; en el tercer nivel, las lecturas no alineadas se utilizan para una búsqueda traducida contra una base de datos de proteínas. [19]
MetaTrans es un pipeline que explota el multithreading para mejorar la eficiencia. Los datos se obtienen de RNA-Seq paired-end, principalmente de 16S RNA para taxonomía y mRNA para niveles de expresión génica. El pipeline se divide en 4 pasos principales. En primer lugar, las lecturas paired-end se filtran para propósitos de control de calidad, luego se ordenan y filtran para análisis taxonómico (mediante eliminación de secuencias de tRNA) o análisis funcional (mediante eliminación de lecturas de tRNA y rRNA). Para el análisis taxonómico, las secuencias se mapean contra la base de datos 16S rRNA Greengenes v13.5 usando SOAP2, mientras que para el análisis funcional las secuencias se mapean contra una base de datos funcional como MetaHIT-2014 siempre usando la herramienta SOAP2. Este pipeline es altamente flexible, ya que ofrece la posibilidad de usar herramientas de terceros y mejorar módulos individuales siempre que se preserve la estructura general. [20]
Este proceso está diseñado específicamente para el análisis de datos de metatranscriptómica, trabajando en conjunto con el servidor MG-RAST para metagenómica. Este proceso es fácil de usar, requiere poca preparación técnica y potencia computacional y se puede aplicar a una amplia gama de microbios. Primero, las secuencias de los datos de secuenciación en bruto se filtran para comprobar su calidad y luego se envían a MG-RAST (que realiza pasos adicionales como control de calidad, selección de genes, agrupamiento de secuencias de aminoácidos y uso de sBLAT en cada grupo para detectar las mejores coincidencias). Luego, las coincidencias se agregan para fines de análisis taxonómico y funcional. [21]
Este algoritmo no tiene un nombre oficial y se suele hacer referencia a él utilizando el primer autor del artículo en el que se describe. Este algoritmo prevé la implementación de herramientas de alineamiento como BLAST y MegaBLAST. Las lecturas se agrupan en grupos de secuencias idénticas y luego se procesan para la eliminación in silico de secuencias de ARNt y ARNr . Las lecturas restantes se asignan a las bases de datos del NCBI utilizando BLAST y MegaBLAST, y luego se clasifican por su puntaje de bits. Las secuencias con puntajes de bits más altos se utilizan para predecir el origen y la función filogenéticos, y las lecturas con puntajes más bajos se alinean con el BLASTX más sensible y, finalmente, se pueden alinear en bases de datos de proteínas para que se pueda caracterizar su función. [12]
El perfilador mOTUs2 [22] , que se basa en genes de mantenimiento esenciales , es demostrablemente adecuado para la cuantificación de la actividad transcripcional basal de los miembros de la comunidad microbiana. [ cita requerida ] Dependiendo de las condiciones ambientales, la cantidad de transcripciones por célula varía para la mayoría de los genes. Una excepción a esto son los genes de mantenimiento que se expresan de manera constitutiva y con baja variabilidad en diferentes condiciones. [ cita requerida ] Por lo tanto, la abundancia de transcripciones de dichos genes se correlaciona fuertemente con la abundancia de células activas en una comunidad.
Otro método que se puede explotar con fines metatranscriptómicos es el de los microarrays en mosaico . En particular, los microarrays se han utilizado para medir los niveles de transcripción microbiana, para detectar nuevos transcritos y para obtener información sobre la estructura de los ARNm (por ejemplo, los límites UTR). Recientemente, también se han utilizado para encontrar nuevos ARNnc reguladores. Sin embargo, los microarrays se ven afectados por algunas dificultades:
La secuenciación de ARN permite superar estas limitaciones: no requiere ningún conocimiento previo sobre los genomas que se van a analizar y permite una validación de alto rendimiento de la predicción, la estructura y la expresión de los genes. De este modo, al combinar los dos enfoques es posible obtener una representación más completa del transcriptoma bacteriano. [1]
El microbioma intestinal ha emergido en los últimos años como un actor importante en la salud humana. Sus funciones predominantes están relacionadas con la fermentación de componentes alimentarios no digeribles, la competencia con patógenos, el fortalecimiento de la barrera intestinal, la estimulación y regulación del sistema inmunológico. [23] [24] [25] [26] [27] [28] [29] Aunque se ha aprendido mucho sobre la comunidad del microbioma en los últimos años, la amplia diversidad de microorganismos y moléculas en el intestino requiere nuevas herramientas que permitan nuevos descubrimientos. Al centrarse en los cambios en la expresión de los genes, la metatranscriptómica puede generar una imagen más dinámica del estado y la actividad del microbioma que la metagenómica. Se ha observado que los perfiles funcionales metatranscriptómicos son más variables de lo que se podría haber calculado solo con información metagenómica. Esto sugiere que los genes no constitutivos no se expresan de manera estable in situ [30] [31]
Un ejemplo de aplicación metatranscriptómica es el estudio del microbioma intestinal en la enfermedad inflamatoria intestinal. La enfermedad inflamatoria intestinal (EII) es un grupo de enfermedades crónicas del tracto digestivo que afecta a millones de personas en todo el mundo. [32] Varias mutaciones genéticas humanas se han relacionado con una mayor susceptibilidad a la EII, pero se necesitan factores adicionales para el desarrollo completo de la enfermedad.
En cuanto a la relación entre la EII y el microbioma intestinal, se sabe que existe una disbiosis en pacientes con EII, pero los perfiles taxonómicos microbianos pueden ser muy diferentes entre pacientes, lo que dificulta la implicación de especies o cepas microbianas específicas en la aparición y progresión de la enfermedad. Además, la composición del microbioma intestinal presenta una alta variabilidad a lo largo del tiempo entre las personas, con variaciones más pronunciadas en pacientes con EII. [33] [34] El potencial funcional de un organismo, es decir, los genes y las vías codificadas en su genoma, proporciona solo información indirecta sobre el nivel o el grado de activación de dichas funciones. Por lo tanto, la medición de la actividad funcional (expresión genética) es fundamental para comprender el mecanismo de la disbiosis del microbioma intestinal.
Las alteraciones en la actividad transcripcional en la EII, establecidas en la expresión del ARNr, indican que algunas poblaciones bacterianas están activas en pacientes con EII, mientras que otros grupos están inactivos o latentes. [35]
Un análisis metatranscriptómico que mide la actividad funcional del microbioma intestinal revela información que solo se puede observar parcialmente en el potencial funcional metagenómico, incluidas las observaciones relacionadas con la enfermedad en el caso de la EII. Se ha informado de que muchas señales específicas de la EII son más pronunciadas o solo se pueden detectar a nivel del ARN. [33] Estos perfiles de expresión alterados son potencialmente el resultado de cambios en el entorno intestinal de los pacientes con EII, que incluyen mayores niveles de inflamación, mayores concentraciones de oxígeno y una capa mucosa disminuida. [36] La metatranscriptómica tiene la ventaja de permitir a los investigadores omitir el análisis de productos bioquímicos in situ (como moco u oxígeno) y permite la evaluación de los efectos de los cambios ambientales en los patrones de expresión microbiana in vivo para grandes poblaciones humanas. Además, se puede combinar con un muestreo longitudinal para asociar la modulación de la actividad con la progresión de la enfermedad. De hecho, se ha demostrado que, si bien una ruta particular puede permanecer estable a lo largo del tiempo a nivel genómico, la expresión correspondiente varía con la gravedad de la enfermedad. [33] Esto sugiere que la disbiosis microbiana afecta la salud intestinal a través de cambios en los programas transcripcionales en una comunidad estable. De esta manera, el perfil metatranscriptómico surge como una herramienta importante para comprender los mecanismos de esa relación.
Algunas limitaciones técnicas de las mediciones de ARN en heces están relacionadas con el hecho de que el ARN extraído puede degradarse y, de no ser así, todavía representa únicamente los organismos presentes en la muestra de heces.
Ejemplos de técnicas aplicadas: Microarrays: permiten el seguimiento de los cambios en los niveles de expresión de muchos genes en paralelo tanto para el huésped como para el patógeno. Las primeras aproximaciones con microarrays han mostrado el primer análisis global de los cambios en la expresión génica en patógenos como Vibrio cholerae , Borrelia burgdorferi , Chlamydia trachomatis , Chlamydia pneumoniae y Salmonella enterica , revelando las estrategias que utilizan estos microorganismos para adaptarse al huésped. Además, los microarrays sólo proporcionan los primeros conocimientos globales sobre la respuesta inmune innata del huésped a los PAMP , como los efectos de la infección bacteriana sobre la expresión de varios factores del huésped. De todos modos, la detección a través de microarrays de ambos organismos al mismo tiempo podría ser problemática. Problemas:
Dual RNA-Seq: esta técnica permite el estudio simultáneo de los transcriptomas del hospedador y del patógeno. Es posible monitorizar la expresión de genes en diferentes momentos del proceso de infección; de esta forma se podrían estudiar los cambios en las redes celulares de ambos organismos desde el contacto inicial hasta la manipulación del hospedador (interacción hospedador-patógeno).
Además, la secuenciación de ARN es un método importante para identificar genes corregulados, lo que permite la organización de genomas de patógenos en operones . De hecho, se ha realizado la anotación de genomas para algunos patógenos eucariotas, como Candida albicans , Trypanosoma brucei y Plasmodium falciparum .
A pesar de la creciente sensibilidad y profundidad de la secuenciación disponible en la actualidad, todavía hay pocos estudios de ARN-Seq publicados sobre la respuesta de la célula huésped de mamíferos a la infección. [37] [38]