Binning (metagenómica)

En metagenómica , la clasificación es el proceso de agrupar lecturas o contigs y asignarlos a genomas individuales . Los métodos de clasificación pueden basarse en características de composición o alineamiento (similitud), o en ambos. ^[1]

Introducción

Las muestras metagenómicas pueden contener lecturas de una gran cantidad de organismos. Por ejemplo, en un solo gramo de tierra, puede haber hasta 18000 tipos diferentes de organismos, cada uno con su propio genoma. ^[2] Los estudios metagenómicos toman muestras de ADN de toda la comunidad y lo ponen a disposición como secuencias de nucleótidos de cierta longitud . En la mayoría de los casos, la naturaleza incompleta de las secuencias obtenidas dificulta el ensamblaje de genes individuales, ^{[3] mucho menos la recuperación de los}genomas completos de cada organismo. Por lo tanto, las técnicas de binning representan un "mejor esfuerzo" para identificar lecturas o contigs dentro de ciertos genomas conocidos como Genoma Ensamblado de Metagenoma (MAG). La taxonomía de los MAG se puede inferir a través de la colocación en un árbol filogenético de referencia utilizando algoritmos como GTDB -Tk. ^[4]

Los primeros estudios que tomaron muestras de ADN de múltiples organismos utilizaron genes específicos para evaluar la diversidad y el origen de cada muestra. ^[5]^[6] Estos genes marcadores habían sido secuenciados previamente a partir de cultivos clonales de organismos conocidos, por lo que, siempre que uno de esos genes apareciera en una lectura o contig de la muestra metagenómica, esa lectura podía asignarse a una especie conocida o a la OTU de esa especie. El problema con este método era que solo una pequeña fracción de las secuencias contenía un gen marcador, lo que dejaba la mayoría de los datos sin asignar.

Las técnicas modernas de clasificación utilizan tanto información previamente disponible independiente de la muestra como información intrínseca presente en la muestra. Dependiendo de la diversidad y complejidad de la muestra, su grado de éxito varía: en algunos casos pueden resolver las secuencias hasta especies individuales, mientras que en otros las secuencias se identifican en el mejor de los casos con grupos taxonómicos muy amplios. ^[7]

La clasificación de datos metagenómicos de diversos hábitats podría ampliar significativamente el árbol de la vida. Este enfoque sobre metagenomas disponibles a nivel mundial clasificó 52 515 genomas microbianos individuales y amplió la diversidad de bacterias y arqueas en un 44 %. ^[8]

Algoritmos

Los algoritmos de binning pueden emplear información previa y, por lo tanto, actuar como clasificadores supervisados , o pueden intentar encontrar nuevos grupos, que actúan como clasificadores no supervisados . Muchos, por supuesto, hacen ambas cosas. Los clasificadores explotan las secuencias previamente conocidas realizando alineaciones con bases de datos e intentan separar secuencias en función de características específicas del organismo del ADN, ^[9] como el contenido de GC .

Algunos algoritmos de binning destacados para conjuntos de datos metagenómicos obtenidos a través de secuenciación shotgun incluyen TETRA, MEGAN, Phylopythia, SOrt-ITEMS y DiScRIBinATE, entre otros. ^[10]

TETRA

TETRA es un clasificador estadístico que utiliza patrones de uso de tetranucleótidos en fragmentos genómicos. ^[11] Hay cuatro nucleótidos posibles en el ADN , por lo tanto, puede haber diferentes fragmentos de cuatro nucleótidos consecutivos; estos fragmentos se llaman tetrámeros. TETRA funciona tabulando las frecuencias de cada tetrámero para una secuencia dada. A partir de estas frecuencias, se calculan los puntajes z , que indican qué tan sobrerrepresentado o subrepresentado está el tetrámero en contraposición con lo que se esperaría al observar las composiciones de nucleótidos individuales. Los puntajes z para cada tetrámero se ensamblan en un vector, y los vectores correspondientes a diferentes secuencias se comparan por pares, para obtener una medida de qué tan similares son las diferentes secuencias de la muestra. Se espera que las secuencias más similares pertenezcan a organismos en la misma OTU. $4^{4}=256$

MEGANE

En el método DIAMOND ^[12] + MEGAN ^[13] , todas las lecturas se alinean primero con una base de datos de referencia de proteínas, como NCBI-nr, y luego las alineaciones resultantes se analizan utilizando el algoritmo LCA ingenuo, que coloca una lectura en el nodo taxonómico más bajo en la taxonomía NCBI que se encuentra por encima de todos los taxones con los que la lectura tiene una alineación significativa. Aquí, una alineación generalmente se considera "significativa", si su puntuación de bits se encuentra por encima de un umbral determinado (que depende de la longitud de las lecturas) y está dentro del 10%, digamos, de la mejor puntuación observada para esa lectura. La razón de utilizar secuencias de referencia de proteínas, en lugar de secuencias de referencia de ADN, es que las bases de datos de referencia de ADN actuales solo cubren una pequeña fracción de la verdadera diversidad de genomas que existen en el medio ambiente.

filopitia

Phylopythia es un clasificador supervisado desarrollado por investigadores de los laboratorios de IBM, y es básicamente una máquina de vectores de soporte entrenada con k-meros de ADN de secuencias conocidas. ^[6]

ORDENAR ARTICULOS

SOrt-ITEMS ^[14] es un algoritmo de binning basado en alineamiento desarrollado por Innovations Labs de Tata Consultancy Services (TCS) Ltd., India. Los usuarios deben realizar una búsqueda de similitud de las secuencias metagenómicas de entrada (lecturas) contra la base de datos de proteínas nr utilizando la búsqueda BLASTx. La salida BLASTx generada se toma luego como entrada por el programa SOrt-ITEMS. El método utiliza un rango de umbrales de parámetros de alineamiento BLAST para identificar primero un nivel taxonómico apropiado (o rango) donde se puede asignar la lectura. Luego se adopta un enfoque basado en ortología para la asignación final de la lectura metagenómica. Otros algoritmos de binning basados en alineamiento desarrollados por Innovation Labs de Tata Consultancy Services (TCS) incluyen DiScRIBinATE, ^[15] ProViDE ^[16] y SPHINX. ^[17] Las metodologías de estos algoritmos se resumen a continuación.

DISCRIBINADO

DiScRIBinATE ^[15] es un algoritmo de clasificación basado en la alineación desarrollado por Innovations Labs de Tata Consultancy Services (TCS) Ltd., India. DiScRIBinATE reemplaza el enfoque de ortología de SOrt-ITEMS con un enfoque más rápido "sin alineación". Se observó que la incorporación de esta estrategia alternativa reducía el tiempo de clasificación a la mitad sin ninguna pérdida significativa en la precisión y especificidad de las asignaciones. Además, una nueva estrategia de reclasificación incorporada en DiScRIBinATE parecía reducir la tasa general de clasificación errónea.

Proporcionar

ProViDE ^[16] es un método de clasificación basado en alineamiento desarrollado por los laboratorios de innovación de Tata Consultancy Services (TCS) Ltd. para la estimación de la diversidad viral en muestras metagenómicas. ProViDE adopta un método basado en ortología inversa similar a SOrt-ITEMS para la clasificación taxonómica de secuencias metagenómicas obtenidas de conjuntos de datos de viromas. Es un conjunto personalizado de umbrales de parámetros BLAST, específicamente adecuados para secuencias metagenómicas virales. Estos umbrales capturan el patrón de divergencia de secuencias y la jerarquía taxonómica no uniforme observada dentro/a través de varios grupos taxonómicos del reino viral.

PCAHIER

PCAHIER, ^[18] otro algoritmo de clasificación desarrollado por el Instituto de Tecnología de Georgia, emplea frecuencias de oligonucleótidos de n-meros como características y adopta un clasificador jerárquico (PCAHIER) para clasificar fragmentos metagenómicos cortos. Se utilizó el análisis de componentes principales para reducir la alta dimensionalidad del espacio de características. La eficacia del PCAHIER se demostró mediante comparaciones con un clasificador no jerárquico y dos algoritmos de clasificación existentes (TETRA y Phylopythia).

ESFINGE

SPHINX, ^[17] otro algoritmo de clasificación desarrollado por los laboratorios de innovación de Tata Consultancy Services (TCS) Ltd., adopta una estrategia híbrida que logra una alta eficiencia de clasificación utilizando los principios de los algoritmos de clasificación basados en "composición" y "alineación". El enfoque fue diseñado con el objetivo de analizar conjuntos de datos metagenómicos tan rápidamente como los enfoques basados en composición, pero sin embargo con la precisión y especificidad de los algoritmos basados en alineación. Se observó que SPHINX clasificaba secuencias metagenómicas tan rápidamente como los algoritmos basados en composición. Además, se observó que la eficiencia de clasificación (en términos de precisión y especificidad de las asignaciones) de SPHINX era comparable con los resultados obtenidos utilizando algoritmos basados en alineación.

INDUS y TWARIT

Representan otros algoritmos de clasificación basados en la composición desarrollados por los laboratorios de innovación de Tata Consultancy Services (TCS) Ltd. Estos algoritmos utilizan una variedad de parámetros de composición de oligonucleótidos (así como estadísticos) para mejorar el tiempo de clasificación y, al mismo tiempo, mantener la precisión y especificidad de las asignaciones taxonómicas. ^[19]^[20]

Referencias

^ Maguire, Finlay; Jia, Baofeng; Gray, Kristen L.; Lau, Wing Yin Venus; Beiko, Robert G.; Brinkman, Fiona SL (1 de octubre de 2020). "Los métodos de clasificación del genoma ensamblado por metagenoma con lecturas cortas fallan desproporcionadamente para plásmidos e islas genómicas". Genómica microbiana . 6 (10): mgen000436. doi : 10.1099/mgen.0.000436 . ISSN 2057-5858. PMC 7660262 . PMID 33001022.
^ Daniel, Rolf (1 de junio de 2005). "La metagenómica del suelo". Nature Reviews Microbiology . 3 (6): 470–478. doi :10.1038/nrmicro1160. ISSN 1740-1526. PMID 15931165. S2CID 32604394.
^ Wooley, John C.; Godzik, Adam; Friedberg, Iddo (26 de febrero de 2010). "Una introducción a la metagenómica". PLOS Comput Biol . 6 (2): e1000667. Bibcode :2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047 . PMID 20195499.
^ Chaumeil, Pierre-Alain; Mussig, Aaron J; Hugenholtz, Philip; Parks, Donovan H (15 de noviembre de 2019). Hancock, John (ed.). "GTDB-Tk: un conjunto de herramientas para clasificar genomas con la base de datos de taxonomía de genomas". Bioinformática . 36 (6): 1925–1927. doi :10.1093/bioinformatics/btz848. ISSN 1367-4803. PMC 7703759 . PMID 31730192.
^ Giovannoni, Stephen J.; Britschgi, Theresa B.; Moyer, Craig L.; Field, Katharine G. (3 de mayo de 1990). "Diversidad genética en el bacterioplancton del mar de los Sargazos". Nature . 345 (6270): 60–63. Bibcode :1990Natur.345...60G. doi :10.1038/345060a0. PMID 2330053. S2CID 4370502.
^ ab McHardy, Alice Carolyn; Martin, Hector Garcia; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (enero de 2007). "Clasificación filogenética precisa de fragmentos de ADN de longitud variable". Nature Methods . 4 (1): 63–72. doi :10.1038/nmeth976. ISSN 1548-7091. PMID 17179938. S2CID 28797816.
^ Hickl, Oskar; Queirós, Pedro; Wilmes, Paul; May, Patrick; Heintz-Buschart, Anna (19 de noviembre de 2022). "binny: un algoritmo de binning automatizado para recuperar genomas de alta calidad a partir de conjuntos de datos metagenómicos complejos". Briefings in Bioinformatics . 23 (6). doi :10.1093/bib/bbac431.
^ Consorcio de datos IMG/M; Nayfach, Stephen; Roux, Simon; Seshadri, Rekha; Udwary, Daniel; Varghese, Neha; Schulz, Frederik; Wu, Dongying; Paez-Espino, David; Chen, I-Min; Huntemann, Marcel (9 de noviembre de 2020). "Un catálogo genómico de los microbiomas de la Tierra". Nature Biotechnology . 39 (4): 499–509. doi : 10.1038/s41587-020-0718-6 . ISSN 1087-0156. PMC 8041624 . PMID 33169036.
^ Karlin, S.; I. Ladunga; BE Blaisdell (1994). "Heterogeneidad de los genomas: medidas y valores". Actas de la Academia Nacional de Ciencias . 91 (26): 12837–12841. Bibcode :1994PNAS...9112837K. doi : 10.1073/pnas.91.26.12837 . PMC 45535 . PMID 7809131.
^ Mande, Sharmila S.; Mohammed, Monzoorul Haque; Ghosh, Tarini Shankar (1 de noviembre de 2012). "Clasificación de secuencias metagenómicas: métodos y desafíos". Briefings in Bioinformatics . 13 (6): 669–681. doi :10.1093/bib/bbs054. PMID 22962338.
^ Teeling, Hanno; Waldmann, Jost; Lombardot, Thierry; Bauer, Margarete; Glockner, Frank (2004). "TETRA: un servicio web y un programa independiente para el análisis y la comparación de patrones de uso de tetranucleótidos en secuencias de ADN". BMC Bioinformatics . 5 (1): 163. doi : 10.1186/1471-2105-5-163 . PMC 529438 . PMID 15507136.
^ Buchfink, Benjamin; Xie, Chao; Huson, Daniel H (enero de 2015). "Alineamiento de proteínas rápido y sensible utilizando DIAMOND". Nature Methods . 12 (1): 59–60. doi :10.1038/nmeth.3176. PMID 25402007. S2CID 5346781.
^ Huson, Daniel H.; Beier, Sina; Flade, Isabell; Górska, Anna; El-Hadidi, Mohamed; Mitra, Suparna; Ruscheweyh, Hans-Joachim; Tappu, Rewati (21 de junio de 2016). "MEGAN Community Edition - Exploración y análisis interactivos de datos de secuenciación del microbioma a gran escala". PLOS Computational Biology . 12 (6): e1004957. Bibcode :2016PLSCB..12E4957H. doi : 10.1371/journal.pcbi.1004957 . PMC 4915700 . PMID 27327495.
^ Monzoorul Haque, M.; Ghosh, Tarini Shankar; Komanduri, Dinakar; Mande, Sharmila S. (15 de julio de 2009). "SOrt-ITEMS: Enfoque basado en la ortología de secuencias para una mejor estimación taxonómica de secuencias metagenómicas". Bioinformática . 25 (14): 1722–1730. doi :10.1093/bioinformatics/btp317. PMID 19439565.
^ ab Ghosh, Tarini Shankar; Haque M, Monzoorul; Mande, Sharmila S (octubre de 2010). "DiScRIBinATE: un método rápido para la clasificación taxonómica precisa de secuencias metagenómicas". BMC Bioinformatics . 11 (S7): S14. doi : 10.1186/1471-2105-11-s7-s14 . PMC 2957682 . PMID 21106121.
^ ab Ghosh, Tarini Shankar; Mohammed, Monzoorul Haque; Komanduri, Dinakar; Mande, Sharmila Shekhar (22 de marzo de 2011). "ProViDE: una herramienta de software para la estimación precisa de la diversidad viral en muestras metagenómicas". Bioinformación . 6 (2): 91–94. doi :10.6026/97320630006091. PMC 3082859 . PMID 21544173.
^ ab Mohammed, Monzoorul Haque; Ghosh, Tarini Shankar; Singh, Nitin Kumar; Mande, Sharmila S. (1 de enero de 2011). "SPHINX: un algoritmo para la clasificación taxonómica de secuencias metagenómicas". Bioinformática . 27 (1): 22–30. doi :10.1093/bioinformatics/btq608. PMID 21030462.
^ Zheng, Hao; Wu, Hongwei (diciembre de 2010). "Agrupamiento de fragmentos cortos de ADN procariota utilizando un clasificador jerárquico basado en análisis discriminante lineal y análisis de componentes principales". Revista de bioinformática y biología computacional . 08 (6): 995–1011. doi :10.1142/s0219720010005051. PMID 21121023.
^ Mohammed, Monzoorul Haque; Ghosh, Tarini Shankar; Reddy, Rachamalla Maheedhar; Reddy, Chennareddy Venkata Siva Kumar; Singh, Nitin Kumar; Mande, Sharmila S (diciembre de 2011). "INDUS: un enfoque basado en la composición para la clasificación taxonómica rápida y precisa de secuencias metagenómicas". BMC Genomics . 12 (S3): S4. doi : 10.1186/1471-2164-12-s3-s4 . PMC 3333187 . PMID 22369237.
^ Reddy, Rachamalla Maheedhar; Mohammed, Monzoorul Haque; Mande, Sharmila S (septiembre de 2012). "TWARIT: Un enfoque extremadamente rápido y eficiente para la clasificación filogenética de secuencias metagenómicas". Gene . 505 (2): 259–265. doi :10.1016/j.gene.2012.06.014. PMID 22710135.