En metagenómica , la clasificación es el proceso de agrupar lecturas o contigs y asignarlos a genomas individuales . Los métodos de clasificación pueden basarse en características de composición o alineamiento (similitud), o en ambos. [1]
Las muestras metagenómicas pueden contener lecturas de una gran cantidad de organismos. Por ejemplo, en un solo gramo de tierra, puede haber hasta 18000 tipos diferentes de organismos, cada uno con su propio genoma. [2] Los estudios metagenómicos toman muestras de ADN de toda la comunidad y lo ponen a disposición como secuencias de nucleótidos de cierta longitud . En la mayoría de los casos, la naturaleza incompleta de las secuencias obtenidas dificulta el ensamblaje de genes individuales, [3] mucho menos la recuperación de los genomas completos de cada organismo. Por lo tanto, las técnicas de binning representan un "mejor esfuerzo" para identificar lecturas o contigs dentro de ciertos genomas conocidos como Genoma Ensamblado de Metagenoma (MAG). La taxonomía de los MAG se puede inferir a través de la colocación en un árbol filogenético de referencia utilizando algoritmos como GTDB -Tk. [4]
Los primeros estudios que tomaron muestras de ADN de múltiples organismos utilizaron genes específicos para evaluar la diversidad y el origen de cada muestra. [5] [6] Estos genes marcadores habían sido secuenciados previamente a partir de cultivos clonales de organismos conocidos, por lo que, siempre que uno de esos genes apareciera en una lectura o contig de la muestra metagenómica, esa lectura podía asignarse a una especie conocida o a la OTU de esa especie. El problema con este método era que solo una pequeña fracción de las secuencias contenía un gen marcador, lo que dejaba la mayoría de los datos sin asignar.
Las técnicas modernas de clasificación utilizan tanto información previamente disponible independiente de la muestra como información intrínseca presente en la muestra. Dependiendo de la diversidad y complejidad de la muestra, su grado de éxito varía: en algunos casos pueden resolver las secuencias hasta especies individuales, mientras que en otros las secuencias se identifican en el mejor de los casos con grupos taxonómicos muy amplios. [7]
La clasificación de datos metagenómicos de diversos hábitats podría ampliar significativamente el árbol de la vida. Este enfoque sobre metagenomas disponibles a nivel mundial clasificó 52 515 genomas microbianos individuales y amplió la diversidad de bacterias y arqueas en un 44 %. [8]
Los algoritmos de binning pueden emplear información previa y, por lo tanto, actuar como clasificadores supervisados , o pueden intentar encontrar nuevos grupos, que actúan como clasificadores no supervisados . Muchos, por supuesto, hacen ambas cosas. Los clasificadores explotan las secuencias previamente conocidas realizando alineaciones con bases de datos e intentan separar secuencias en función de características específicas del organismo del ADN, [9] como el contenido de GC .
Algunos algoritmos de binning destacados para conjuntos de datos metagenómicos obtenidos a través de secuenciación shotgun incluyen TETRA, MEGAN, Phylopythia, SOrt-ITEMS y DiScRIBinATE, entre otros. [10]
TETRA es un clasificador estadístico que utiliza patrones de uso de tetranucleótidos en fragmentos genómicos. [11] Hay cuatro nucleótidos posibles en el ADN , por lo tanto, puede haber diferentes fragmentos de cuatro nucleótidos consecutivos; estos fragmentos se llaman tetrámeros. TETRA funciona tabulando las frecuencias de cada tetrámero para una secuencia dada. A partir de estas frecuencias, se calculan los puntajes z , que indican qué tan sobrerrepresentado o subrepresentado está el tetrámero en contraposición con lo que se esperaría al observar las composiciones de nucleótidos individuales. Los puntajes z para cada tetrámero se ensamblan en un vector, y los vectores correspondientes a diferentes secuencias se comparan por pares, para obtener una medida de qué tan similares son las diferentes secuencias de la muestra. Se espera que las secuencias más similares pertenezcan a organismos en la misma OTU.
En el método DIAMOND [12] + MEGAN [13] , todas las lecturas se alinean primero con una base de datos de referencia de proteínas, como NCBI-nr, y luego las alineaciones resultantes se analizan utilizando el algoritmo LCA ingenuo, que coloca una lectura en el nodo taxonómico más bajo en la taxonomía NCBI que se encuentra por encima de todos los taxones con los que la lectura tiene una alineación significativa. Aquí, una alineación generalmente se considera "significativa", si su puntuación de bits se encuentra por encima de un umbral determinado (que depende de la longitud de las lecturas) y está dentro del 10%, digamos, de la mejor puntuación observada para esa lectura. La razón de utilizar secuencias de referencia de proteínas, en lugar de secuencias de referencia de ADN, es que las bases de datos de referencia de ADN actuales solo cubren una pequeña fracción de la verdadera diversidad de genomas que existen en el medio ambiente.
Phylopythia es un clasificador supervisado desarrollado por investigadores de los laboratorios de IBM, y es básicamente una máquina de vectores de soporte entrenada con k-meros de ADN de secuencias conocidas. [6]
SOrt-ITEMS [14] es un algoritmo de binning basado en alineamiento desarrollado por Innovations Labs de Tata Consultancy Services (TCS) Ltd., India. Los usuarios deben realizar una búsqueda de similitud de las secuencias metagenómicas de entrada (lecturas) contra la base de datos de proteínas nr utilizando la búsqueda BLASTx. La salida BLASTx generada se toma luego como entrada por el programa SOrt-ITEMS. El método utiliza un rango de umbrales de parámetros de alineamiento BLAST para identificar primero un nivel taxonómico apropiado (o rango) donde se puede asignar la lectura. Luego se adopta un enfoque basado en ortología para la asignación final de la lectura metagenómica. Otros algoritmos de binning basados en alineamiento desarrollados por Innovation Labs de Tata Consultancy Services (TCS) incluyen DiScRIBinATE, [15] ProViDE [16] y SPHINX. [17] Las metodologías de estos algoritmos se resumen a continuación.
DiScRIBinATE [15] es un algoritmo de clasificación basado en la alineación desarrollado por Innovations Labs de Tata Consultancy Services (TCS) Ltd., India. DiScRIBinATE reemplaza el enfoque de ortología de SOrt-ITEMS con un enfoque más rápido "sin alineación". Se observó que la incorporación de esta estrategia alternativa reducía el tiempo de clasificación a la mitad sin ninguna pérdida significativa en la precisión y especificidad de las asignaciones. Además, una nueva estrategia de reclasificación incorporada en DiScRIBinATE parecía reducir la tasa general de clasificación errónea.
ProViDE [16] es un método de clasificación basado en alineamiento desarrollado por los laboratorios de innovación de Tata Consultancy Services (TCS) Ltd. para la estimación de la diversidad viral en muestras metagenómicas. ProViDE adopta un método basado en ortología inversa similar a SOrt-ITEMS para la clasificación taxonómica de secuencias metagenómicas obtenidas de conjuntos de datos de viromas. Es un conjunto personalizado de umbrales de parámetros BLAST, específicamente adecuados para secuencias metagenómicas virales. Estos umbrales capturan el patrón de divergencia de secuencias y la jerarquía taxonómica no uniforme observada dentro/a través de varios grupos taxonómicos del reino viral.
PCAHIER, [18] otro algoritmo de clasificación desarrollado por el Instituto de Tecnología de Georgia, emplea frecuencias de oligonucleótidos de n-meros como características y adopta un clasificador jerárquico (PCAHIER) para clasificar fragmentos metagenómicos cortos. Se utilizó el análisis de componentes principales para reducir la alta dimensionalidad del espacio de características. La eficacia del PCAHIER se demostró mediante comparaciones con un clasificador no jerárquico y dos algoritmos de clasificación existentes (TETRA y Phylopythia).
SPHINX, [17] otro algoritmo de clasificación desarrollado por los laboratorios de innovación de Tata Consultancy Services (TCS) Ltd., adopta una estrategia híbrida que logra una alta eficiencia de clasificación utilizando los principios de los algoritmos de clasificación basados en "composición" y "alineación". El enfoque fue diseñado con el objetivo de analizar conjuntos de datos metagenómicos tan rápidamente como los enfoques basados en composición, pero sin embargo con la precisión y especificidad de los algoritmos basados en alineación. Se observó que SPHINX clasificaba secuencias metagenómicas tan rápidamente como los algoritmos basados en composición. Además, se observó que la eficiencia de clasificación (en términos de precisión y especificidad de las asignaciones) de SPHINX era comparable con los resultados obtenidos utilizando algoritmos basados en alineación.
Representan otros algoritmos de clasificación basados en la composición desarrollados por los laboratorios de innovación de Tata Consultancy Services (TCS) Ltd. Estos algoritmos utilizan una variedad de parámetros de composición de oligonucleótidos (así como estadísticos) para mejorar el tiempo de clasificación y, al mismo tiempo, mantener la precisión y especificidad de las asignaciones taxonómicas. [19] [20]