T-REX (Tree and Reticulogram Reconstruction) [1] [2] es un servidor web de libre acceso , desarrollado en el departamento de Ciencias de la Computación de la Université du Québec à Montréal , dedicado a la inferencia, validación y visualización de árboles filogenéticos y redes filogenéticas . El servidor web T-REX [1] [2] permite a los usuarios realizar varios métodos populares de análisis filogenético, así como algunas nuevas aplicaciones filogenéticas para inferir, dibujar y validar árboles y redes filogenéticos.
Los métodos disponibles para inferir y validar árboles filogenéticos mediante distancias son: Neighbor join (NJ), Neighbor joining a gran escala NINJA, BioNJ, UNJ, ADDTREE, MW, FITCH y reconstrucción de orden circular. Para la máxima parsimonia: DNAPARS, PROTPARS, PARS y DOLLOP, todos ellos del paquete PHYLIP , y para la máxima verosimilitud: PhyML, [3] RAxML, [4] DNAML, DNAMLK, PROML y PROMLK, los cuatro últimos métodos son del paquete PHYLIP .
Están disponibles tipos de dibujo de árbol jerárquicos verticales, horizontales, radiales y axiales.
Los datos de entrada pueden estar en los tres formatos siguientes: formato Newick , formato PHYLIP y formato FASTA . Todos los resultados gráficos proporcionados por el servidor T-REX pueden guardarse en formato SVG (Scalable Vector Graphics) y luego abrirse y modificarse (por ejemplo, prepararlos para una publicación o presentación) en el editor de gráficos preferido del usuario.
Una aplicación desarrollada para dibujar árboles filogenéticos que permite guardarlos en el formato Newick .
Los siguientes métodos para reconstruir árboles filogenéticos a partir de una matriz de distancias que contiene valores faltantes, es decir, matrices incompletas, están disponibles: método de triángulos de Guénoche y Leclerc (2001), procedimiento ultramétrico para la estimación de valores faltantes de Landry, Lapointe y Kirsch (1996) seguido de NJ, procedimiento aditivo para la estimación de valores faltantes de Landry, Lapointe y Kirsch (1996) seguido de NJ, y el método de mínimos cuadrados ponderados modificados (MW*) de Makarenkov y Lapointe (2004). El método MW* asigna el peso de 1 a las entradas existentes, el peso de 0,5 a las entradas estimadas y el peso de 0 cuando la estimación de la entrada fue imposible. Las simulaciones descritas en (Makarenkov y Lapointe 2004) mostraron que el método MW* supera claramente a los procedimientos de triángulos, ultramétrico y aditivo.
El servidor T-REX incluye métodos completos y parciales de detección y validación de transferencia horizontal de genes . El programa HGT-Detection [5] tiene como objetivo determinar un escenario óptimo, es decir, de mínimo costo, de transferencia horizontal de genes mientras se procede a una conciliación gradual de las especies y los árboles genéticos dados.
El programa de reconstrucción de reticulogramas, es decir, redes reticuladas, primero construye un árbol filogenético de apoyo utilizando uno de los métodos de inferencia de árboles existentes. A continuación, se añade al árbol (o red a partir del paso 2) una rama de reticulación que minimiza la función objetivo de mínimos cuadrados o de mínimos cuadrados ponderados en cada paso del algoritmo. [6] Se han propuesto dos criterios estadísticos, Q1 y Q2, para medir la ganancia en el ajuste proporcionado por cada rama de reticulación.
La versión de servidor web de T-REX también ofrece la posibilidad de inferir el árbol de apoyo a partir de una matriz de distancias y luego añadir ramas de reticulación utilizando otra matriz de distancias. Este algoritmo puede ser útil para representar similitudes morfológicas o genéticas entre especies dadas o para identificar eventos de transferencia horizontal de genes utilizando la primera matriz de distancias para inferir el árbol de especies y la segunda matriz (que contiene las distancias relacionadas con los genes) para inferir las ramas de reticulación que representan transferencias horizontales de genes putativas [6] . [7]
MAFFT , MUSCLE (software de alineación) y ClustalW , que se encuentran entre las herramientas de alineación de secuencias múltiples más utilizadas , están disponibles con opciones de alineación por pares lenta y rápida.
Los siguientes modelos populares de sustitución de la evolución del ADN y de los aminoácidos, que permiten estimar distancias evolutivas a partir de datos de secuencia, se han incluido en T-REX: distancia no corregida, Jukes-Cantor (Jukes y Cantor 1969), K80 – 2 parámetros (Kimura 1980), T92 (Tamura 1992), Tajima-Nei (Tajima y Nei 1984), Jin-Nei gamma (Jin y Nei 1990), proteína Kimura (Kimura 1983), LogDet (Lockhart et al. 1994), F84 (Felsenstein 1981), WAG (Whelan y Goldman 2001), JTT (Jones et al. 1992) y LG (Le y Gascuel 2008).
Este programa calcula la distancia topológica de la métrica de Robinson-Foulds (RF) (Robinson y Foulds 1981), que es una medida popular de la similitud de los árboles, entre el primer árbol y todos los árboles siguientes especificados por el usuario. Los árboles se pueden proporcionar en los formatos de matriz de distancia o newick. Se lleva a cabo un algoritmo óptimo descrito en (Makarenkov y Leclerc 2000) para calcular la métrica RF.
Conversión de matriz de distancias a Newick y de matriz de distancias a formato Newick. Una aplicación interna permite al usuario convertir un árbol filogenético del formato Newick al formato de matriz de distancias y viceversa.
Esta aplicación genera k árboles filogenéticos aleatorios con n hojas, es decir, especies o taxones, y una longitud de rama promedio l utilizando el procedimiento de generación de árboles aleatorios descrito por Kuhner y Felsenstein (1994), [8] donde las variables k , n y l son definidas por el usuario. Las longitudes de rama de los árboles siguen una distribución exponencial. Las longitudes de rama se multiplican por 1+ ax , donde la variable x se obtiene de una distribución exponencial (P( x > k ) = exp(- k )), y la constante a es un factor de ajuste que explica la intensidad de la desviación (como se describe en Guindon y Gascuel (2002), [9] el valor de a se estableció en 0,8). Los árboles aleatorios generados por este procedimiento tienen una profundidad de O(log ( n )).