Producir un árbol filogenético requiere una cuantificación de las homologías entre las características compartidas por los taxones bajo estudio.
Por el contrario, en los árboles sin raíz se trazan las distancias y relaciones entre las secuencias de entrada sin hacer suposiciones en cuanto a sus antecesores.
[1] Algunas clasificaciones fenotípicas, particularmente aquellas usadas cuando se analizan grupos muy diversos corresponden a variables discretas y no ambiguas.
Sin embargo, la representación más apropiada de variables fenotípicas continuas es un problema controvertido sin una única solución.
Un método común es simplemente agrupar las medidas en dos o más clases, tratando de este modo la variación continua como si fuera discreta (p.
Sin embargo, definir la homología puede ser un reto, debido a las dificultades inherentes al alineamiento múltiple de secuencias.
Para un determinado alineamiento con gaps se pueden construir muchos árboles filogenéticos enraizados que difieren en cuáles cambios son "mutaciones" de caracteres ancestrales y cuáles corresponden a inserciones o deleciones de bases.
Los problemas más importantes son la pérdida de información del alineamiento múltiple y la generación de un árbol único, por lo que se desechan árboles que podrían ser igualmente válidos y consistentes con los datos.
Cuanto menos relacionadas filogenéticamente estén las secuencias, más probabilidad existirá de que hayan ocurrido eventos de sustitución múltiple, ya que han contado con más tiempo para acumular cambios.
Para elegir el modelo evolutivo correcto se puede recurrir a programas como las diferentes versiones de ModelTest, que implementa distintas estrategias de selección (AIC, hLRT, dLRT, BIC, DT).
Existen muchos modelos evolutivos diferentes, desde el más simple, con la misma frecuencia para todos los nucleótidos y las mismas tasas de sustitución en todos los casos (Jukes-Cantor, 1969) hasta otros más complejos como el General Time-Reversible (GTR), que considera distintas frecuencias para cada nucleótido y distinta tasa para cada tipo de sustitución.
Los primeros son los llamados algorítmicos, que agrupan las secuencias según distintos criterios, creando un nuevo nodo en cada paso, y finalmente obtienen un árbol único, que se considera el más ajustado a los datos.
El proceso se repite hasta que todas las secuencias quedan agrupadas y unidas por nodos internos.
[9] Con este método se obtiene un árbol enraizado y ultramétrico, en el que todas las secuencias presentan la misma distancia al punto de origen, ya que se asume la existencia de un reloj molecular evolutivo.
[9] Con este método se obtiene un árbol no enraizado y aditivo, en el que la longitud de sus ramas indica cambio evolutivo.
El método de Fitch-Margoliash emplea cuadrados mínimos ponderados para el agrupamiento basado en distancia genética.
Si el grupo externo se elige bien, debería estar separado de los demás por una mayor distancia genética, y por lo tanto, en el árbol será una rama de mucha mayor longitud que el resto y con un nodo más cercano a la raíz.
Para escoger un grupo apropiado hay que seleccionar una secuencia que esté relacionada hasta cierto punto con las secuencias de interés: si está demasiado próxima, no cumple bien el propósito de un grupo externo y si está demasiado alejada, distorsiona el análisis.
Los datos que se utilizan para la realización de filogenias moleculares se recogen en una matriz que puede estar formada por secuencias de ADN previamente alineadas, siendo los estados los cuatro diferentes nucleótidos (A,T,C,G) o en una matriz compuesta por secuencias proteicas que recoge los diferentes 20 aminoácidos; es en la matriz donde se asigna uno o varios caracteres a cada taxón.
Además este método no requiere de modelos evolutivos previos para su realización.
El algoritmo termina la búsqueda cuando la raíz ha sido visitada por última vez, siendo en ese momento cuando todos los árboles óptimos se habrán podido identificar.
[13] Identificar un buen acotamiento en el recorrido es lo más difícil a la hora de aplicar el algoritmo.
Las dos reglas más básicas ordenan la eliminación de todas las secuencias redundantes excepto una (para casos en que observaciones múltiples han producido datos idénticos) y la eliminación de sitios en que dos o más estados no ocurren en al menos dos especies.
El algoritmo Sankoff-Morel-Cedergren estuvo entre los primeros métodos para producir al mismo tiempo MSA y un árbol filogenético.
[4] Los métodos filogenéticos más recientes usan la heurística para identificar árboles con buen puntaje, aunque no necesariamente óptimos.
El método MALIGN utiliza una técnica de máxima parsimonia para calcular un alineamiento múltiple mediante la maximización del puntaje de un cladograma, y el programa relacionado POY usa un método iterativo que aúna la optimización del árbol filogenético con mejoras en el alineamiento correspondiente.
Actualmente la máxima verosimilitud se emplea para analizar secuencias alineadas de nucleótidos, aminoácidos y proteínas.
Este hecho hasta cierto punto es similar a la máxima parsimonia, pero difiere en que la máxima verosimilitud tiene mayor flexibilidad estadística, permite diferentes tasas de evolución tanto en los linajes como en los sitios de las secuencias, así como también presenta bajas varianzas con respecto a otros métodos.
No obstante presenta ciertas limitaciones con respecto a los demás métodos; ya que dependiendo del número de secuencias que se deseen analizar, generalmente si son más de 10 taxones o OTUS, los requerimientos computacionales se incrementan y puede ser un proceso demasiado lento, puesto que estimar las numerosas hipótesis alternativas, resulta ser una tarea dispendiosa.
Sin embargo, los árboles producidos por el método solo se enraízan si el modelo de sustitución es irreversible, lo cual no es generalmente verdadero para los sistemas biológicos.