La filogenética computacional , la inferencia de filogenia o la inferencia filogenética se centran en algoritmos , heurísticas y enfoques computacionales y de optimización involucrados en los análisis filogenéticos . El objetivo es encontrar un árbol filogenético que represente la ascendencia evolutiva óptima entre un conjunto de genes , especies o taxones . La máxima verosimilitud , la parsimonia , el bayesiano y la evolución mínima son criterios de optimización típicos que se utilizan para evaluar qué tan bien la topología de un árbol filogenético describe los datos de la secuencia. [1] [2] El intercambio de vecinos más cercano (NNI), la poda y reinjerto de subárboles (SPR) y la bisección y reconexión de árboles (TBR), conocidos como reordenamientos de árboles , son algoritmos deterministas para buscar el árbol filogenético óptimo o mejor. El espacio y el panorama de la búsqueda del árbol filogenético óptimo se conoce como espacio de búsqueda de filogenia.
El criterio de optimización de máxima verosimilitud (también verosimilitud) es el proceso de encontrar la topología del árbol junto con las longitudes de sus ramas que proporciona la mayor probabilidad de observar los datos de la secuencia, mientras que el criterio de optimización de parsimonia es el menor número de cambios evolutivos de estado necesarios para que un árbol filogenético Explica los datos de la secuencia. [1] [2]
La filogenética tradicional se basa en datos morfológicos obtenidos midiendo y cuantificando las propiedades fenotípicas de organismos representativos, mientras que el campo más reciente de la filogenética molecular utiliza secuencias de nucleótidos que codifican genes o secuencias de aminoácidos que codifican proteínas como base para la clasificación.
Muchas formas de filogenética molecular están estrechamente relacionadas y hacen un uso extensivo del alineamiento de secuencias en la construcción y refinamiento de árboles filogenéticos, que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. Es poco probable que los árboles filogenéticos construidos mediante métodos computacionales reproduzcan perfectamente el árbol evolutivo que representa las relaciones históricas entre las especies que se analizan. [ cita necesaria ] El árbol histórico de especies también puede diferir del árbol histórico de un gen homólogo individual compartido por esas especies.
Los árboles filogenéticos generados mediante filogenética computacional pueden tener o no raíces según los datos de entrada y el algoritmo utilizado. Un árbol enraizado es un gráfico dirigido que identifica explícitamente un ancestro común más reciente (MRCA), [ cita necesaria ] generalmente una secuencia imputada que no está representada en la entrada. Las medidas de distancia genética se pueden utilizar para trazar un árbol con las secuencias de entrada como nodos de hojas y sus distancias desde la raíz proporcionales a su distancia genética desde el MRCA hipotético. La identificación de una raíz generalmente requiere la inclusión en los datos de entrada de al menos un "grupo externo" que se sabe que está relacionado lejanamente con las secuencias de interés.
Por el contrario, los árboles sin raíces trazan las distancias y relaciones entre las secuencias de entrada sin hacer suposiciones sobre su descenso. Siempre se puede producir un árbol sin raíces a partir de un árbol con raíces, pero normalmente no se puede colocar una raíz en un árbol sin raíces sin datos adicionales sobre las tasas de divergencia, como la suposición de la hipótesis del reloj molecular . [3]
El conjunto de todos los árboles filogenéticos posibles para un grupo dado de secuencias de entrada puede conceptualizarse como un "espacio de árbol" multidimensional discretamente definido a través del cual se pueden rastrear rutas de búsqueda mediante algoritmos de optimización . Aunque contar el número total de árboles para un número no trivial de secuencias de entrada puede resultar complicado por las variaciones en la definición de la topología de un árbol, siempre es cierto que hay más árboles enraizados que no enraizados para un número determinado de entradas y elección de parámetros. [2]
Tanto los árboles filogenéticos enraizados como los no enraizados pueden generalizarse aún más a redes filogenéticas enraizadas o no enraizadas , que permiten el modelado de fenómenos evolutivos como la hibridación o la transferencia horizontal de genes .
El problema básico en filogenética morfológica es el ensamblaje de una matriz que represente un mapeo de cada uno de los taxones que se compara con medidas representativas para cada una de las características fenotípicas que se utilizan como clasificador. Los tipos de datos fenotípicos utilizados para construir esta matriz dependen de los taxones que se comparan; para especies individuales, pueden implicar mediciones del tamaño corporal promedio, longitudes o tamaños de huesos particulares u otras características físicas, o incluso manifestaciones de comportamiento. Por supuesto, dado que no todas las características fenotípicas posibles pueden medirse y codificarse para su análisis, la selección de qué características medir es un obstáculo inherente importante al método. La decisión de qué rasgos utilizar como base para la matriz representa necesariamente una hipótesis sobre qué rasgos de una especie o taxón superior son evolutivamente relevantes. [4] Los estudios morfológicos pueden verse confundidos por ejemplos de evolución convergente de fenotipos. [5] Un desafío importante en la construcción de clases útiles es la alta probabilidad de superposición entre taxones en la distribución de la variación del fenotipo. La inclusión de taxones extintos en el análisis morfológico suele ser difícil debido a la ausencia de registros fósiles o a que están incompletos , pero se ha demostrado que tiene un efecto significativo en los árboles producidos; en un estudio, sólo la inclusión de especies extintas de simios produjo un árbol derivado morfológicamente que era consistente con el producido a partir de datos moleculares. [6]
Algunas clasificaciones fenotípicas, particularmente las utilizadas al analizar grupos muy diversos de taxones, son discretas e inequívocas; Clasificar organismos con o sin cola, por ejemplo, es sencillo en la mayoría de los casos, al igual que contar características como ojos o vértebras. Sin embargo, la representación más apropiada de mediciones fenotípicas que varían continuamente es un problema controvertido sin una solución general. Un método común es simplemente clasificar las mediciones de interés en dos o más clases, haciendo que la variación continua observada sea discretamente clasificable (por ejemplo, todos los ejemplos con huesos del húmero más largos que un límite determinado se califican como miembros de un estado, y todos los miembros cuyos húmeros son más largos que un límite determinado se califican como miembros de un estado). los huesos son más cortos que el límite se califican como miembros de un segundo estado). Esto da como resultado un conjunto de datos fácilmente manipulable , pero ha sido criticado por informar deficientemente la base de las definiciones de clase y por sacrificar información en comparación con métodos que utilizan una distribución ponderada continua de mediciones. [7]
Debido a que recopilar datos morfológicos requiere mucha mano de obra, ya sea de fuentes bibliográficas o de observaciones de campo, la reutilización de matrices de datos previamente compiladas no es infrecuente, aunque esto puede propagar fallas en la matriz original en múltiples análisis derivados. [8]
El problema de la codificación de caracteres es muy diferente en los análisis moleculares, ya que los caracteres en los datos de secuencias biológicas están definidos de forma inmediata y discreta: nucleótidos distintos en secuencias de ADN o ARN y aminoácidos distintos en secuencias de proteínas . Sin embargo, definir la homología puede resultar un desafío debido a las dificultades inherentes al alineamiento de secuencias múltiples . Para un MSA con espacios determinado, se pueden construir varios árboles filogenéticos arraigados que varían en sus interpretaciones de qué cambios son " mutaciones " versus caracteres ancestrales, y qué eventos son mutaciones de inserción o mutaciones de deleción . Por ejemplo, dada sólo una alineación por pares con una región gap, es imposible determinar si una secuencia porta una mutación de inserción o la otra porta una deleción. El problema se magnifica en los AEM con brechas no alineadas y que no se superponen. En la práctica, se pueden descontar regiones considerables de una alineación calculada en la construcción del árbol filogenético para evitar la integración de datos ruidosos en el cálculo del árbol.
Los métodos de análisis filogenético de matriz de distancia se basan explícitamente en una medida de "distancia genética" entre las secuencias que se clasifican y, por lo tanto, requieren un MSA como entrada. La distancia a menudo se define como la fracción de desajustes en posiciones alineadas, y las brechas se ignoran o se cuentan como desajustes. [3] Los métodos de distancia intentan construir una matriz de todos a todos a partir del conjunto de consultas de secuencia que describe la distancia entre cada par de secuencias. A partir de esto se construye un árbol filogenético que coloca secuencias estrechamente relacionadas bajo el mismo nodo interior y cuyas longitudes de ramas reproducen fielmente las distancias observadas entre secuencias. Los métodos de matriz de distancias pueden producir árboles con o sin raíces, dependiendo del algoritmo utilizado para calcularlos. Se utilizan con frecuencia como base para tipos progresivos e iterativos de alineamientos de secuencias múltiples . La principal desventaja de los métodos de matriz de distancia es su incapacidad para utilizar eficientemente información sobre regiones locales de alta variación que aparecen en múltiples subárboles. [2]
Los métodos UPGMA ( Método de grupos de pares no ponderados con media aritmética ) y WPGMA ( Método de grupos de pares ponderados con media aritmética ) producen árboles enraizados y requieren una suposición de tasa constante; es decir, se supone un árbol ultramétrico en el que las distancias desde la raíz hasta las puntas de cada rama son iguales. [9]
Los métodos de unión de vecinos aplican técnicas generales de análisis de conglomerados al análisis de secuencias utilizando la distancia genética como métrica de agrupamiento. El método simple de unión de vecinos produce árboles sin raíces, pero no supone una tasa constante de evolución (es decir, un reloj molecular ) entre linajes. [10]
El método Fitch-Margoliash utiliza un método de mínimos cuadrados ponderados para agrupar en función de la distancia genética. [11] Las secuencias estrechamente relacionadas reciben más peso en el proceso de construcción del árbol para corregir la mayor inexactitud en la medición de distancias entre secuencias lejanamente relacionadas. Las distancias utilizadas como entrada para el algoritmo deben normalizarse para evitar grandes artefactos en las relaciones informáticas entre grupos estrechamente relacionados y distantes. Las distancias calculadas por este método deben ser lineales ; El criterio de linealidad para las distancias requiere que los valores esperados de las longitudes de las ramas para dos ramas individuales sean iguales al valor esperado de la suma de las distancias de las dos ramas, una propiedad que se aplica a las secuencias biológicas sólo cuando se han corregido para tener en cuenta la posibilidad de retroceso. mutaciones en sitios individuales. Esta corrección se realiza mediante el uso de una matriz de sustitución como la derivada del modelo de evolución del ADN de Jukes-Cantor . La corrección de distancia sólo es necesaria en la práctica cuando las tasas de evolución difieren entre ramas. [2] Otra modificación del algoritmo puede ser útil, especialmente en el caso de distancias concentradas (consulte el fenómeno de concentración de la medida y la maldición de la dimensionalidad ): se ha demostrado que esa modificación, descrita en [12], mejora la eficiencia del algoritmo. algoritmo y su robustez.
El criterio de mínimos cuadrados aplicado a estas distancias es más preciso pero menos eficiente que los métodos de unión de vecinos. También se puede aplicar una mejora adicional que corrige las correlaciones entre distancias que surgen de muchas secuencias estrechamente relacionadas en el conjunto de datos con un mayor costo computacional. Encontrar el árbol de mínimos cuadrados óptimo con cualquier factor de corrección es NP-completo , [13] por lo que los métodos de búsqueda heurística como los utilizados en el análisis de máxima parsimonia se aplican a la búsqueda a través del espacio del árbol.
Se puede utilizar información independiente sobre la relación entre secuencias o grupos para ayudar a reducir el espacio de búsqueda de árboles y enraizar árboles no enraizados. El uso estándar de los métodos de matriz de distancia implica la inclusión de al menos una secuencia de grupo externo que se sabe que está relacionada sólo lejanamente con las secuencias de interés en el conjunto de consultas. [3] Este uso puede verse como un tipo de control experimental . Si el exogrupo se ha elegido adecuadamente, tendrá una distancia genética mucho mayor y, por tanto, una longitud de rama más larga que cualquier otra secuencia, y aparecerá cerca de la raíz de un árbol enraizado. Elegir un exogrupo apropiado requiere la selección de una secuencia que esté moderadamente relacionada con las secuencias de interés; una relación demasiado estrecha frustra el propósito del exogrupo y una relación demasiado distante añade ruido al análisis. [3] También se debe tener cuidado para evitar situaciones en las que las especies de las que se tomaron las secuencias estén relacionadas lejanamente, pero el gen codificado por las secuencias esté altamente conservado en todos los linajes. La transferencia horizontal de genes , especialmente entre bacterias que de otro modo serían divergentes , también puede confundir el uso de grupos externos.
La máxima parsimonia (MP) es un método para identificar el árbol filogenético potencial que requiere el menor número total de eventos evolutivos para explicar los datos de la secuencia observada. Algunas formas de calificar árboles también incluyen un "costo" asociado con tipos particulares de eventos evolutivos e intentan ubicar el árbol con el costo total más pequeño. Este es un enfoque útil en casos donde no todos los posibles tipos de eventos son igualmente probables; por ejemplo, cuando se sabe que determinados nucleótidos o aminoácidos son más mutables que otros.
La forma más ingenua de identificar el árbol más parsimonioso es la simple enumeración: considerar cada árbol posible en sucesión y buscar el árbol con la puntuación más pequeña. Sin embargo, esto sólo es posible para un número relativamente pequeño de secuencias o especies porque se sabe que el problema de identificar el árbol más parsimonioso es NP-difícil ; [2] en consecuencia, se han desarrollado una serie de métodos de búsqueda heurística para la optimización para localizar un árbol muy parsimonioso, si no el mejor del conjunto. La mayoría de estos métodos implican un mecanismo de minimización de estilo de descenso más pronunciado que opera según un criterio de reordenamiento de árboles .
El algoritmo de rama y unión es un método general utilizado para aumentar la eficiencia de las búsquedas de soluciones casi óptimas de problemas NP-difíciles que se aplicó por primera vez a la filogenética a principios de la década de 1980. [14] Branch andbound es particularmente adecuado para la construcción de árboles filogenéticos porque inherentemente requiere dividir un problema en una estructura de árbol, ya que subdivide el espacio del problema en regiones más pequeñas. Como su nombre lo indica, requiere como entrada tanto una regla de ramificación (en el caso de la filogenética, la adición de la siguiente especie o secuencia al árbol) como un límite (una regla que excluye de la consideración ciertas regiones del espacio de búsqueda, por lo que suponiendo que la solución óptima no puede ocupar esa región). Identificar un buen límite es el aspecto más desafiante de la aplicación del algoritmo a la filogenética. Una forma sencilla de definir el límite es un número máximo de cambios evolutivos supuestos permitidos por árbol. Un conjunto de criterios conocidos como reglas de Zharkikh [15] limitan severamente el espacio de búsqueda al definir características compartidas por todos los árboles candidatos "más parsimoniosos". Las dos reglas más básicas requieren la eliminación de todas las secuencias redundantes excepto una (para los casos en los que múltiples observaciones han producido datos idénticos) y la eliminación de los sitios de caracteres en los que dos o más estados no ocurren en al menos dos especies. En condiciones ideales, estas reglas y su algoritmo asociado definirían completamente un árbol.
El algoritmo Sankoff-Morel-Cedergren fue uno de los primeros métodos publicados para producir simultáneamente un MSA y un árbol filogenético para secuencias de nucleótidos. [16] El método utiliza un cálculo de parsimonia máxima junto con una función de puntuación que penaliza las brechas y desajustes, favoreciendo así al árbol que introduce un número mínimo de tales eventos (una visión alternativa sostiene que los árboles a favorecer son aquellos que maximizan la cantidad de similitud de secuencia que puede interpretarse como homología, un punto de vista que puede conducir a diferentes árboles óptimos [17] ). Las secuencias imputadas en los nodos interiores del árbol se puntúan y se suman en todos los nodos de cada árbol posible. La suma del árbol con la puntuación más baja proporciona tanto un árbol óptimo como un MSA óptimo dada la función de puntuación. Debido a que el método es muy intensivo desde el punto de vista computacional, se utiliza un método aproximado en el que las conjeturas iniciales para las alineaciones interiores se refinan un nodo a la vez. Tanto la versión completa como la aproximada se calculan en la práctica mediante programación dinámica. [2]
Los métodos más recientes de árbol filogenético/MSA utilizan heurísticas para aislar árboles con puntuación alta, pero no necesariamente óptimos. El método MALIGN utiliza una técnica de máxima parsimonia para calcular una alineación múltiple maximizando la puntuación de un cladograma , y su compañero POY utiliza un método iterativo que combina la optimización del árbol filogenético con mejoras en el MSA correspondiente. [18] Sin embargo, el uso de estos métodos en la construcción de hipótesis evolutivas ha sido criticado como sesgado debido a la construcción deliberada de árboles que reflejan eventos evolutivos mínimos. [19] Esto, a su vez, ha sido contrarrestado por la opinión de que tales métodos deben verse como enfoques heurísticos para encontrar los árboles que maximizan la cantidad de similitud de secuencia que puede interpretarse como homología. [17] [20]
El método de máxima verosimilitud utiliza técnicas estadísticas estándar para inferir distribuciones de probabilidad para asignar probabilidades a posibles árboles filogenéticos particulares. El método requiere un modelo de sustitución para evaluar la probabilidad de mutaciones particulares ; En términos generales, se evaluará que un árbol que requiere más mutaciones en los nodos interiores para explicar la filogenia observada tiene una probabilidad menor. Esto es muy similar al método de máxima parsimonia, pero la máxima verosimilitud permite una flexibilidad estadística adicional al permitir diferentes tasas de evolución entre linajes y sitios. De hecho, el método requiere que la evolución en diferentes sitios y a lo largo de diferentes linajes sea estadísticamente independiente . Por lo tanto, la máxima verosimilitud se adapta bien al análisis de secuencias relacionadas lejanamente, pero se cree que es computacionalmente difícil de calcular debido a su dureza NP. [21]
El algoritmo de "poda", una variante de la programación dinámica , se utiliza a menudo para reducir el espacio de búsqueda calculando de manera eficiente la probabilidad de subárboles. [2] El método calcula la probabilidad de cada sitio de forma "lineal", comenzando en un nodo cuyos únicos descendientes son las hojas (es decir, las puntas del árbol) y trabajando hacia atrás hacia el nodo "inferior" en conjuntos anidados. Sin embargo, los árboles producidos con este método sólo echan raíces si el modelo de sustitución es irreversible, lo que generalmente no ocurre en los sistemas biológicos. La búsqueda del árbol de máxima verosimilitud también incluye un componente de optimización de la longitud de las ramas que es difícil de mejorar algorítmicamente; A menudo se utilizan herramientas generales de optimización global , como el método Newton-Raphson .
Algunas herramientas que utilizan la máxima probabilidad para inferir árboles filogenéticos a partir de datos de frecuencia alélica variantes (VAF) incluyen AncesTree y CITUP. [22] [23]
La inferencia bayesiana se puede utilizar para producir árboles filogenéticos de una manera estrechamente relacionada con los métodos de máxima verosimilitud. Los métodos bayesianos suponen una distribución de probabilidad previa de los árboles posibles, que puede ser simplemente la probabilidad de cualquier árbol entre todos los árboles posibles que podrían generarse a partir de los datos, o puede ser una estimación más sofisticada derivada del supuesto de que eventos de divergencia como como especiación ocurren como procesos estocásticos . La elección de la distribución previa es un punto de discordia entre los usuarios de los métodos filogenéticos de inferencia bayesiana. [2]
Las implementaciones de métodos bayesianos generalmente utilizan algoritmos de muestreo Monte Carlo de cadena de Markov , aunque la elección del conjunto de movimientos varía; Las selecciones utilizadas en filogenética bayesiana incluyen la permutación circular de nodos de hojas de un árbol propuesto en cada paso [24] y el intercambio de subárboles descendientes de un nodo interno aleatorio entre dos árboles relacionados. [25] El uso de métodos bayesianos en filogenética ha sido controvertido, en gran parte debido a la especificación incompleta de la elección del conjunto de movimientos, el criterio de aceptación y la distribución previa en el trabajo publicado. [2] Generalmente se considera que los métodos bayesianos son superiores a los métodos basados en la parsimonia; pueden ser más propensos a la atracción de ramas largas que las técnicas de máxima verosimilitud, [26] aunque son más capaces de acomodar los datos faltantes. [27]
Mientras que los métodos de probabilidad encuentran el árbol que maximiza la probabilidad de los datos, un enfoque bayesiano recupera un árbol que representa los clados más probables, basándose en la distribución posterior. Sin embargo, las estimaciones de la probabilidad posterior de los clados (que miden su "apoyo") pueden ser bastante erróneas, especialmente en clados que no son abrumadoramente probables. Por ello, se han propuesto otros métodos para estimar la probabilidad posterior. [28]
Algunas herramientas que utilizan la inferencia bayesiana para inferir árboles filogenéticos a partir de datos de frecuencia alélica (VAF) variantes incluyen Canopy, EXACT y PhyloWGS. [29] [30] [31]
Los métodos de filogenética molecular se basan en un modelo de sustitución definido que codifica una hipótesis sobre las tasas relativas de mutación en varios sitios a lo largo del gen o secuencias de aminoácidos que se estudian. En su forma más simple, los modelos de sustitución tienen como objetivo corregir las diferencias en las tasas de transiciones y transversiones en secuencias de nucleótidos. El uso de modelos de sustitución es necesario por el hecho de que la distancia genética entre dos secuencias aumenta linealmente solo durante un corto tiempo después de que las dos secuencias divergen entre sí (alternativamente, la distancia es lineal solo poco antes de la coalescencia ). Cuanto mayor sea el tiempo después de la divergencia, más probable será que se produzcan dos mutaciones en el mismo sitio de nucleótido. Por lo tanto, los cálculos simples de distancia genética subestimarán el número de eventos de mutación que han ocurrido en la historia evolutiva. El alcance de este recuento insuficiente aumenta a medida que pasa el tiempo desde la divergencia, lo que puede conducir al fenómeno de atracción de rama larga , o a la asignación errónea de dos secuencias distantes pero que evolucionan convergentemente como estrechamente relacionadas. [32] El método de máxima parsimonia es particularmente susceptible a este problema debido a su búsqueda explícita de un árbol que represente un número mínimo de eventos evolutivos distintos. [2]
Todos los modelos de sustitución asignan un conjunto de pesos a cada posible cambio de estado representado en la secuencia. Los tipos de modelos más comunes son implícitamente reversibles porque asignan el mismo peso, por ejemplo, a una mutación de nucleótidos G>C que a una mutación C>G. El modelo más simple posible, el modelo de Jukes-Cantor , asigna una probabilidad igual a cada posible cambio de estado para una base de nucleótidos determinada. La tasa de cambio entre dos nucleótidos distintos cualesquiera será un tercio de la tasa de sustitución general. [2] Los modelos más avanzados distinguen entre transiciones y transversiones . El modelo reversible en el tiempo más general posible, llamado modelo GTR, tiene seis parámetros de tasa de mutación. Un modelo aún más generalizado conocido como modelo general de 12 parámetros rompe la reversibilidad temporal, a costa de mucha complejidad adicional en el cálculo de distancias genéticas que son consistentes entre múltiples linajes. [2] Una posible variación de este tema ajusta las tasas de modo que el contenido general de GC, una medida importante de la estabilidad de la doble hélice del ADN, varía con el tiempo. [33]
Los modelos también pueden permitir la variación de tasas con posiciones en la secuencia de entrada. El ejemplo más obvio de tal variación se desprende de la disposición de los nucleótidos de los genes que codifican proteínas en codones de tres bases . Si se conoce la ubicación del marco de lectura abierto (ORF), las tasas de mutación se pueden ajustar para la posición de un sitio determinado dentro de un codón, ya que se sabe que el emparejamiento de bases oscilante puede permitir tasas de mutación más altas en el tercer nucleótido de un codón dado sin afectar el significado del codón en el código genético . [32] Un ejemplo menos basado en hipótesis que no se basa en la identificación ORF simplemente asigna a cada sitio una tasa extraída aleatoriamente de una distribución predeterminada, a menudo la distribución gamma o la distribución log-normal . [2] Finalmente, una estimación más conservadora de las variaciones de tasas conocida como método covarión permite variaciones autocorrelacionadas en las tasas, de modo que la tasa de mutación de un sitio determinado se correlaciona entre sitios y linajes. [34]
La selección de un modelo apropiado es fundamental para la producción de buenos análisis filogenéticos, tanto porque los modelos insuficientemente parametrizados o demasiado restrictivos pueden producir un comportamiento aberrante cuando se violan sus supuestos subyacentes, como porque los modelos demasiado complejos o demasiado parametrizados son computacionalmente costosos y los parámetros pueden estar sobreajustados. . [32] El método más común de selección de modelos es la prueba de razón de verosimilitud (LRT), que produce una estimación de verosimilitud que puede interpretarse como una medida de " bondad de ajuste " entre el modelo y los datos de entrada. [32] Sin embargo, se debe tener cuidado al utilizar estos resultados, ya que un modelo más complejo con más parámetros siempre tendrá una mayor probabilidad que una versión simplificada del mismo modelo, lo que puede llevar a la selección ingenua de modelos que son demasiado complejos. . [2] Por esta razón, los programas informáticos de selección de modelos elegirán el modelo más simple que no sea significativamente peor que los modelos de sustitución más complejos. Una desventaja importante del LRT es la necesidad de realizar una serie de comparaciones por pares entre modelos; Se ha demostrado que el orden en que se comparan los modelos tiene un efecto importante en el que finalmente se selecciona. [35]
Un método alternativo de selección de modelos es el criterio de información de Akaike (AIC), formalmente una estimación de la divergencia de Kullback-Leibler entre el modelo verdadero y el modelo que se está probando. Puede interpretarse como una estimación de probabilidad con un factor de corrección para penalizar los modelos sobreparametrizados. [32] El AIC se calcula sobre un modelo individual en lugar de un par, por lo que es independiente del orden en que se evalúan los modelos. Una alternativa relacionada, el criterio de información bayesiano (BIC), tiene una interpretación básica similar pero penaliza más a los modelos complejos. [32] Determinar el modelo más adecuado para la reconstrucción de la filogenia constituye un paso fundamental en numerosos estudios evolutivos. Sin embargo, diversos criterios para la selección de modelos están dando lugar a un debate sobre cuál es preferible. Recientemente se ha demostrado que, cuando el resultado deseado son topologías y reconstrucción de secuencias ancestrales, elegir un criterio sobre otro no es crucial. En cambio, utilizar el modelo de sustitución de nucleótidos más complejo, GTR+I+G, conduce a resultados similares para la inferencia de topología de árbol y secuencias ancestrales. [36]
Un protocolo integral paso a paso sobre la construcción de árboles filogenéticos, incluido el ensamblaje de secuencias contiguas de ADN/aminoácidos, alineación de secuencias múltiples, prueba de modelos (prueba de modelos de sustitución que mejor se ajustan) y reconstrucción de filogenia utilizando Máxima Verosimilitud e Inferencia Bayesiana, está disponible en Intercambio de protocolos [37]
Una forma no tradicional de evaluar el árbol filogenético es compararlo con el resultado de la agrupación. Se puede utilizar una técnica de escalamiento multidimensional, llamada unión interpolativa, para realizar una reducción de dimensionalidad para visualizar el resultado de la agrupación de las secuencias en 3D y luego asignar el árbol filogenético al resultado de la agrupación. Un árbol mejor suele tener una mayor correlación con el resultado de la agrupación. [38]
Como ocurre con todo análisis estadístico, la estimación de filogenias a partir de datos de caracteres requiere una evaluación de confianza. Existen varios métodos para probar la cantidad de apoyo para un árbol filogenético, ya sea evaluando el apoyo para cada subárbol en la filogenia (soporte nodal) o evaluando si la filogenia es significativamente diferente de otros árboles posibles (pruebas de hipótesis de árboles alternativos). ).
El método más común para evaluar el soporte de un árbol es evaluar el soporte estadístico para cada nodo del árbol. Por lo general, un nodo con muy bajo soporte no se considera válido en análisis posteriores y visualmente puede colapsarse en una politomía para indicar que las relaciones dentro de un clado no están resueltas.
Muchos métodos para evaluar el soporte nodal implican la consideración de múltiples filogenias. El árbol de consenso resume los nodos que se comparten entre un conjunto de árboles. [39] En un *estricto consenso*, solo se muestran los nodos que se encuentran en cada árbol, y el resto se colapsa en una politomía no resuelta . Los métodos menos conservadores, como el árbol de *consenso de reglas mayoritarias*, consideran nodos que están respaldados por un porcentaje determinado de árboles bajo consideración (como al menos el 50%).
Por ejemplo, en el análisis de máxima parsimonia, puede haber muchos árboles con la misma puntuación de parsimonia. Un árbol de consenso estricto mostraría qué nodos se encuentran en todos los árboles igualmente parsimoniosos y qué nodos difieren. Los árboles de consenso también se utilizan para evaluar el apoyo a filogenias reconstruidas con inferencia bayesiana (ver más abajo).
En estadística, el bootstrap es un método para inferir la variabilidad de datos que tienen una distribución desconocida utilizando pseudorreplicaciones de los datos originales. Por ejemplo, dado un conjunto de 100 puntos de datos, una pseudoréplica es un conjunto de datos del mismo tamaño (100 puntos) muestreados aleatoriamente a partir de los datos originales, con reemplazo. Es decir, cada punto de datos original puede estar representado más de una vez en la pseudoréplica, o no estar representado en absoluto. El soporte estadístico implica la evaluación de si los datos originales tienen propiedades similares a las de un gran conjunto de pseudoréplicas.
En filogenética, el arranque se realiza utilizando las columnas de la matriz de caracteres. Cada pseudoréplica contiene el mismo número de especies (filas) y caracteres (columnas) muestreados aleatoriamente de la matriz original, con reemplazo. Se reconstruye una filogenia a partir de cada pseudoréplica, con los mismos métodos utilizados para reconstruir la filogenia a partir de los datos originales. Para cada nodo de la filogenia, el soporte nodal es el porcentaje de pseudoréplicas que contienen ese nodo. [40]
El rigor estadístico de la prueba bootstrap se ha evaluado empíricamente utilizando poblaciones virales con historias evolutivas conocidas, [41] encontrando que un 70% de apoyo bootstrap corresponde a una probabilidad del 95% de que el clado exista. Sin embargo, esto se probó en condiciones ideales (por ejemplo, sin cambios en las tasas evolutivas, filogenias simétricas). En la práctica, los valores superiores al 70% generalmente se respaldan y se dejan al investigador o al lector la evaluación de la confianza. Los nodos con un soporte inferior al 70 % normalmente se consideran no resueltos.
Jackknifing en filogenética es un procedimiento similar, excepto que las columnas de la matriz se muestrean sin reemplazo. Las pseudoréplicas se generan submuestreando aleatoriamente los datos; por ejemplo, una "navaja del 10%" implicaría muestrear aleatoriamente el 10% de la matriz muchas veces para evaluar el soporte nodal.
La reconstrucción de filogenias mediante la inferencia bayesiana genera una distribución posterior de árboles altamente probables dados los datos y el modelo evolutivo, en lugar de un único "mejor" árbol. Los árboles en la distribución posterior generalmente tienen muchas topologías diferentes. Cuando los datos de entrada son datos de frecuencia alélica variante (VAF), la herramienta EXACT puede calcular las probabilidades de los árboles exactamente, para tamaños de árboles pequeños y biológicamente relevantes, mediante una búsqueda exhaustiva en todo el espacio del árbol. [29]
La mayoría de los métodos de inferencia bayesianos utilizan una iteración de Monte Carlo de la cadena de Markov, y los pasos iniciales de esta cadena no se consideran reconstrucciones confiables de la filogenia. Los árboles generados en las primeras etapas de la cadena generalmente se descartan como quemados . El método más común para evaluar el soporte nodal en un análisis filogenético bayesiano es calcular el porcentaje de árboles en la distribución posterior (post-burn-in) que contienen el nodo.
Se espera que el apoyo estadístico para un nodo en la inferencia bayesiana refleje la probabilidad de que realmente exista un clado dados los datos y el modelo evolutivo. [42] Por lo tanto, el umbral para aceptar un nodo como compatible es generalmente más alto que para el arranque.
El apoyo de Bremer cuenta el número de pasos adicionales necesarios para contradecir un clado.
Cada una de estas medidas tiene sus debilidades. Por ejemplo, los clados más pequeños o más grandes tienden a atraer valores de soporte más grandes que los clados de tamaño mediano, simplemente como resultado de la cantidad de taxones que contienen. [43]
El soporte Bootstrap puede proporcionar estimaciones altas del soporte de nodos como resultado del ruido en los datos en lugar de la verdadera existencia de un clado. [44]
En última instancia, no hay forma de medir si una hipótesis filogenética particular es precisa o no, a menos que ya se conozcan las verdaderas relaciones entre los taxones que se examinan (lo que puede suceder con bacterias o virus en condiciones de laboratorio). El mejor resultado que un filogenetista empírico puede esperar obtener es un árbol con ramas que estén bien respaldadas por la evidencia disponible. Se han identificado varios obstáculos potenciales:
Es más probable que ciertos personajes evolucionen de manera convergente que otros; Lógicamente, a estos caracteres se les debería dar menos peso en la reconstrucción de un árbol. [45] Los pesos en forma de modelo de evolución se pueden inferir a partir de conjuntos de datos moleculares, de modo que se pueden utilizar métodos de máxima verosimilitud o bayesianos para analizarlos. Para las secuencias moleculares, este problema se agrava cuando los taxones en estudio han divergido sustancialmente. A medida que aumenta el tiempo transcurrido desde la divergencia de dos taxones, también aumenta la probabilidad de múltiples sustituciones en el mismo sitio, o retromutaciones, todas las cuales resultan en homoplasias. Desafortunadamente, para los datos morfológicos, la única forma objetiva de determinar la convergencia es mediante la construcción de un árbol, un método algo circular. Aun así, ponderar personajes homoplasos [ ¿cómo? ] de hecho conduce a árboles con mejor soporte. [45] Se puede lograr un mayor refinamiento ponderando los cambios en una dirección más que los cambios en otra; por ejemplo, la presencia de alas torácicas casi garantiza su ubicación entre los insectos pterigotos porque, aunque las alas a menudo se pierden de forma secundaria, no hay evidencia de que se hayan ganado más de una vez. [46]
En general, los organismos pueden heredar genes de dos maneras: transferencia vertical de genes y transferencia horizontal de genes . La transferencia vertical de genes es el paso de genes de padres a hijos, y la transferencia horizontal (también llamada lateral) de genes ocurre cuando los genes saltan entre organismos no relacionados, un fenómeno común especialmente en procariotas ; un buen ejemplo de esto es la resistencia adquirida a los antibióticos como resultado del intercambio de genes entre varias bacterias que da lugar a especies bacterianas multirresistentes. También ha habido casos bien documentados de transferencia horizontal de genes entre eucariotas .
La transferencia horizontal de genes ha complicado la determinación de las filogenias de los organismos, y se han informado inconsistencias en la filogenia entre grupos específicos de organismos dependiendo de los genes utilizados para construir árboles evolutivos. La única manera de determinar qué genes se han adquirido verticalmente y cuáles horizontalmente es suponer parsimoniosamente que el conjunto más grande de genes que se han heredado juntos se ha heredado verticalmente; esto requiere analizar una gran cantidad de genes.
El supuesto básico que subyace al modelo matemático de la cladística es una situación en la que las especies se dividen claramente en forma de bifurcaciones. Si bien tal suposición puede ser válida a mayor escala (excepto la transferencia horizontal de genes, ver arriba), la especiación es a menudo mucho menos ordenada. Las investigaciones realizadas desde que se introdujo el método cladístico han demostrado que la especiación híbrida , que alguna vez se consideró rara, es en realidad bastante común, particularmente en las plantas. [47] [48] También la especiación parafilética es común, lo que hace que la suposición de un patrón de bifurcación sea inadecuada, lo que lleva a redes filogenéticas en lugar de árboles. [49] [50] La introgresión también puede mover genes entre especies distintas y, a veces, incluso géneros, [51] complicando el análisis filogenético basado en genes. [52] Este fenómeno puede contribuir a la "clasificación de linaje incompleta" y se cree que es un fenómeno común en varios grupos. En el análisis a nivel de especie, esto puede abordarse mediante un muestreo más amplio o un mejor análisis del genoma completo. [53] A menudo, el problema se evita restringiendo el análisis a menos muestras, no estrechamente relacionadas.
Debido al desarrollo de técnicas avanzadas de secuenciación en biología molecular , se ha vuelto factible recopilar grandes cantidades de datos (secuencias de ADN o aminoácidos) para inferir hipótesis filogenéticas. Por ejemplo, no es raro encontrar estudios con matrices de caracteres basadas en genomas mitocondriales completos (~16.000 nucleótidos, en muchos animales). Sin embargo, las simulaciones han demostrado que es más importante aumentar el número de taxones en la matriz que aumentar el número de caracteres, porque cuantos más taxones haya, más preciso y robusto será el árbol filogenético resultante. [54] [55] Esto puede deberse en parte a la rotura de ramas largas .
Otro factor importante que afecta la precisión de la reconstrucción del árbol es si los datos analizados realmente contienen una señal filogenética útil, un término que se usa generalmente para indicar si un carácter evoluciona lo suficientemente lento como para tener el mismo estado en taxones estrechamente relacionados en lugar de variar aleatoriamente. . Existen pruebas de señales filogenéticas. [56]
Los caracteres morfológicos que muestran un continuo pueden contener señales filogenéticas, pero son difíciles de codificar como caracteres discretos. Se han utilizado varios métodos, uno de los cuales es la codificación de espacios, y existen variaciones de la codificación de espacios. [57] En la forma original de codificación de espacios: [57]
Los medios de grupo para un personaje se ordenan primero por tamaño. Se calcula la desviación estándar agrupada dentro del grupo... y las diferencias entre medias adyacentes... se comparan en relación con esta desviación estándar. Cualquier par de medias adyacentes se considera diferente y se le asignan puntuaciones enteras diferentes... si las medias están separadas por una "brecha" mayor que la desviación estándar dentro del grupo... multiplicada por alguna constante arbitraria.
Si se agregan más taxones al análisis, las brechas entre taxones pueden volverse tan pequeñas que se pierde toda la información. La codificación de brechas generalizada soluciona ese problema comparando pares individuales de taxones en lugar de considerar un conjunto que contenga todos los taxones. [57]
En general, cuantos más datos estén disponibles al construir un árbol, más preciso y confiable será el árbol resultante. Los datos faltantes no son más perjudiciales que simplemente tener menos datos, aunque el impacto es mayor cuando la mayoría de los datos faltantes pertenecen a un pequeño número de taxones. Concentrar los datos faltantes en una pequeña cantidad de caracteres produce un árbol más robusto. [58]
Debido a que muchos caracteres involucran caracteres embriológicos, de tejidos blandos o moleculares que (en el mejor de los casos) casi nunca se fosilizan, y la interpretación de los fósiles es más ambigua que la de los taxones vivos , los taxones extintos casi invariablemente tienen mayores proporciones de datos faltantes que los vivos. Sin embargo, a pesar de estas limitaciones, la inclusión de fósiles es invaluable, ya que pueden proporcionar información en áreas escasas de árboles, rompiendo ramas largas y limitando estados de carácter intermedios; por tanto, los taxones fósiles contribuyen tanto a la resolución de los árboles como los taxones modernos. [59] Los fósiles también pueden limitar la edad de los linajes y así demostrar cuán consistente es un árbol con el registro estratigráfico; [1] la estratocladística incorpora información de edad en matrices de datos para análisis filogenéticos.
{{cite journal}}
: Citar diario requiere |journal=
( ayuda )El programa GoLife se basa en el programa AToL al adaptarse a la complejidad de los patrones de diversificación a lo largo de toda la historia de la vida. Nuestro conocimiento actual de procesos como la hibridación, la endosimbiosis y la transferencia lateral de genes deja claro que la historia evolutiva de la vida en la Tierra no puede representarse con precisión -para cada rama del árbol- como un árbol único, tipológico y bifurcado.