stringtranslate.com

Filogenética computacional

La filogenética computacional , la inferencia de filogenia o la inferencia filogenética se centran en algoritmos , heurísticas y enfoques computacionales y de optimización involucrados en los análisis filogenéticos . El objetivo es encontrar un árbol filogenético que represente la ascendencia evolutiva óptima entre un conjunto de genes , especies o taxones . La máxima verosimilitud , la parsimonia , el bayesiano y la evolución mínima son criterios de optimización típicos que se utilizan para evaluar qué tan bien la topología de un árbol filogenético describe los datos de la secuencia. [1] [2] El intercambio de vecinos más cercano (NNI), la poda y reinjerto de subárboles (SPR) y la bisección y reconexión de árboles (TBR), conocidos como reordenamientos de árboles , son algoritmos deterministas para buscar el árbol filogenético óptimo o mejor. El espacio y el panorama de la búsqueda del árbol filogenético óptimo se conoce como espacio de búsqueda de filogenia.

El criterio de optimización de máxima verosimilitud (también verosimilitud) es el proceso de encontrar la topología del árbol junto con las longitudes de sus ramas que proporciona la mayor probabilidad de observar los datos de la secuencia, mientras que el criterio de optimización de parsimonia es el menor número de cambios evolutivos de estado necesarios para que un árbol filogenético Explica los datos de la secuencia. [1] [2]

La filogenética tradicional se basa en datos morfológicos obtenidos midiendo y cuantificando las propiedades fenotípicas de organismos representativos, mientras que el campo más reciente de la filogenética molecular utiliza secuencias de nucleótidos que codifican genes o secuencias de aminoácidos que codifican proteínas como base para la clasificación.

Muchas formas de filogenética molecular están estrechamente relacionadas y hacen un uso extensivo del alineamiento de secuencias en la construcción y refinamiento de árboles filogenéticos, que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. Es poco probable que los árboles filogenéticos construidos mediante métodos computacionales reproduzcan perfectamente el árbol evolutivo que representa las relaciones históricas entre las especies que se analizan. [ cita necesaria ] El árbol histórico de especies también puede diferir del árbol histórico de un gen homólogo individual compartido por esas especies.

Tipos de árboles y redes filogenéticos.

Los árboles filogenéticos generados mediante filogenética computacional pueden tener o no raíces según los datos de entrada y el algoritmo utilizado. Un árbol enraizado es un gráfico dirigido que identifica explícitamente un ancestro común más reciente (MRCA), [ cita necesaria ] generalmente una secuencia imputada que no está representada en la entrada. Las medidas de distancia genética se pueden utilizar para trazar un árbol con las secuencias de entrada como nodos de hojas y sus distancias desde la raíz proporcionales a su distancia genética desde el MRCA hipotético. La identificación de una raíz generalmente requiere la inclusión en los datos de entrada de al menos un "grupo externo" que se sabe que está relacionado lejanamente con las secuencias de interés.

Por el contrario, los árboles sin raíces trazan las distancias y relaciones entre las secuencias de entrada sin hacer suposiciones sobre su descenso. Siempre se puede producir un árbol sin raíces a partir de un árbol con raíces, pero normalmente no se puede colocar una raíz en un árbol sin raíces sin datos adicionales sobre las tasas de divergencia, como la suposición de la hipótesis del reloj molecular . [3]

El conjunto de todos los árboles filogenéticos posibles para un grupo dado de secuencias de entrada puede conceptualizarse como un "espacio de árbol" multidimensional discretamente definido a través del cual se pueden rastrear rutas de búsqueda mediante algoritmos de optimización . Aunque contar el número total de árboles para un número no trivial de secuencias de entrada puede resultar complicado por las variaciones en la definición de la topología de un árbol, siempre es cierto que hay más árboles enraizados que no enraizados para un número determinado de entradas y elección de parámetros. [2]

Tanto los árboles filogenéticos enraizados como los no enraizados pueden generalizarse aún más a redes filogenéticas enraizadas o no enraizadas , que permiten el modelado de fenómenos evolutivos como la hibridación o la transferencia horizontal de genes .

Codificación de caracteres y definición de homología.

Análisis morfológico

El problema básico en filogenética morfológica es el ensamblaje de una matriz que represente un mapeo de cada uno de los taxones que se compara con medidas representativas para cada una de las características fenotípicas que se utilizan como clasificador. Los tipos de datos fenotípicos utilizados para construir esta matriz dependen de los taxones que se comparan; para especies individuales, pueden implicar mediciones del tamaño corporal promedio, longitudes o tamaños de huesos particulares u otras características físicas, o incluso manifestaciones de comportamiento. Por supuesto, dado que no todas las características fenotípicas posibles pueden medirse y codificarse para su análisis, la selección de qué características medir es un obstáculo inherente importante al método. La decisión de qué rasgos utilizar como base para la matriz representa necesariamente una hipótesis sobre qué rasgos de una especie o taxón superior son evolutivamente relevantes. [4] Los estudios morfológicos pueden verse confundidos por ejemplos de evolución convergente de fenotipos. [5] Un desafío importante en la construcción de clases útiles es la alta probabilidad de superposición entre taxones en la distribución de la variación del fenotipo. La inclusión de taxones extintos en el análisis morfológico suele ser difícil debido a la ausencia de registros fósiles o a que están incompletos , pero se ha demostrado que tiene un efecto significativo en los árboles producidos; en un estudio, sólo la inclusión de especies extintas de simios produjo un árbol derivado morfológicamente que era consistente con el producido a partir de datos moleculares. [6]

Algunas clasificaciones fenotípicas, particularmente las utilizadas al analizar grupos muy diversos de taxones, son discretas e inequívocas; Clasificar organismos con o sin cola, por ejemplo, es sencillo en la mayoría de los casos, al igual que contar características como ojos o vértebras. Sin embargo, la representación más apropiada de mediciones fenotípicas que varían continuamente es un problema controvertido sin una solución general. Un método común es simplemente clasificar las mediciones de interés en dos o más clases, haciendo que la variación continua observada sea discretamente clasificable (por ejemplo, todos los ejemplos con huesos del húmero más largos que un límite determinado se califican como miembros de un estado, y todos los miembros cuyos húmeros son más largos que un límite determinado se califican como miembros de un estado). los huesos son más cortos que el límite se califican como miembros de un segundo estado). Esto da como resultado un conjunto de datos fácilmente manipulable , pero ha sido criticado por informar deficientemente la base de las definiciones de clase y por sacrificar información en comparación con métodos que utilizan una distribución ponderada continua de mediciones. [7]

Debido a que recopilar datos morfológicos requiere mucha mano de obra, ya sea de fuentes bibliográficas o de observaciones de campo, la reutilización de matrices de datos previamente compiladas no es infrecuente, aunque esto puede propagar fallas en la matriz original en múltiples análisis derivados. [8]

análisis molecular

El problema de la codificación de caracteres es muy diferente en los análisis moleculares, ya que los caracteres en los datos de secuencias biológicas están definidos de forma inmediata y discreta: nucleótidos distintos en secuencias de ADN o ARN y aminoácidos distintos en secuencias de proteínas . Sin embargo, definir la homología puede resultar un desafío debido a las dificultades inherentes al alineamiento de secuencias múltiples . Para un MSA con espacios determinado, se pueden construir varios árboles filogenéticos arraigados que varían en sus interpretaciones de qué cambios son " mutaciones " versus caracteres ancestrales, y qué eventos son mutaciones de inserción o mutaciones de deleción . Por ejemplo, dada sólo una alineación por pares con una región gap, es imposible determinar si una secuencia porta una mutación de inserción o la otra porta una deleción. El problema se magnifica en los AEM con brechas no alineadas y que no se superponen. En la práctica, se pueden descontar regiones considerables de una alineación calculada en la construcción del árbol filogenético para evitar la integración de datos ruidosos en el cálculo del árbol.

Métodos de matriz de distancias

Los métodos de análisis filogenético de matriz de distancia se basan explícitamente en una medida de "distancia genética" entre las secuencias que se clasifican y, por lo tanto, requieren un MSA como entrada. La distancia a menudo se define como la fracción de desajustes en posiciones alineadas, y las brechas se ignoran o se cuentan como desajustes. [3] Los métodos de distancia intentan construir una matriz de todos a todos a partir del conjunto de consultas de secuencia que describe la distancia entre cada par de secuencias. A partir de esto se construye un árbol filogenético que coloca secuencias estrechamente relacionadas bajo el mismo nodo interior y cuyas longitudes de ramas reproducen fielmente las distancias observadas entre secuencias. Los métodos de matriz de distancias pueden producir árboles con o sin raíces, dependiendo del algoritmo utilizado para calcularlos. Se utilizan con frecuencia como base para tipos progresivos e iterativos de alineamientos de secuencias múltiples . La principal desventaja de los métodos de matriz de distancia es su incapacidad para utilizar eficientemente información sobre regiones locales de alta variación que aparecen en múltiples subárboles. [2]

UPGMA y WPGMA

Los métodos UPGMA ( Método de grupos de pares no ponderados con media aritmética ) y WPGMA ( Método de grupos de pares ponderados con media aritmética ) producen árboles enraizados y requieren una suposición de tasa constante; es decir, se supone un árbol ultramétrico en el que las distancias desde la raíz hasta las puntas de cada rama son iguales. [9]

Unión de vecinos

Los métodos de unión de vecinos aplican técnicas generales de análisis de conglomerados al análisis de secuencias utilizando la distancia genética como métrica de agrupamiento. El método simple de unión de vecinos produce árboles sin raíces, pero no supone una tasa constante de evolución (es decir, un reloj molecular ) entre linajes. [10]

Método de Fitch-Margoliash

El método Fitch-Margoliash utiliza un método de mínimos cuadrados ponderados para agrupar en función de la distancia genética. [11] Las secuencias estrechamente relacionadas reciben más peso en el proceso de construcción del árbol para corregir la mayor inexactitud en la medición de distancias entre secuencias lejanamente relacionadas. Las distancias utilizadas como entrada para el algoritmo deben normalizarse para evitar grandes artefactos en las relaciones informáticas entre grupos estrechamente relacionados y distantes. Las distancias calculadas por este método deben ser lineales ; El criterio de linealidad para las distancias requiere que los valores esperados de las longitudes de las ramas para dos ramas individuales sean iguales al valor esperado de la suma de las distancias de las dos ramas, una propiedad que se aplica a las secuencias biológicas sólo cuando se han corregido para tener en cuenta la posibilidad de retroceso. mutaciones en sitios individuales. Esta corrección se realiza mediante el uso de una matriz de sustitución como la derivada del modelo de evolución del ADN de Jukes-Cantor . La corrección de distancia sólo es necesaria en la práctica cuando las tasas de evolución difieren entre ramas. [2] Otra modificación del algoritmo puede ser útil, especialmente en el caso de distancias concentradas (consulte el fenómeno de concentración de la medida y la maldición de la dimensionalidad ): se ha demostrado que esa modificación, descrita en [12], mejora la eficiencia del algoritmo. algoritmo y su robustez.

El criterio de mínimos cuadrados aplicado a estas distancias es más preciso pero menos eficiente que los métodos de unión de vecinos. También se puede aplicar una mejora adicional que corrige las correlaciones entre distancias que surgen de muchas secuencias estrechamente relacionadas en el conjunto de datos con un mayor costo computacional. Encontrar el árbol de mínimos cuadrados óptimo con cualquier factor de corrección es NP-completo , [13] por lo que los métodos de búsqueda heurística como los utilizados en el análisis de máxima parsimonia se aplican a la búsqueda a través del espacio del árbol.

Usando grupos externos

Se puede utilizar información independiente sobre la relación entre secuencias o grupos para ayudar a reducir el espacio de búsqueda de árboles y enraizar árboles no enraizados. El uso estándar de los métodos de matriz de distancia implica la inclusión de al menos una secuencia de grupo externo que se sabe que está relacionada sólo lejanamente con las secuencias de interés en el conjunto de consultas. [3] Este uso puede verse como un tipo de control experimental . Si el exogrupo se ha elegido adecuadamente, tendrá una distancia genética mucho mayor y, por tanto, una longitud de rama más larga que cualquier otra secuencia, y aparecerá cerca de la raíz de un árbol enraizado. Elegir un exogrupo apropiado requiere la selección de una secuencia que esté moderadamente relacionada con las secuencias de interés; una relación demasiado estrecha frustra el propósito del exogrupo y una relación demasiado distante añade ruido al análisis. [3] También se debe tener cuidado para evitar situaciones en las que las especies de las que se tomaron las secuencias estén relacionadas lejanamente, pero el gen codificado por las secuencias esté altamente conservado en todos los linajes. La transferencia horizontal de genes , especialmente entre bacterias que de otro modo serían divergentes , también puede confundir el uso de grupos externos.

Máxima parsimonia

La máxima parsimonia (MP) es un método para identificar el árbol filogenético potencial que requiere el menor número total de eventos evolutivos para explicar los datos de la secuencia observada. Algunas formas de calificar árboles también incluyen un "costo" asociado con tipos particulares de eventos evolutivos e intentan ubicar el árbol con el costo total más pequeño. Este es un enfoque útil en casos donde no todos los posibles tipos de eventos son igualmente probables; por ejemplo, cuando se sabe que determinados nucleótidos o aminoácidos son más mutables que otros.

La forma más ingenua de identificar el árbol más parsimonioso es la simple enumeración: considerar cada árbol posible en sucesión y buscar el árbol con la puntuación más pequeña. Sin embargo, esto sólo es posible para un número relativamente pequeño de secuencias o especies porque se sabe que el problema de identificar el árbol más parsimonioso es NP-difícil ; [2] en consecuencia, se han desarrollado una serie de métodos de búsqueda heurística para la optimización para localizar un árbol muy parsimonioso, si no el mejor del conjunto. La mayoría de estos métodos implican un mecanismo de minimización de estilo de descenso más pronunciado que opera según un criterio de reordenamiento de árboles .

Rama y atado

El algoritmo de rama y unión es un método general utilizado para aumentar la eficiencia de las búsquedas de soluciones casi óptimas de problemas NP-difíciles que se aplicó por primera vez a la filogenética a principios de la década de 1980. [14] Branch andbound es particularmente adecuado para la construcción de árboles filogenéticos porque inherentemente requiere dividir un problema en una estructura de árbol, ya que subdivide el espacio del problema en regiones más pequeñas. Como su nombre lo indica, requiere como entrada tanto una regla de ramificación (en el caso de la filogenética, la adición de la siguiente especie o secuencia al árbol) como un límite (una regla que excluye de la consideración ciertas regiones del espacio de búsqueda, por lo que suponiendo que la solución óptima no puede ocupar esa región). Identificar un buen límite es el aspecto más desafiante de la aplicación del algoritmo a la filogenética. Una forma sencilla de definir el límite es un número máximo de cambios evolutivos supuestos permitidos por árbol. Un conjunto de criterios conocidos como reglas de Zharkikh [15] limitan severamente el espacio de búsqueda al definir características compartidas por todos los árboles candidatos "más parsimoniosos". Las dos reglas más básicas requieren la eliminación de todas las secuencias redundantes excepto una (para los casos en los que múltiples observaciones han producido datos idénticos) y la eliminación de los sitios de caracteres en los que dos o más estados no ocurren en al menos dos especies. En condiciones ideales, estas reglas y su algoritmo asociado definirían completamente un árbol.

Algoritmo de Sankoff-Morel-Cedergren

El algoritmo Sankoff-Morel-Cedergren fue uno de los primeros métodos publicados para producir simultáneamente un MSA y un árbol filogenético para secuencias de nucleótidos. [16] El método utiliza un cálculo de parsimonia máxima junto con una función de puntuación que penaliza las brechas y desajustes, favoreciendo así al árbol que introduce un número mínimo de tales eventos (una visión alternativa sostiene que los árboles a favorecer son aquellos que maximizan la cantidad de similitud de secuencia que puede interpretarse como homología, un punto de vista que puede conducir a diferentes árboles óptimos [17] ). Las secuencias imputadas en los nodos interiores del árbol se puntúan y se suman en todos los nodos de cada árbol posible. La suma del árbol con la puntuación más baja proporciona tanto un árbol óptimo como un MSA óptimo dada la función de puntuación. Debido a que el método es muy intensivo desde el punto de vista computacional, se utiliza un método aproximado en el que las conjeturas iniciales para las alineaciones interiores se refinan un nodo a la vez. Tanto la versión completa como la aproximada se calculan en la práctica mediante programación dinámica. [2]

MALIGNO y POY

Los métodos más recientes de árbol filogenético/MSA utilizan heurísticas para aislar árboles con puntuación alta, pero no necesariamente óptimos. El método MALIGN utiliza una técnica de máxima parsimonia para calcular una alineación múltiple maximizando la puntuación de un cladograma , y ​​su compañero POY utiliza un método iterativo que combina la optimización del árbol filogenético con mejoras en el MSA correspondiente. [18] Sin embargo, el uso de estos métodos en la construcción de hipótesis evolutivas ha sido criticado como sesgado debido a la construcción deliberada de árboles que reflejan eventos evolutivos mínimos. [19] Esto, a su vez, ha sido contrarrestado por la opinión de que tales métodos deben verse como enfoques heurísticos para encontrar los árboles que maximizan la cantidad de similitud de secuencia que puede interpretarse como homología. [17] [20]

Máxima verosimilitud

El método de máxima verosimilitud utiliza técnicas estadísticas estándar para inferir distribuciones de probabilidad para asignar probabilidades a posibles árboles filogenéticos particulares. El método requiere un modelo de sustitución para evaluar la probabilidad de mutaciones particulares ; En términos generales, se evaluará que un árbol que requiere más mutaciones en los nodos interiores para explicar la filogenia observada tiene una probabilidad menor. Esto es muy similar al método de máxima parsimonia, pero la máxima verosimilitud permite una flexibilidad estadística adicional al permitir diferentes tasas de evolución entre linajes y sitios. De hecho, el método requiere que la evolución en diferentes sitios y a lo largo de diferentes linajes sea estadísticamente independiente . Por lo tanto, la máxima verosimilitud se adapta bien al análisis de secuencias relacionadas lejanamente, pero se cree que es computacionalmente difícil de calcular debido a su dureza NP. [21]

El algoritmo de "poda", una variante de la programación dinámica , se utiliza a menudo para reducir el espacio de búsqueda calculando de manera eficiente la probabilidad de subárboles. [2] El método calcula la probabilidad de cada sitio de forma "lineal", comenzando en un nodo cuyos únicos descendientes son las hojas (es decir, las puntas del árbol) y trabajando hacia atrás hacia el nodo "inferior" en conjuntos anidados. Sin embargo, los árboles producidos con este método sólo echan raíces si el modelo de sustitución es irreversible, lo que generalmente no ocurre en los sistemas biológicos. La búsqueda del árbol de máxima verosimilitud también incluye un componente de optimización de la longitud de las ramas que es difícil de mejorar algorítmicamente; A menudo se utilizan herramientas generales de optimización global , como el método Newton-Raphson .

Algunas herramientas que utilizan la máxima probabilidad para inferir árboles filogenéticos a partir de datos de frecuencia alélica variantes (VAF) incluyen AncesTree y CITUP. [22] [23]

Inferencia bayesiana

La inferencia bayesiana se puede utilizar para producir árboles filogenéticos de una manera estrechamente relacionada con los métodos de máxima verosimilitud. Los métodos bayesianos suponen una distribución de probabilidad previa de los árboles posibles, que puede ser simplemente la probabilidad de cualquier árbol entre todos los árboles posibles que podrían generarse a partir de los datos, o puede ser una estimación más sofisticada derivada del supuesto de que eventos de divergencia como como especiación ocurren como procesos estocásticos . La elección de la distribución previa es un punto de discordia entre los usuarios de los métodos filogenéticos de inferencia bayesiana. [2]

Las implementaciones de métodos bayesianos generalmente utilizan algoritmos de muestreo Monte Carlo de cadena de Markov , aunque la elección del conjunto de movimientos varía; Las selecciones utilizadas en filogenética bayesiana incluyen la permutación circular de nodos de hojas de un árbol propuesto en cada paso [24] y el intercambio de subárboles descendientes de un nodo interno aleatorio entre dos árboles relacionados. [25] El uso de métodos bayesianos en filogenética ha sido controvertido, en gran parte debido a la especificación incompleta de la elección del conjunto de movimientos, el criterio de aceptación y la distribución previa en el trabajo publicado. [2] Generalmente se considera que los métodos bayesianos son superiores a los métodos basados ​​en la parsimonia; pueden ser más propensos a la atracción de ramas largas que las técnicas de máxima verosimilitud, [26] aunque son más capaces de acomodar los datos faltantes. [27]

Mientras que los métodos de probabilidad encuentran el árbol que maximiza la probabilidad de los datos, un enfoque bayesiano recupera un árbol que representa los clados más probables, basándose en la distribución posterior. Sin embargo, las estimaciones de la probabilidad posterior de los clados (que miden su "apoyo") pueden ser bastante erróneas, especialmente en clados que no son abrumadoramente probables. Por ello, se han propuesto otros métodos para estimar la probabilidad posterior. [28]

Algunas herramientas que utilizan la inferencia bayesiana para inferir árboles filogenéticos a partir de datos de frecuencia alélica (VAF) variantes incluyen Canopy, EXACT y PhyloWGS. [29] [30] [31]

Selección de modelo

Los métodos de filogenética molecular se basan en un modelo de sustitución definido que codifica una hipótesis sobre las tasas relativas de mutación en varios sitios a lo largo del gen o secuencias de aminoácidos que se estudian. En su forma más simple, los modelos de sustitución tienen como objetivo corregir las diferencias en las tasas de transiciones y transversiones en secuencias de nucleótidos. El uso de modelos de sustitución es necesario por el hecho de que la distancia genética entre dos secuencias aumenta linealmente solo durante un corto tiempo después de que las dos secuencias divergen entre sí (alternativamente, la distancia es lineal solo poco antes de la coalescencia ). Cuanto mayor sea el tiempo después de la divergencia, más probable será que se produzcan dos mutaciones en el mismo sitio de nucleótido. Por lo tanto, los cálculos simples de distancia genética subestimarán el número de eventos de mutación que han ocurrido en la historia evolutiva. El alcance de este recuento insuficiente aumenta a medida que pasa el tiempo desde la divergencia, lo que puede conducir al fenómeno de atracción de rama larga , o a la asignación errónea de dos secuencias distantes pero que evolucionan convergentemente como estrechamente relacionadas. [32] El método de máxima parsimonia es particularmente susceptible a este problema debido a su búsqueda explícita de un árbol que represente un número mínimo de eventos evolutivos distintos. [2]

Tipos de modelos

Todos los modelos de sustitución asignan un conjunto de pesos a cada posible cambio de estado representado en la secuencia. Los tipos de modelos más comunes son implícitamente reversibles porque asignan el mismo peso, por ejemplo, a una mutación de nucleótidos G>C que a una mutación C>G. El modelo más simple posible, el modelo de Jukes-Cantor , asigna una probabilidad igual a cada posible cambio de estado para una base de nucleótidos determinada. La tasa de cambio entre dos nucleótidos distintos cualesquiera será un tercio de la tasa de sustitución general. [2] Los modelos más avanzados distinguen entre transiciones y transversiones . El modelo reversible en el tiempo más general posible, llamado modelo GTR, tiene seis parámetros de tasa de mutación. Un modelo aún más generalizado conocido como modelo general de 12 parámetros rompe la reversibilidad temporal, a costa de mucha complejidad adicional en el cálculo de distancias genéticas que son consistentes entre múltiples linajes. [2] Una posible variación de este tema ajusta las tasas de modo que el contenido general de GC, una medida importante de la estabilidad de la doble hélice del ADN, varía con el tiempo. [33]

Los modelos también pueden permitir la variación de tasas con posiciones en la secuencia de entrada. El ejemplo más obvio de tal variación se desprende de la disposición de los nucleótidos de los genes que codifican proteínas en codones de tres bases . Si se conoce la ubicación del marco de lectura abierto (ORF), las tasas de mutación se pueden ajustar para la posición de un sitio determinado dentro de un codón, ya que se sabe que el emparejamiento de bases oscilante puede permitir tasas de mutación más altas en el tercer nucleótido de un codón dado sin afectar el significado del codón en el código genético . [32] Un ejemplo menos basado en hipótesis que no se basa en la identificación ORF simplemente asigna a cada sitio una tasa extraída aleatoriamente de una distribución predeterminada, a menudo la distribución gamma o la distribución log-normal . [2] Finalmente, una estimación más conservadora de las variaciones de tasas conocida como método covarión permite variaciones autocorrelacionadas en las tasas, de modo que la tasa de mutación de un sitio determinado se correlaciona entre sitios y linajes. [34]

Elegir el mejor modelo

La selección de un modelo apropiado es fundamental para la producción de buenos análisis filogenéticos, tanto porque los modelos insuficientemente parametrizados o demasiado restrictivos pueden producir un comportamiento aberrante cuando se violan sus supuestos subyacentes, como porque los modelos demasiado complejos o demasiado parametrizados son computacionalmente costosos y los parámetros pueden estar sobreajustados. . [32] El método más común de selección de modelos es la prueba de razón de verosimilitud (LRT), que produce una estimación de verosimilitud que puede interpretarse como una medida de " bondad de ajuste " entre el modelo y los datos de entrada. [32] Sin embargo, se debe tener cuidado al utilizar estos resultados, ya que un modelo más complejo con más parámetros siempre tendrá una mayor probabilidad que una versión simplificada del mismo modelo, lo que puede llevar a la selección ingenua de modelos que son demasiado complejos. . [2] Por esta razón, los programas informáticos de selección de modelos elegirán el modelo más simple que no sea significativamente peor que los modelos de sustitución más complejos. Una desventaja importante del LRT es la necesidad de realizar una serie de comparaciones por pares entre modelos; Se ha demostrado que el orden en que se comparan los modelos tiene un efecto importante en el que finalmente se selecciona. [35]

Un método alternativo de selección de modelos es el criterio de información de Akaike (AIC), formalmente una estimación de la divergencia de Kullback-Leibler entre el modelo verdadero y el modelo que se está probando. Puede interpretarse como una estimación de probabilidad con un factor de corrección para penalizar los modelos sobreparametrizados. [32] El AIC se calcula sobre un modelo individual en lugar de un par, por lo que es independiente del orden en que se evalúan los modelos. Una alternativa relacionada, el criterio de información bayesiano (BIC), tiene una interpretación básica similar pero penaliza más a los modelos complejos. [32] Determinar el modelo más adecuado para la reconstrucción de la filogenia constituye un paso fundamental en numerosos estudios evolutivos. Sin embargo, diversos criterios para la selección de modelos están dando lugar a un debate sobre cuál es preferible. Recientemente se ha demostrado que, cuando el resultado deseado son topologías y reconstrucción de secuencias ancestrales, elegir un criterio sobre otro no es crucial. En cambio, utilizar el modelo de sustitución de nucleótidos más complejo, GTR+I+G, conduce a resultados similares para la inferencia de topología de árbol y secuencias ancestrales. [36]

Un protocolo integral paso a paso sobre la construcción de árboles filogenéticos, incluido el ensamblaje de secuencias contiguas de ADN/aminoácidos, alineación de secuencias múltiples, prueba de modelos (prueba de modelos de sustitución que mejor se ajustan) y reconstrucción de filogenia utilizando Máxima Verosimilitud e Inferencia Bayesiana, está disponible en Intercambio de protocolos [37]

Una forma no tradicional de evaluar el árbol filogenético es compararlo con el resultado de la agrupación. Se puede utilizar una técnica de escalamiento multidimensional, llamada unión interpolativa, para realizar una reducción de dimensionalidad para visualizar el resultado de la agrupación de las secuencias en 3D y luego asignar el árbol filogenético al resultado de la agrupación. Un árbol mejor suele tener una mayor correlación con el resultado de la agrupación. [38]

Evaluación del soporte de los árboles

Como ocurre con todo análisis estadístico, la estimación de filogenias a partir de datos de caracteres requiere una evaluación de confianza. Existen varios métodos para probar la cantidad de apoyo para un árbol filogenético, ya sea evaluando el apoyo para cada subárbol en la filogenia (soporte nodal) o evaluando si la filogenia es significativamente diferente de otros árboles posibles (pruebas de hipótesis de árboles alternativos). ).

Soporte nodal

El método más común para evaluar el soporte de un árbol es evaluar el soporte estadístico para cada nodo del árbol. Por lo general, un nodo con muy bajo soporte no se considera válido en análisis posteriores y visualmente puede colapsarse en una politomía para indicar que las relaciones dentro de un clado no están resueltas.

árbol de consenso

Muchos métodos para evaluar el soporte nodal implican la consideración de múltiples filogenias. El árbol de consenso resume los nodos que se comparten entre un conjunto de árboles. [39] En un *estricto consenso*, solo se muestran los nodos que se encuentran en cada árbol, y el resto se colapsa en una politomía no resuelta . Los métodos menos conservadores, como el árbol de *consenso de reglas mayoritarias*, consideran nodos que están respaldados por un porcentaje determinado de árboles bajo consideración (como al menos el 50%).

Por ejemplo, en el análisis de máxima parsimonia, puede haber muchos árboles con la misma puntuación de parsimonia. Un árbol de consenso estricto mostraría qué nodos se encuentran en todos los árboles igualmente parsimoniosos y qué nodos difieren. Los árboles de consenso también se utilizan para evaluar el apoyo a filogenias reconstruidas con inferencia bayesiana (ver más abajo).

Bootstrapping y jackknifing

En estadística, el bootstrap es un método para inferir la variabilidad de datos que tienen una distribución desconocida utilizando pseudorreplicaciones de los datos originales. Por ejemplo, dado un conjunto de 100 puntos de datos, una pseudoréplica es un conjunto de datos del mismo tamaño (100 puntos) muestreados aleatoriamente a partir de los datos originales, con reemplazo. Es decir, cada punto de datos original puede estar representado más de una vez en la pseudoréplica, o no estar representado en absoluto. El soporte estadístico implica la evaluación de si los datos originales tienen propiedades similares a las de un gran conjunto de pseudoréplicas.

En filogenética, el arranque se realiza utilizando las columnas de la matriz de caracteres. Cada pseudoréplica contiene el mismo número de especies (filas) y caracteres (columnas) muestreados aleatoriamente de la matriz original, con reemplazo. Se reconstruye una filogenia a partir de cada pseudoréplica, con los mismos métodos utilizados para reconstruir la filogenia a partir de los datos originales. Para cada nodo de la filogenia, el soporte nodal es el porcentaje de pseudoréplicas que contienen ese nodo. [40]

El rigor estadístico de la prueba bootstrap se ha evaluado empíricamente utilizando poblaciones virales con historias evolutivas conocidas, [41] encontrando que un 70% de apoyo bootstrap corresponde a una probabilidad del 95% de que el clado exista. Sin embargo, esto se probó en condiciones ideales (por ejemplo, sin cambios en las tasas evolutivas, filogenias simétricas). En la práctica, los valores superiores al 70% generalmente se respaldan y se dejan al investigador o al lector la evaluación de la confianza. Los nodos con un soporte inferior al 70 % normalmente se consideran no resueltos.

Jackknifing en filogenética es un procedimiento similar, excepto que las columnas de la matriz se muestrean sin reemplazo. Las pseudoréplicas se generan submuestreando aleatoriamente los datos; por ejemplo, una "navaja del 10%" implicaría muestrear aleatoriamente el 10% de la matriz muchas veces para evaluar el soporte nodal.

Probabilidad posterior

La reconstrucción de filogenias mediante la inferencia bayesiana genera una distribución posterior de árboles altamente probables dados los datos y el modelo evolutivo, en lugar de un único "mejor" árbol. Los árboles en la distribución posterior generalmente tienen muchas topologías diferentes. Cuando los datos de entrada son datos de frecuencia alélica variante (VAF), la herramienta EXACT puede calcular las probabilidades de los árboles exactamente, para tamaños de árboles pequeños y biológicamente relevantes, mediante una búsqueda exhaustiva en todo el espacio del árbol. [29]

La mayoría de los métodos de inferencia bayesianos utilizan una iteración de Monte Carlo de la cadena de Markov, y los pasos iniciales de esta cadena no se consideran reconstrucciones confiables de la filogenia. Los árboles generados en las primeras etapas de la cadena generalmente se descartan como quemados . El método más común para evaluar el soporte nodal en un análisis filogenético bayesiano es calcular el porcentaje de árboles en la distribución posterior (post-burn-in) que contienen el nodo.

Se espera que el apoyo estadístico para un nodo en la inferencia bayesiana refleje la probabilidad de que realmente exista un clado dados los datos y el modelo evolutivo. [42] Por lo tanto, el umbral para aceptar un nodo como compatible es generalmente más alto que para el arranque.

Métodos de conteo de pasos

El apoyo de Bremer cuenta el número de pasos adicionales necesarios para contradecir un clado.

Deficiencias

Cada una de estas medidas tiene sus debilidades. Por ejemplo, los clados más pequeños o más grandes tienden a atraer valores de soporte más grandes que los clados de tamaño mediano, simplemente como resultado de la cantidad de taxones que contienen. [43]

El soporte Bootstrap puede proporcionar estimaciones altas del soporte de nodos como resultado del ruido en los datos en lugar de la verdadera existencia de un clado. [44]

Limitaciones y soluciones

En última instancia, no hay forma de medir si una hipótesis filogenética particular es precisa o no, a menos que ya se conozcan las verdaderas relaciones entre los taxones que se examinan (lo que puede suceder con bacterias o virus en condiciones de laboratorio). El mejor resultado que un filogenetista empírico puede esperar obtener es un árbol con ramas que estén bien respaldadas por la evidencia disponible. Se han identificado varios obstáculos potenciales:

Homoplastia

Es más probable que ciertos personajes evolucionen de manera convergente que otros; Lógicamente, a estos caracteres se les debería dar menos peso en la reconstrucción de un árbol. [45] Los pesos en forma de modelo de evolución se pueden inferir a partir de conjuntos de datos moleculares, de modo que se pueden utilizar métodos de máxima verosimilitud o bayesianos para analizarlos. Para las secuencias moleculares, este problema se agrava cuando los taxones en estudio han divergido sustancialmente. A medida que aumenta el tiempo transcurrido desde la divergencia de dos taxones, también aumenta la probabilidad de múltiples sustituciones en el mismo sitio, o retromutaciones, todas las cuales resultan en homoplasias. Desafortunadamente, para los datos morfológicos, la única forma objetiva de determinar la convergencia es mediante la construcción de un árbol, un método algo circular. Aun así, ponderar personajes homoplasos [ ¿cómo? ] de hecho conduce a árboles con mejor soporte. [45] Se puede lograr un mayor refinamiento ponderando los cambios en una dirección más que los cambios en otra; por ejemplo, la presencia de alas torácicas casi garantiza su ubicación entre los insectos pterigotos porque, aunque las alas a menudo se pierden de forma secundaria, no hay evidencia de que se hayan ganado más de una vez. [46]

Transferencia genética horizontal

En general, los organismos pueden heredar genes de dos maneras: transferencia vertical de genes y transferencia horizontal de genes . La transferencia vertical de genes es el paso de genes de padres a hijos, y la transferencia horizontal (también llamada lateral) de genes ocurre cuando los genes saltan entre organismos no relacionados, un fenómeno común especialmente en procariotas ; un buen ejemplo de esto es la resistencia adquirida a los antibióticos como resultado del intercambio de genes entre varias bacterias que da lugar a especies bacterianas multirresistentes. También ha habido casos bien documentados de transferencia horizontal de genes entre eucariotas .

La transferencia horizontal de genes ha complicado la determinación de las filogenias de los organismos, y se han informado inconsistencias en la filogenia entre grupos específicos de organismos dependiendo de los genes utilizados para construir árboles evolutivos. La única manera de determinar qué genes se han adquirido verticalmente y cuáles horizontalmente es suponer parsimoniosamente que el conjunto más grande de genes que se han heredado juntos se ha heredado verticalmente; esto requiere analizar una gran cantidad de genes.

Híbridos, especiación, introgresiones y clasificación de linajes incompletos.

El supuesto básico que subyace al modelo matemático de la cladística es una situación en la que las especies se dividen claramente en forma de bifurcaciones. Si bien tal suposición puede ser válida a mayor escala (excepto la transferencia horizontal de genes, ver arriba), la especiación es a menudo mucho menos ordenada. Las investigaciones realizadas desde que se introdujo el método cladístico han demostrado que la especiación híbrida , que alguna vez se consideró rara, es en realidad bastante común, particularmente en las plantas. [47] [48] También la especiación parafilética es común, lo que hace que la suposición de un patrón de bifurcación sea inadecuada, lo que lleva a redes filogenéticas en lugar de árboles. [49] [50] La introgresión también puede mover genes entre especies distintas y, a veces, incluso géneros, [51] complicando el análisis filogenético basado en genes. [52] Este fenómeno puede contribuir a la "clasificación de linaje incompleta" y se cree que es un fenómeno común en varios grupos. En el análisis a nivel de especie, esto puede abordarse mediante un muestreo más amplio o un mejor análisis del genoma completo. [53] A menudo, el problema se evita restringiendo el análisis a menos muestras, no estrechamente relacionadas.

Muestreo de taxones

Debido al desarrollo de técnicas avanzadas de secuenciación en biología molecular , se ha vuelto factible recopilar grandes cantidades de datos (secuencias de ADN o aminoácidos) para inferir hipótesis filogenéticas. Por ejemplo, no es raro encontrar estudios con matrices de caracteres basadas en genomas mitocondriales completos (~16.000 nucleótidos, en muchos animales). Sin embargo, las simulaciones han demostrado que es más importante aumentar el número de taxones en la matriz que aumentar el número de caracteres, porque cuantos más taxones haya, más preciso y robusto será el árbol filogenético resultante. [54] [55] Esto puede deberse en parte a la rotura de ramas largas .

Señal filogenética

Otro factor importante que afecta la precisión de la reconstrucción del árbol es si los datos analizados realmente contienen una señal filogenética útil, un término que se usa generalmente para indicar si un carácter evoluciona lo suficientemente lento como para tener el mismo estado en taxones estrechamente relacionados en lugar de variar aleatoriamente. . Existen pruebas de señales filogenéticas. [56]

Personajes continuos

Los caracteres morfológicos que muestran un continuo pueden contener señales filogenéticas, pero son difíciles de codificar como caracteres discretos. Se han utilizado varios métodos, uno de los cuales es la codificación de espacios, y existen variaciones de la codificación de espacios. [57] En la forma original de codificación de espacios: [57]

Los medios de grupo para un personaje se ordenan primero por tamaño. Se calcula la desviación estándar agrupada dentro del grupo... y las diferencias entre medias adyacentes... se comparan en relación con esta desviación estándar. Cualquier par de medias adyacentes se considera diferente y se le asignan puntuaciones enteras diferentes... si las medias están separadas por una "brecha" mayor que la desviación estándar dentro del grupo... multiplicada por alguna constante arbitraria.

Si se agregan más taxones al análisis, las brechas entre taxones pueden volverse tan pequeñas que se pierde toda la información. La codificación de brechas generalizada soluciona ese problema comparando pares individuales de taxones en lugar de considerar un conjunto que contenga todos los taxones. [57]

Datos perdidos

En general, cuantos más datos estén disponibles al construir un árbol, más preciso y confiable será el árbol resultante. Los datos faltantes no son más perjudiciales que simplemente tener menos datos, aunque el impacto es mayor cuando la mayoría de los datos faltantes pertenecen a un pequeño número de taxones. Concentrar los datos faltantes en una pequeña cantidad de caracteres produce un árbol más robusto. [58]

El papel de los fósiles

Debido a que muchos caracteres involucran caracteres embriológicos, de tejidos blandos o moleculares que (en el mejor de los casos) casi nunca se fosilizan, y la interpretación de los fósiles es más ambigua que la de los taxones vivos , los taxones extintos casi invariablemente tienen mayores proporciones de datos faltantes que los vivos. Sin embargo, a pesar de estas limitaciones, la inclusión de fósiles es invaluable, ya que pueden proporcionar información en áreas escasas de árboles, rompiendo ramas largas y limitando estados de carácter intermedios; por tanto, los taxones fósiles contribuyen tanto a la resolución de los árboles como los taxones modernos. [59] Los fósiles también pueden limitar la edad de los linajes y así demostrar cuán consistente es un árbol con el registro estratigráfico; [1] la estratocladística incorpora información de edad en matrices de datos para análisis filogenéticos.

Ver también

Referencias

  1. ^ abc Khalafvand, Tyler (2015). "Encontrar estructura en el espacio de búsqueda de filogenia". Universidad de Dalhousie .
  2. ^ abcdefghijklmno Felsenstein J (2004). Inferir filogenias . Sunderland, Massachusetts: Sinauer Associates. ISBN 978-0-87893-177-4.
  3. ^ abcd Monte DM (2004). Bioinformática: análisis de secuencia y genoma (2ª ed.). Cold Spring Harbor, Nueva York: Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-712-9.
  4. ^ Swiderski DL, Zelditch ML, Fink WL (septiembre de 1998). "Por qué la morfometría no es especial: codificación de datos cuantitativos para análisis filogenético". Biología Sistemática . 47 (3): 508–19. JSTOR  2585256. PMID  12066691.
  5. ^ Gaubert P, Wozencraft WC, Cordeiro-Estrela P, Veron G (diciembre de 2005). "Mosaicos de convergencias y ruido en filogenias morfológicas: ¿qué hay en un carnívoro parecido a un viverídico?". Biología Sistemática . 54 (6): 865–94. doi :10.1080/10635150500232769. PMID  16282167.
  6. ^ Estrecho DS, Grine FE (diciembre de 2004). "Inferir la filogenia de hominoideos y homínidos tempranos utilizando caracteres craneodentales: el papel de los taxones fósiles". Revista de evolución humana . 47 (6): 399–452. doi :10.1016/j.jhevol.2004.08.008. PMID  15566946.
  7. ^ Viena JJ (2001). "Análisis de caracteres en filogenética morfológica: problemas y soluciones". Biología Sistemática . 50 (5): 689–99. doi :10.1080/106351501753328811. PMID  12116939.
  8. ^ Jenner RA (2001). "Filogenia bilateral y reciclaje acrítico de conjuntos de datos morfológicos". Biología Sistemática . 50 (5): 730–42. doi : 10.1080/106351501753328857 . PMID  12116943.
  9. ^ Sokal R, Michener C (1958). "Un método estadístico para evaluar relaciones sistemáticas". Boletín de ciencias de la Universidad de Kansas . 38 : 1409-1438.
  10. ^ Saitou N, Nei M (julio de 1987). "El método de unión de vecinos: un nuevo método para reconstruir árboles filogenéticos". Biología Molecular y Evolución . 4 (4): 406–25. doi : 10.1093/oxfordjournals.molbev.a040454 . PMID  3447015.
  11. ^ Fitch WM , Margoliash E (enero de 1967). "Construcción de árboles filogenéticos". Ciencia . 155 (3760): 279–84. Código Bib : 1967 Ciencia... 155.. 279F. doi : 10.1126/ciencia.155.3760.279. PMID  5334057.
  12. ^ Lespinats S, Grando D, Maréchal E, Hakimi MA, Tenaillon O, Bastien O (2011). "Cómo el algoritmo Fitch-Margoliash puede beneficiarse del escalamiento multidimensional". Bioinformática evolutiva en línea . 7 : 61–85. doi :10.4137/EBO.S7048. PMC 3118699 . PMID  21697992. 
  13. ^ Día WH (1987). "Complejidad computacional de inferir filogenias a partir de matrices de disimilitud". Boletín de Biología Matemática . 49 (4): 461–7. doi :10.1007/BF02458863. PMID  3664032. S2CID  189885258.
  14. ^ Hendy MD, Penny D (1982). "Algoritmos de rama y enlace para determinar árboles evolutivos mínimos". Biociencias Matemáticas . 59 (2): 277–290. doi :10.1016/0025-5564(82)90027-X.
  15. ^ Ratner VA, Zharkikh AA, Kolchanov N, Rodin S, Solovyov S, Antonov AS (1995). Evolución molecular . Serie Biomatemáticas. vol. 24. Nueva York: Springer-Verlag. ISBN 978-3-662-12530-4.
  16. ^ Sankoff D, Morel C, Cedergren RJ (octubre de 1973). "Evolución del ARN 5S y la no aleatoriedad del reemplazo de bases". Naturaleza . 245 (147): 232–4. doi :10.1038/newbio245232a0. PMID  4201431.
  17. ^ ab De Laet J (2005). "La parsimonia y el problema de los inaplicables en datos secuenciales". En Albert VA (ed.). Parsimonia, filogenia y genómica . Prensa de la Universidad de Oxford. págs. 81-116. ISBN 978-0-19-856493-5.
  18. ^ WC Wheeler, Gladstein DS (1994). "MALIGN: un programa de alineación de secuencias de ácidos nucleicos múltiples". Revista de herencia . 85 (5): 417–418. doi : 10.1093/oxfordjournals.jhered.a111492.
  19. ^ Simmons MP (junio de 2004). "Independencia de alineación y búsqueda de árboles". Filogenética molecular y evolución . 31 (3): 874–9. doi :10.1016/j.ympev.2003.10.008. PMID  15120385.
  20. ^ De Laet J (2015). "Análisis de parsimonia de datos de secuencia no alineados: maximización de la homología y minimización de la homoplasia, no minimización del costo total definido operativamente o minimización de transformaciones igualmente ponderadas". Cladística . 31 (5): 550–567. doi :10.1111/cla.12098. PMID  34772278. S2CID  221582410.
  21. ^ Chor B, Tuller T (junio de 2005). "Máxima probabilidad de árboles evolutivos: dureza y aproximación". Bioinformática . 21 (Suplemento 1): i97–106. doi : 10.1093/bioinformática/bti1027 . PMID  15961504.
  22. ^ El-Kebir M, Oesper L, Acheson-Field H, Raphael BJ (junio de 2015). "Reconstrucción de árboles clonales y composición tumoral a partir de datos de secuenciación de múltiples muestras". Bioinformática . 31 (12): i62-70. doi : 10.1093/bioinformática/btv261. PMC 4542783 . PMID  26072510. 
  23. ^ Malikic S, McPherson AW, Donmez N, Sahinalp CS (mayo de 2015). "Inferencia de clonalidad en múltiples muestras de tumores mediante filogenia". Bioinformática . 31 (9): 1349–56. doi : 10.1093/bioinformática/btv003 . PMID  25568283.
  24. ^ Mau B, Newton MA (1997). "Inferencia filogenética para datos binarios sobre dendrogramas utilizando la cadena de Markov Monte Carlo". Revista de Estadística Computacional y Gráfica . 6 (1): 122-131. doi :10.2307/1390728. JSTOR  1390728.
  25. ^ Yang Z, Rannala B (julio de 1997). "Inferencia filogenética bayesiana utilizando secuencias de ADN: un método Monte Carlo de cadena de Markov". Biología Molecular y Evolución . 14 (7): 717–24. doi : 10.1093/oxfordjournals.molbev.a025811 . PMID  9214744.
  26. ^ Kolaczkowski B, Thornton JW (diciembre de 2009). Delport W (ed.). "Sesgo de atracción de ramas largas e inconsistencia en la filogenética bayesiana". MÁS UNO . 4 (12): e7891. Código Bib : 2009PLoSO...4.7891K. doi : 10.1371/journal.pone.0007891 . PMC 2785476 . PMID  20011052. 
  27. ^ Diputado Simmons (2012). "Resultados engañosos de análisis filogenéticos basados ​​en la probabilidad en presencia de datos faltantes". Cladística . 28 (2): 208–222. doi : 10.1111/j.1096-0031.2011.00375.x . PMID  34872185. S2CID  53123024.
  28. ^ Larget B (julio de 2013). "La estimación de las probabilidades posteriores de los árboles utilizando distribuciones de probabilidad de clados condicionales". Biología Sistemática . 62 (4): 501–11. doi : 10.1093/sysbio/syt014. PMC 3676676 . PMID  23479066. 
  29. ^ ab Ray S, Jia B, Safavi S, van Opijnen T, Isberg R, Rosch J, Bento J (22 de agosto de 2019). "Inferencia exacta bajo el modelo de filogenia perfecta". arXiv : 1908.08623 . Código Bib : 2019arXiv190808623R. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  30. ^ Jiang Y, Qiu Y, Minn AJ, Zhang NR (septiembre de 2016). "Evaluación de la heterogeneidad intratumoral y seguimiento de la historia evolutiva clonal longitudinal y espacial mediante secuenciación de próxima generación". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 113 (37): E5528-37. Código Bib : 2016PNAS..113E5528J. doi : 10.1073/pnas.1522203113 . PMC 5027458 . PMID  27573852. 
  31. ^ Deshwar AG, Vembu S, Yung CK, Jang GH, Stein L, Morris Q (febrero de 2015). "PhyloWGS: reconstrucción de la composición subclonal y evolución a partir de la secuenciación del genoma completo de tumores". Biología del genoma . 16 (1): 35. doi : 10.1186/s13059-015-0602-8 . PMC 4359439 . PMID  25786235. 
  32. ^ abcdef Sullivan J, Joyce P (2005). "Selección de modelos en filogenética". Revisión anual de ecología, evolución y sistemática . 36 (1): 445–466. doi : 10.1146/annurev.ecolsys.36.102003.152633. PMC 3144157 . PMID  20671039. 
  33. ^ Galtier N, Gouy M (julio de 1998). "Patrón y proceso de inferencia: implementación de máxima verosimilitud de un modelo no homogéneo de evolución de secuencia de ADN para análisis filogenético". Biología Molecular y Evolución . 15 (7): 871–9. doi : 10.1093/oxfordjournals.molbev.a025991 . PMID  9656487.
  34. ^ Fitch WM, Markowitz E (octubre de 1970). "Un método mejorado para determinar la variabilidad de codones en un gen y su aplicación a la tasa de fijación de mutaciones en la evolución". Genética Bioquímica . 4 (5): 579–93. doi :10.1007/bf00486096. PMID  5489762. S2CID  26638948.
  35. ^ Pol D (diciembre de 2004). "Problemas empíricos de la prueba de razón de verosimilitud jerárquica para la selección de modelos". Biología Sistemática . 53 (6): 949–62. doi : 10.1080/10635150490888868 . PMID  15764562.
  36. ^ Abadi S, Azouri D, Pupko T, Mayrose I (febrero de 2019). "La selección del modelo puede no ser un paso obligatorio para la reconstrucción de la filogenia". Comunicaciones de la naturaleza . 10 (1): 934. Código bibliográfico : 2019NatCo..10..934A. doi :10.1038/s41467-019-08822-w. PMC 6389923 . PMID  30804347. 
  37. ^ Bast F (2013). "Búsqueda de similitud de secuencias, alineación de secuencias múltiples, selección de modelos, matriz de distancias y reconstrucción de filogenia". Intercambio de protocolos . doi : 10.1038/protex.2013.065 .
  38. ^ Ruan Y, House GL, Ekanayake S, Schütte U, Bever JD, Tang H, Fox G (26 de mayo de 2014). "Integración de agrupamiento y escalamiento multidimensional para determinar árboles filogenéticos como filogramas esféricos visualizados en 3 dimensiones". 2014 14º Simposio Internacional IEEE/ACM sobre Computación en Cluster, Nube y Grid . IEEE. págs. 720–729. doi :10.1109/CCGrid.2014.126. ISBN 978-1-4799-2784-5. S2CID  9581901.
  39. ^ Baum DA, Smith SD (2013). Pensamiento de árboles: una introducción a la biología filogenética. Roberts. pag. 442.ISBN 978-1-936221-16-5.
  40. ^ Felsenstein J (julio de 1985). "Límites de confianza en las filogenias: un enfoque que utiliza Bootstrap". Evolución; Revista Internacional de Evolución Orgánica . 39 (4): 783–791. doi :10.2307/2408678. JSTOR  2408678. PMID  28561359.
  41. ^ Hillis DM, Bull JJ (1993). "Una prueba empírica de bootstrapping como método para evaluar la confianza en el análisis filogenético". Biología Sistemática . 42 (2): 182-192. doi : 10.1093/sysbio/42.2.182. ISSN  1063-5157.
  42. ^ Huelsenbeck J, Rannala B (diciembre de 2004). "Propiedades frecuentistas de probabilidades posteriores bayesianas de árboles filogenéticos bajo modelos de sustitución simples y complejos". Biología Sistemática . 53 (6): 904–13. doi : 10.1080/10635150490522629 . PMID  15764559.
  43. ^ Chemisquy MA, Prevosti FJ (2013). "Evaluación del efecto del tamaño del clado en medidas alternativas de soporte de ramas". Revista de Sistemática Zoológica e Investigación Evolutiva . 51 (4): 260–273. doi : 10.1111/jzs.12024 . hdl : 11336/4144 .
  44. ^ Phillips MJ, Delsuc F, Penny D (julio de 2004). "Filogenia a escala del genoma y detección de sesgos sistemáticos" (PDF) . Biología Molecular y Evolución . 21 (7): 1455–8. doi : 10.1093/molbev/msh137 . PMID  15084674.
  45. ^ ab Goloboff PA, Carpenter JM, Arias JS, Esquivel DR (2008). "La ponderación contra la homoplasia mejora el análisis filogenético de conjuntos de datos morfológicos". Cladística . 24 (5): 758–773. doi : 10.1111/j.1096-0031.2008.00209.x . hdl : 11336/82003 . S2CID  913161.
  46. ^ Goloboff PA (1997). "Optimización autoponderada: búsquedas de árboles y reconstrucciones de estados de caracteres bajo costos de transformación implícitos". Cladística . 13 (3): 225–245. doi :10.1111/j.1096-0031.1997.tb00317.x. PMID  34911233. S2CID  196595734.
  47. ^ Arnold ML (1996). Hibridación Natural y Evolución . Nueva York: Oxford University Press. pag. 232.ISBN 978-0-19-509975-1.
  48. ^ Wendel JF, Doyle JJ (1998). "Secuencia ADN". En Soltis DE, Soltis PS , Doyle JJ (eds.). Sistemática Molecular de Plantas II . Boston: Kluwer. págs. 265–296. ISBN 978-0-19-535668-7.
  49. ^ DJ funk, Omland KE (2003). "Parafilia y polifilia a nivel de especie: frecuencia, causas y consecuencias, con conocimientos del ADN mitocondrial animal". Revisión anual de ecología, evolución y sistemática . 34 : 397–423. doi : 10.1146/annurev.ecolsys.34.011802.132421. S2CID  33951905.
  50. ^ "Genealogía de la vida (GoLife)". Fundación Nacional de Ciencia . Consultado el 5 de mayo de 2015 . El programa GoLife se basa en el programa AToL al adaptarse a la complejidad de los patrones de diversificación a lo largo de toda la historia de la vida. Nuestro conocimiento actual de procesos como la hibridación, la endosimbiosis y la transferencia lateral de genes deja claro que la historia evolutiva de la vida en la Tierra no puede representarse con precisión -para cada rama del árbol- como un árbol único, tipológico y bifurcado.
  51. ^ Kutschera VE, Bidon T, Hailer F, Rodi J, Fain SR, Janke A (2014). "Osos en un bosque de árboles genéticos: la inferencia filogenética se complica por la clasificación de linajes y el flujo de genes incompletos". Biología Molecular y Evolución . 31 (8): 2004-2017. doi :10.1093/molbev/msu186. PMC 4104321 . PMID  24903145. 
  52. ^ Qu Y, Zhang R, Quan Q, Song G, Li SH, Lei F (diciembre de 2012). "Clasificación de linaje incompleta o mezcla secundaria: desenredar la divergencia histórica del flujo genético reciente en el pico loro garganta vinosa (Paradoxornis webbianus)". Ecología Molecular . 21 (24): 6117–33. Código Bib : 2012 MolEc..21.6117Q. doi :10.1111/mec.12080. PMID  23095021. S2CID  22635918.
  53. ^ Pollard DA, Iyer VN, Moses AM, Eisen MB (octubre de 2006). "Discordancia generalizada de árboles genéticos con árboles de especies en Drosophila: evidencia de una clasificación de linaje incompleta". PLOS Genética . 2 (10): e173. doi : 10.1371/journal.pgen.0020173 . PMC 1626107 . PMID  17132051. 
  54. ^ Zwickl DJ, Hillis DM (agosto de 2002). "Un mayor muestreo de taxones reduce en gran medida el error filogenético". Biología Sistemática . 51 (4): 588–98. doi : 10.1080/10635150290102339 . PMID  12228001.
  55. ^ Wiens JJ (febrero de 2006). "Datos faltantes y diseño de análisis filogenéticos". Revista de Informática Biomédica . 39 (1): 34–42. doi : 10.1016/j.jbi.2005.04.001 . PMID  15922672.
  56. ^ Blomberg SP, Garland T, Ives AR (abril de 2003). "Prueba de señales filogenéticas en datos comparativos: los rasgos de comportamiento son más lábiles". Evolución; Revista Internacional de Evolución Orgánica . 57 (4): 717–45. doi :10.1111/j.0014-3820.2003.tb00285.x. PMID  12778543. S2CID  221735844.
  57. ^ a b C Archie JW (1985). "Métodos para codificar características morfológicas variables para análisis taxonómico numérico". Zoología Sistemática . 34 (3): 326–345. doi :10.2307/2413151. JSTOR  2413151.
  58. ^ Prevosti FJ, Chemisquy MA (2009). "El impacto de los datos faltantes en las filogenias morfológicas reales: influencia del número y distribución de las entradas faltantes". Cladística . 26 (3): 326–339. doi :10.1111/j.1096-0031.2009.00289.x. hdl : 11336/69010 . PMID  34875786. S2CID  86850694.
  59. ^ Cobbett A, Wilkinson M, Wills MA (octubre de 2007). "Los fósiles impactan tan fuerte como los taxones vivos en los análisis parsimoniosos de la morfología". Biología Sistemática . 56 (5): 753–66. doi : 10.1080/10635150701627296 . PMID  17886145.

Otras lecturas

enlaces externos