Filogenética computacional

La filogenética computacional , inferencia de filogenia o inferencia filogenética se centra en algoritmos computacionales y de optimización , heurísticas y enfoques involucrados en los análisis filogenéticos . El objetivo es encontrar un árbol filogenético que represente la ascendencia evolutiva óptima entre un conjunto de genes , especies o taxones . La máxima verosimilitud , la parsimonia , el bayesiano y la evolución mínima son criterios de optimalidad típicos utilizados para evaluar qué tan bien una topología de árbol filogenético describe los datos de secuencia. ^[1]^[2] El intercambio de vecinos más cercanos (NNI), la poda y reinjerto de subárboles (SPR) y la bisección y reconexión de árboles (TBR), conocidos como reordenamientos de árboles , son algoritmos deterministas para buscar el árbol filogenético óptimo o el mejor. El espacio y el paisaje de la búsqueda del árbol filogenético óptimo se conoce como espacio de búsqueda de filogenia.

El criterio de optimalidad de máxima verosimilitud (también probabilidad) es el proceso de encontrar la topología del árbol junto con las longitudes de sus ramas que proporciona la mayor probabilidad observando los datos de secuencia, mientras que el criterio de optimalidad de parsimonia es el menor número de cambios evolutivos de estado necesarios para que un árbol filogenético explique los datos de secuencia. ^[1]^[2]

La filogenética tradicional se basa en datos morfológicos obtenidos midiendo y cuantificando las propiedades fenotípicas de organismos representativos, mientras que el campo más reciente de la filogenética molecular utiliza secuencias de nucleótidos que codifican genes o secuencias de aminoácidos que codifican proteínas como base para la clasificación.

Muchas formas de filogenética molecular están estrechamente relacionadas con el alineamiento de secuencias y hacen un uso extensivo de él para construir y refinar árboles filogenéticos, que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. Es poco probable que los árboles filogenéticos construidos mediante métodos computacionales reproduzcan perfectamente el árbol evolutivo que representa las relaciones históricas entre las especies que se analizan. ^{[ cita requerida ]} El árbol histórico de especies también puede diferir del árbol histórico de un gen homólogo individual compartido por esas especies.

Tipos de árboles y redes filogenéticas

Los árboles filogenéticos generados por la filogenética computacional pueden tener raíz o no , dependiendo de los datos de entrada y del algoritmo utilizado. Un árbol con raíz es un gráfico dirigido que identifica explícitamente un ancestro común más reciente (MRCA), ^{[ cita requerida ]} generalmente una secuencia ingresada que no está representada en la entrada. Las medidas de distancia genética se pueden utilizar para trazar un árbol con las secuencias de entrada como nodos de hoja y sus distancias desde la raíz proporcionales a su distancia genética desde el MRCA hipotético. La identificación de una raíz generalmente requiere la inclusión en los datos de entrada de al menos un "grupo externo" que se sabe que solo está distantemente relacionado con las secuencias de interés.

Por el contrario, los árboles sin raíz trazan las distancias y relaciones entre secuencias de entrada sin hacer suposiciones sobre su descendencia. Un árbol sin raíz siempre se puede generar a partir de un árbol con raíz, pero normalmente no se puede colocar una raíz en un árbol sin raíz sin datos adicionales sobre las tasas de divergencia, como la suposición de la hipótesis del reloj molecular . ^[3]

El conjunto de todos los árboles filogenéticos posibles para un grupo dado de secuencias de entrada puede conceptualizarse como un "espacio de árbol" multidimensional definido discretamente a través del cual los algoritmos de optimización pueden trazar rutas de búsqueda . Aunque el recuento del número total de árboles para un número no trivial de secuencias de entrada puede resultar complicado debido a las variaciones en la definición de una topología de árbol, siempre es cierto que hay más árboles con raíz que sin raíz para un número dado de entradas y una elección de parámetros. ^[2]

Tanto los árboles filogenéticos enraizados como los no enraizados pueden generalizarse aún más a redes filogenéticas enraizadas o no enraizadas , que permiten modelar fenómenos evolutivos como la hibridación o la transferencia horizontal de genes .

Caracteres codificadores y definición de homología

Análisis morfológico

El problema básico de la filogenética morfológica es el ensamblaje de una matriz que represente una correspondencia entre cada uno de los taxones que se comparan y las mediciones representativas de cada una de las características fenotípicas que se utilizan como clasificador. Los tipos de datos fenotípicos utilizados para construir esta matriz dependen de los taxones que se comparan; para especies individuales, pueden implicar mediciones del tamaño corporal promedio, longitudes o tamaños de huesos particulares u otras características físicas, o incluso manifestaciones conductuales. Por supuesto, dado que no todas las características fenotípicas posibles pueden medirse y codificarse para el análisis, la selección de las características que se medirán es un obstáculo inherente importante para el método. La decisión de qué rasgos utilizar como base para la matriz representa necesariamente una hipótesis sobre qué rasgos de una especie o taxón superior son evolutivamente relevantes. ^[4] Los estudios morfológicos pueden verse confundidos por ejemplos de evolución convergente de fenotipos. ^[5] Un desafío importante en la construcción de clases útiles es la alta probabilidad de superposición entre taxones en la distribución de la variación del fenotipo. La inclusión de taxones extintos en el análisis morfológico suele ser difícil debido a la ausencia de registros fósiles o a que estos son incompletos , pero se ha demostrado que tiene un efecto significativo en los árboles producidos; en un estudio, solo la inclusión de especies extintas de simios produjo un árbol morfológicamente derivado que era consistente con el producido a partir de datos moleculares. ^[6]

Algunas clasificaciones fenotípicas, en particular las que se utilizan al analizar grupos muy diversos de taxones, son discretas e inequívocas; por ejemplo, clasificar a los organismos como poseedores o no de cola es sencillo en la mayoría de los casos, al igual que contar características como ojos o vértebras. Sin embargo, la representación más apropiada de mediciones fenotípicas que varían continuamente es un problema controvertido sin una solución general. Un método común es simplemente ordenar las mediciones de interés en dos o más clases, lo que hace que la variación observada continua sea discretamente clasificable (por ejemplo, todos los ejemplos con huesos del húmero más largos que un límite determinado se califican como miembros de un estado, y todos los miembros cuyos huesos del húmero son más cortos que el límite se califican como miembros de un segundo estado). Esto da como resultado un conjunto de datos fácilmente manipulable , pero ha sido criticado por informar mal la base para las definiciones de clase y por sacrificar información en comparación con los métodos que utilizan una distribución ponderada continua de las mediciones. ^[7]

Dado que la recopilación de datos morfológicos requiere un trabajo extremadamente intenso, ya sea de fuentes bibliográficas o de observaciones de campo, no es raro reutilizar matrices de datos compiladas previamente, aunque esto puede propagar fallas en la matriz original en múltiples análisis derivados. ^[8]

Análisis molecular

El problema de la codificación de caracteres es muy diferente en los análisis moleculares, ya que los caracteres en los datos de secuencias biológicas son inmediatos y están definidos de forma discreta: nucleótidos distintos en secuencias de ADN o ARN y aminoácidos distintos en secuencias de proteínas . Sin embargo, definir la homología puede ser un desafío debido a las dificultades inherentes a la alineación de secuencias múltiples . Para un MSA con espacios, se pueden construir varios árboles filogenéticos enraizados que varían en sus interpretaciones de qué cambios son " mutaciones " frente a caracteres ancestrales, y qué eventos son mutaciones de inserción o mutaciones de deleción . Por ejemplo, dada solo una alineación por pares con una región de espacio, es imposible determinar si una secuencia tiene una mutación de inserción o la otra tiene una deleción. El problema se magnifica en MSA con espacios no alineados y no superpuestos. En la práctica, se pueden descartar regiones considerables de una alineación calculada en la construcción del árbol filogenético para evitar la integración de datos ruidosos en el cálculo del árbol.

Métodos de matriz de distancia

Los métodos de análisis filogenético basados en matrices de distancias se basan explícitamente en una medida de "distancia genética" entre las secuencias que se están clasificando y, por lo tanto, requieren un MSA como entrada. La distancia se define a menudo como la fracción de desajustes en posiciones alineadas, y los espacios se ignoran o se cuentan como desajustes. ^[3] Los métodos de distancia intentan construir una matriz de todos a todos a partir del conjunto de consultas de secuencias que describe la distancia entre cada par de secuencias. A partir de esto, se construye un árbol filogenético que coloca secuencias estrechamente relacionadas bajo el mismo nodo interior y cuyas longitudes de rama reproducen de manera cercana las distancias observadas entre secuencias. Los métodos de matriz de distancias pueden producir árboles con o sin raíz, según el algoritmo utilizado para calcularlos. Se utilizan con frecuencia como base para tipos progresivos e iterativos de alineaciones de secuencias múltiples . La principal desventaja de los métodos de matriz de distancias es su incapacidad para utilizar de manera eficiente la información sobre regiones locales de alta variación que aparecen en múltiples subárboles. ^[2]

UPGMA y WPGMA

Los métodos UPGMA ( Método de grupo de pares no ponderados con media aritmética ) y WPGMA ( Método de grupo de pares ponderados con media aritmética ) producen árboles enraizados y requieren una suposición de tasa constante, es decir, supone un árbol ultramétrico en el que las distancias desde la raíz hasta cada punta de rama son iguales. ^[9]

Unión de vecinos

Los métodos de unión de vecinos aplican técnicas generales de análisis de conglomerados al análisis de secuencias utilizando la distancia genética como métrica de agrupamiento. El método simple de unión de vecinos produce árboles sin raíz, pero no supone una tasa constante de evolución (es decir, un reloj molecular ) a lo largo de los linajes. ^[10]

Método de Fitch-Margoliash

El método Fitch-Margoliash utiliza un método de mínimos cuadrados ponderados para la agrupación en función de la distancia genética. ^[11] Las secuencias estrechamente relacionadas reciben más peso en el proceso de construcción del árbol para corregir la mayor inexactitud en la medición de distancias entre secuencias distantemente relacionadas. Las distancias utilizadas como entrada para el algoritmo deben normalizarse para evitar grandes artefactos en el cálculo de las relaciones entre grupos estrechamente relacionados y distantemente relacionados. Las distancias calculadas por este método deben ser lineales ; el criterio de linealidad para las distancias requiere que los valores esperados de las longitudes de las ramas para dos ramas individuales deben ser iguales al valor esperado de la suma de las distancias de las dos ramas, una propiedad que se aplica a las secuencias biológicas solo cuando se han corregido para la posibilidad de mutaciones inversas en sitios individuales. Esta corrección se realiza mediante el uso de una matriz de sustitución como la derivada del modelo Jukes-Cantor de evolución del ADN. La corrección de la distancia solo es necesaria en la práctica cuando las tasas de evolución difieren entre las ramas. ^[2] Otra modificación del algoritmo puede ser útil, especialmente en el caso de distancias concentradas (consulte el fenómeno de concentración de medida y la curva de dimensionalidad ): se ha demostrado que esa modificación, descrita en ^[12] , mejora la eficiencia del algoritmo y su robustez.

El criterio de mínimos cuadrados aplicado a estas distancias es más preciso pero menos eficiente que los métodos de unión de vecinos. También se puede aplicar una mejora adicional que corrige las correlaciones entre distancias que surgen de muchas secuencias estrechamente relacionadas en el conjunto de datos con un mayor costo computacional. Encontrar el árbol de mínimos cuadrados óptimo con cualquier factor de corrección es NP-completo , ^[13] por lo que se aplican métodos de búsqueda heurística como los utilizados en el análisis de máxima parsimonia a la búsqueda a través del espacio del árbol.

Uso de grupos externos

La información independiente sobre la relación entre secuencias o grupos se puede utilizar para ayudar a reducir el espacio de búsqueda de árboles y enraizar árboles sin raíz. El uso estándar de los métodos de matriz de distancia implica la inclusión de al menos una secuencia de grupo externo que se sabe que solo está distantemente relacionada con las secuencias de interés en el conjunto de consulta. ^[3] Este uso puede verse como un tipo de control experimental . Si el grupo externo se ha elegido adecuadamente, tendrá una distancia genética mucho mayor y, por lo tanto, una longitud de rama más larga que cualquier otra secuencia, y aparecerá cerca de la raíz de un árbol enraizado. La elección de un grupo externo apropiado requiere la selección de una secuencia que esté moderadamente relacionada con las secuencias de interés; una relación demasiado cercana frustra el propósito del grupo externo y demasiado distante agrega ruido al análisis. ^[3] También se debe tener cuidado para evitar situaciones en las que las especies de las que se tomaron las secuencias están distantemente relacionadas, pero el gen codificado por las secuencias está altamente conservado entre linajes. La transferencia horizontal de genes , especialmente entre bacterias que de otro modo serían divergentes , también puede confundir el uso del grupo externo.

Máxima parsimonia

La parsimonia máxima (PM) es un método para identificar el árbol filogenético potencial que requiere el menor número total de eventos evolutivos para explicar los datos de secuencia observados. Algunas formas de puntuar los árboles también incluyen un "costo" asociado con tipos particulares de eventos evolutivos e intentan localizar el árbol con el menor costo total. Este es un enfoque útil en casos en los que no todos los tipos posibles de eventos son igualmente probables, por ejemplo, cuando se sabe que determinados nucleótidos o aminoácidos son más mutables que otros.

La forma más ingenua de identificar el árbol más parsimonioso es la enumeración simple: considerar cada árbol posible en sucesión y buscar el árbol con la puntuación más baja. Sin embargo, esto solo es posible para un número relativamente pequeño de secuencias o especies porque se sabe que el problema de identificar el árbol más parsimonioso es NP-hard ; ^[2] en consecuencia, se han desarrollado varios métodos de búsqueda heurística para la optimización para localizar un árbol altamente parsimonioso, si no el mejor del conjunto. La mayoría de estos métodos implican un mecanismo de minimización de estilo de descenso más pronunciado que opera sobre un criterio de reordenamiento de árboles .

Rama y límite

El algoritmo de ramificación y acotación es un método general utilizado para aumentar la eficiencia de las búsquedas de soluciones casi óptimas de problemas NP-hard , aplicado por primera vez a la filogenética a principios de los años 1980. ^[14] La ramificación y acotación es particularmente adecuada para la construcción de árboles filogenéticos porque inherentemente requiere dividir un problema en una estructura de árbol a medida que subdivide el espacio del problema en regiones más pequeñas. Como su nombre lo indica, requiere como entrada tanto una regla de ramificación (en el caso de la filogenética, la adición de la próxima especie o secuencia al árbol) como una acotación (una regla que excluye ciertas regiones del espacio de búsqueda de la consideración, asumiendo así que la solución óptima no puede ocupar esa región). Identificar una buena acotación es el aspecto más desafiante de la aplicación del algoritmo a la filogenética. Una forma sencilla de definir la acotación es un número máximo de cambios evolutivos supuestos permitidos por árbol. Un conjunto de criterios conocidos como reglas de Zharkikh ^[15] limitan severamente el espacio de búsqueda al definir características compartidas por todos los árboles candidatos "más parsimoniosos". Las dos reglas más básicas exigen la eliminación de todas las secuencias redundantes, salvo una (para los casos en que múltiples observaciones han producido datos idénticos) y la eliminación de los sitios característicos en los que no se dan dos o más estados en al menos dos especies. En condiciones ideales, estas reglas y su algoritmo asociado definirían por completo un árbol.

Algoritmo de Sankoff-Morel-Cedergren

El algoritmo de Sankoff-Morel-Cedergren fue uno de los primeros métodos publicados para producir simultáneamente un MSA y un árbol filogenético para secuencias de nucleótidos. ^[16] El método utiliza un cálculo de parsimonia máxima junto con una función de puntuación que penaliza los huecos y los desajustes, favoreciendo así al árbol que introduce un número mínimo de tales eventos (una visión alternativa sostiene que los árboles que se deben favorecer son aquellos que maximizan la cantidad de similitud de secuencia que se puede interpretar como homología, un punto de vista que puede conducir a diferentes árboles óptimos ^[17] ). Las secuencias imputadas en los nodos interiores del árbol se puntúan y se suman sobre todos los nodos en cada árbol posible. La suma del árbol con la puntuación más baja proporciona tanto un árbol óptimo como un MSA óptimo dada la función de puntuación. Debido a que el método es altamente intensivo en términos computacionales, se utiliza un método aproximado en el que las suposiciones iniciales para las alineaciones interiores se refinan un nodo a la vez. Tanto la versión completa como la aproximada se calculan en la práctica mediante programación dinámica. ^[2]

MALIGNO y POY

Los métodos más recientes de árboles filogenéticos/MSA utilizan heurísticas para aislar árboles de alto puntaje, pero no necesariamente óptimos. El método MALIGN utiliza una técnica de máxima parsimonia para calcular un alineamiento múltiple maximizando el puntaje de un cladograma , y su método complementario POY utiliza un método iterativo que combina la optimización del árbol filogenético con mejoras en el MSA correspondiente. ^[18] Sin embargo, el uso de estos métodos para construir hipótesis evolutivas ha sido criticado por estar sesgado debido a la construcción deliberada de árboles que reflejan eventos evolutivos mínimos. ^[19] Esto, a su vez, ha sido refutado por la opinión de que dichos métodos deberían verse como enfoques heurísticos para encontrar los árboles que maximizan la cantidad de similitud de secuencias que se puede interpretar como homología. ^[17]^[20]

Máxima verosimilitud

El método de máxima verosimilitud utiliza técnicas estadísticas estándar para inferir distribuciones de probabilidad para asignar probabilidades a posibles árboles filogenéticos particulares. El método requiere un modelo de sustitución para evaluar la probabilidad de mutaciones particulares ; aproximadamente, un árbol que requiere más mutaciones en los nodos interiores para explicar la filogenia observada se evaluará como que tiene una probabilidad menor. Esto es ampliamente similar al método de máxima parsimonia, pero la máxima verosimilitud permite una flexibilidad estadística adicional al permitir tasas variables de evolución tanto en linajes como en sitios. De hecho, el método requiere que la evolución en diferentes sitios y a lo largo de diferentes linajes sea estadísticamente independiente . Por lo tanto, la máxima verosimilitud es muy adecuada para el análisis de secuencias distantemente relacionadas, pero se cree que es computacionalmente intratable para calcular debido a su NP-hardness. ^[21]

El algoritmo de "poda", una variante de la programación dinámica , se utiliza a menudo para reducir el espacio de búsqueda calculando de forma eficiente la probabilidad de los subárboles. ^[2] El método calcula la probabilidad de cada sitio de forma "lineal", comenzando en un nodo cuyos únicos descendientes son las hojas (es decir, las puntas del árbol) y trabajando hacia atrás hasta el nodo "inferior" en conjuntos anidados. Sin embargo, los árboles producidos por el método solo tienen raíz si el modelo de sustitución es irreversible, lo que no suele ser cierto en los sistemas biológicos. La búsqueda del árbol de máxima verosimilitud también incluye un componente de optimización de la longitud de las ramas que es difícil de mejorar algorítmicamente; a menudo se utilizan herramientas de optimización global generales como el método de Newton-Raphson .

Algunas herramientas que utilizan la máxima verosimilitud para inferir árboles filogenéticos a partir de datos de frecuencias alélicas variantes (VAF) incluyen AncesTree y CITUP. ^[22]^[23]

Inferencia bayesiana

La inferencia bayesiana se puede utilizar para producir árboles filogenéticos de una manera estrechamente relacionada con los métodos de máxima verosimilitud. Los métodos bayesianos suponen una distribución de probabilidad previa de los árboles posibles, que puede ser simplemente la probabilidad de cualquier árbol entre todos los árboles posibles que podrían generarse a partir de los datos, o puede ser una estimación más sofisticada derivada de la suposición de que los eventos de divergencia, como la especiación, ocurren como procesos estocásticos . La elección de la distribución previa es un punto de discordia entre los usuarios de los métodos filogenéticos de inferencia bayesiana. ^[2]

Las implementaciones de métodos bayesianos generalmente utilizan algoritmos de muestreo de Monte Carlo de cadena de Markov , aunque la elección del conjunto de movimientos varía; las selecciones utilizadas en la filogenética bayesiana incluyen la permutación circular de nodos de hojas de un árbol propuesto en cada paso ^{[24] y el intercambio de subárboles descendientes de un}nodo interno aleatorio entre dos árboles relacionados. ^[25] El uso de métodos bayesianos en filogenética ha sido controvertido, en gran medida debido a la especificación incompleta de la elección del conjunto de movimientos, el criterio de aceptación y la distribución previa en el trabajo publicado. ^[2] En general, se considera que los métodos bayesianos son superiores a los métodos basados en la parsimonia; pueden ser más propensos a la atracción de ramas largas que las técnicas de máxima verosimilitud, ^[26] aunque son más capaces de acomodar los datos faltantes. ^[27]

Mientras que los métodos de probabilidad encuentran el árbol que maximiza la probabilidad de los datos, un enfoque bayesiano recupera un árbol que representa los clados más probables, basándose en la distribución posterior. Sin embargo, las estimaciones de la probabilidad posterior de los clados (midiendo su "apoyo") pueden ser bastante erróneas, especialmente en clados que no son abrumadoramente probables. Por ello, se han propuesto otros métodos para estimar la probabilidad posterior. ^[28]

Algunas herramientas que utilizan la inferencia bayesiana para inferir árboles filogenéticos a partir de datos de frecuencias alélicas variantes (VAF) incluyen Canopy, EXACT y PhyloWGS. ^[29]^[30]^[31]

Selección de modelo

Los métodos de filogenética molecular se basan en un modelo de sustitución definido que codifica una hipótesis sobre las tasas relativas de mutación en varios sitios a lo largo de las secuencias de genes o aminoácidos que se están estudiando. En su forma más simple, los modelos de sustitución apuntan a corregir las diferencias en las tasas de transiciones y transversiones en las secuencias de nucleótidos. El uso de modelos de sustitución es necesario por el hecho de que la distancia genética entre dos secuencias aumenta linealmente solo por un corto tiempo después de que las dos secuencias divergen entre sí (alternativamente, la distancia es lineal solo poco antes de la coalescencia ). Cuanto mayor sea la cantidad de tiempo después de la divergencia, más probable es que ocurran dos mutaciones en el mismo sitio de nucleótido. Por lo tanto, los cálculos simples de distancia genética subestimarán el número de eventos de mutación que han ocurrido en la historia evolutiva. La magnitud de este subregistro aumenta con el aumento del tiempo desde la divergencia, lo que puede conducir al fenómeno de atracción de ramas largas o la asignación incorrecta de dos secuencias distantemente relacionadas pero que evolucionan de manera convergente como estrechamente relacionadas. ^[32] El método de máxima parsimonia es particularmente susceptible a este problema debido a su búsqueda explícita de un árbol que represente un número mínimo de eventos evolutivos distintos. ^[2]

Tipos de modelos

Todos los modelos de sustitución asignan un conjunto de pesos a cada posible cambio de estado representado en la secuencia. Los tipos de modelos más comunes son implícitamente reversibles porque asignan el mismo peso a, por ejemplo, una mutación de nucleótido G>C que a una mutación C>G. El modelo más simple posible, el modelo Jukes-Cantor , asigna una probabilidad igual a cada posible cambio de estado para una base de nucleótido dada. La tasa de cambio entre dos nucleótidos distintos será un tercio de la tasa de sustitución general. ^[2] Los modelos más avanzados distinguen entre transiciones y transversiones . El modelo reversible en el tiempo más general posible, llamado modelo GTR, tiene seis parámetros de tasa de mutación. Un modelo aún más generalizado conocido como el modelo general de 12 parámetros rompe la reversibilidad temporal, a costa de mucha complejidad adicional en el cálculo de distancias genéticas que son consistentes entre múltiples linajes. ^[2] Una posible variación de este tema ajusta las tasas de modo que el contenido general de GC, una medida importante de la estabilidad de la doble hélice del ADN, varíe con el tiempo. ^[33]

Los modelos también pueden permitir la variación de las tasas con las posiciones en la secuencia de entrada. El ejemplo más obvio de tal variación se desprende de la disposición de los nucleótidos en los genes codificadores de proteínas en codones de tres bases . Si se conoce la ubicación del marco de lectura abierto (ORF), las tasas de mutación se pueden ajustar para la posición de un sitio dado dentro de un codón, ya que se sabe que el apareamiento de bases oscilante puede permitir tasas de mutación más altas en el tercer nucleótido de un codón dado sin afectar el significado del codón en el código genético . ^[32] Un ejemplo menos impulsado por hipótesis que no depende de la identificación de ORF simplemente asigna a cada sitio una tasa extraída aleatoriamente de una distribución predeterminada, a menudo la distribución gamma o la distribución log-normal . ^[2] Finalmente, una estimación más conservadora de las variaciones de la tasa conocida como el método de covariación permite variaciones autocorrelacionadas en las tasas, de modo que la tasa de mutación de un sitio dado está correlacionada entre sitios y linajes. ^[34]

Elegir el mejor modelo

La selección de un modelo apropiado es fundamental para la producción de buenos análisis filogenéticos, tanto porque los modelos subparametrizados o demasiado restrictivos pueden producir un comportamiento aberrante cuando se violan sus supuestos subyacentes, como porque los modelos demasiado complejos o sobreparametrizados son computacionalmente costosos y los parámetros pueden estar sobreajustados. ^[32] El método más común de selección de modelos es la prueba de razón de verosimilitud (LRT), que produce una estimación de verosimilitud que puede interpretarse como una medida de " bondad de ajuste " entre el modelo y los datos de entrada. ^[32] Sin embargo, se debe tener cuidado al utilizar estos resultados, ya que un modelo más complejo con más parámetros siempre tendrá una mayor probabilidad que una versión simplificada del mismo modelo, lo que puede conducir a la selección ingenua de modelos que son demasiado complejos. ^[2] Por esta razón, los programas informáticos de selección de modelos elegirán el modelo más simple que no sea significativamente peor que los modelos de sustitución más complejos. Una desventaja significativa de la LRT es la necesidad de hacer una serie de comparaciones por pares entre modelos; Se ha demostrado que el orden en que se comparan los modelos tiene un efecto importante en el que finalmente se selecciona. ^[35]

Un método alternativo de selección de modelos es el criterio de información de Akaike (AIC), formalmente una estimación de la divergencia de Kullback-Leibler entre el modelo verdadero y el modelo que se está probando. Puede interpretarse como una estimación de probabilidad con un factor de corrección para penalizar los modelos sobreparametrizados. ^[32] El AIC se calcula sobre un modelo individual en lugar de un par, por lo que es independiente del orden en que se evalúan los modelos. Una alternativa relacionada, el criterio de información bayesiano (BIC), tiene una interpretación básica similar pero penaliza más severamente los modelos complejos. ^[32] Determinar el modelo más adecuado para la reconstrucción de la filogenia constituye un paso fundamental en numerosos estudios evolutivos. Sin embargo, varios criterios para la selección de modelos están dando lugar a un debate sobre cuál criterio es preferible. Recientemente se ha demostrado que, cuando las topologías y la reconstrucción de secuencias ancestrales son el resultado deseado, la elección de un criterio sobre otro no es crucial. En cambio, el uso del modelo de sustitución de nucleótidos más complejo, GTR+I+G, conduce a resultados similares para la inferencia de la topología de árboles y las secuencias ancestrales. ^[36]

Un protocolo completo paso a paso para construir árboles filogenéticos, que incluye ensamblaje de secuencias contiguas de ADN/aminoácidos, alineamiento de secuencias múltiples, prueba de modelos (prueba de modelos de sustitución de mejor ajuste) y reconstrucción de filogenia utilizando máxima verosimilitud e inferencia bayesiana, está disponible en Protocol Exchange ^[37].

Una forma no tradicional de evaluar el árbol filogenético es compararlo con el resultado de la agrupación. Se puede utilizar una técnica de escalamiento multidimensional, denominada unión interpolativa, para reducir la dimensionalidad y visualizar el resultado de la agrupación de las secuencias en 3D, y luego mapear el árbol filogenético sobre el resultado de la agrupación. Un mejor árbol suele tener una correlación más alta con el resultado de la agrupación. ^[38]

Evaluación del soporte del árbol

Al igual que con todo análisis estadístico, la estimación de filogenias a partir de datos de caracteres requiere una evaluación de la confianza. Existen varios métodos para probar el grado de respaldo de un árbol filogenético, ya sea evaluando el respaldo de cada subárbol de la filogenia (respaldo nodal) o evaluando si la filogenia es significativamente diferente de otros árboles posibles (pruebas de hipótesis de árboles alternativos).

Soporte nodal

El método más común para evaluar el soporte de un árbol es evaluar el soporte estadístico de cada nodo del árbol. Normalmente, un nodo con un soporte muy bajo no se considera válido en un análisis posterior y visualmente puede colapsarse en una politomía para indicar que las relaciones dentro de un clado no están resueltas.

Árbol de consenso

Muchos métodos para evaluar el apoyo nodal implican la consideración de múltiples filogenias. El árbol de consenso resume los nodos que se comparten entre un conjunto de árboles. ^[39] En un *consenso estricto*, solo se muestran los nodos que se encuentran en cada árbol y el resto se agrupa en una politomía no resuelta . Los métodos menos conservadores, como el árbol de *consenso por regla de la mayoría*, consideran los nodos que son apoyados por un porcentaje dado de los árboles en consideración (como al menos el 50%).

Por ejemplo, en el análisis de máxima parsimonia, puede haber muchos árboles con el mismo puntaje de parsimonia. Un árbol de consenso estricto mostraría qué nodos se encuentran en todos los árboles igualmente parsimoniosos y qué nodos difieren. Los árboles de consenso también se utilizan para evaluar el respaldo de las filogenias reconstruidas con inferencia bayesiana (ver más abajo).

Arranque y tijera

En estadística, el método bootstrap es un método para inferir la variabilidad de datos que tienen una distribución desconocida utilizando pseudorreplicaciones de los datos originales. Por ejemplo, dado un conjunto de 100 puntos de datos, una pseudorreplica es un conjunto de datos del mismo tamaño (100 puntos) muestreado aleatoriamente de los datos originales, con reemplazo. Es decir, cada punto de datos original puede estar representado más de una vez en la pseudorreplica, o no estar representado en absoluto. El soporte estadístico implica la evaluación de si los datos originales tienen propiedades similares a un conjunto grande de pseudorreplicas.

En filogenética, el bootstrap se realiza utilizando las columnas de la matriz de caracteres. Cada pseudorreplica contiene la misma cantidad de especies (filas) y caracteres (columnas) seleccionados aleatoriamente de la matriz original, con reemplazo. Se reconstruye una filogenia a partir de cada pseudorreplica, con los mismos métodos utilizados para reconstruir la filogenia a partir de los datos originales. Para cada nodo de la filogenia, el soporte nodal es el porcentaje de pseudorreplicas que contienen ese nodo. ^[40]

El rigor estadístico de la prueba bootstrap se ha evaluado empíricamente utilizando poblaciones virales con historias evolutivas conocidas, ^[41] encontrando que un 70% de apoyo bootstrap corresponde a una probabilidad del 95% de que el clado exista. Sin embargo, esto se probó en condiciones ideales (por ejemplo, sin cambios en las tasas evolutivas, filogenias simétricas). En la práctica, los valores superiores al 70% generalmente son apoyados y se deja al investigador o lector la evaluación de la confianza. Los nodos con un apoyo inferior al 70% generalmente se consideran no resueltos.

El método de "jackknifing" en filogenética es un procedimiento similar, excepto que las columnas de la matriz se muestrean sin reemplazo. Las pseudorreplicas se generan mediante un submuestreo aleatorio de los datos; por ejemplo, un "jackknife del 10 %" implicaría muestrear aleatoriamente el 10 % de la matriz muchas veces para evaluar el soporte nodal.

Probabilidad posterior

La reconstrucción de filogenias mediante inferencia bayesiana genera una distribución posterior de árboles altamente probables dados los datos y el modelo evolutivo, en lugar de un único "mejor" árbol. Los árboles en la distribución posterior generalmente tienen muchas topologías diferentes. Cuando los datos de entrada son datos de frecuencia alélica variante (VAF), la herramienta EXACT puede calcular las probabilidades de los árboles con exactitud, para árboles pequeños y biológicamente relevantes, mediante una búsqueda exhaustiva en todo el espacio de árboles. ^[29]

La mayoría de los métodos de inferencia bayesianos utilizan una iteración de Monte Carlo de cadena de Markov, y los pasos iniciales de esta cadena no se consideran reconstrucciones confiables de la filogenia. Los árboles generados al principio de la cadena suelen descartarse como árboles de prueba . El método más común para evaluar el soporte nodal en un análisis filogenético bayesiano es calcular el porcentaje de árboles en la distribución posterior (posterior a la prueba) que contienen el nodo.

Se espera que el apoyo estadístico para un nodo en la inferencia bayesiana refleje la probabilidad de que un clado realmente exista dados los datos y el modelo evolutivo. ^[42] Por lo tanto, el umbral para aceptar un nodo como compatible es generalmente más alto que para el bootstrap.

Métodos de conteo de pasos

El soporte de Bremer cuenta el número de pasos adicionales necesarios para contradecir un clado.

Defectos

Cada una de estas medidas tiene sus debilidades. Por ejemplo, los clados más pequeños o más grandes tienden a atraer valores de apoyo mayores que los clados de tamaño mediano, simplemente como resultado de la cantidad de taxones que los componen. ^[43]

El soporte de bootstrap puede proporcionar estimaciones altas del soporte de nodos como resultado del ruido en los datos en lugar de la existencia real de un clado. ^[44]

Limitaciones y soluciones alternativas

En definitiva, no hay forma de medir si una hipótesis filogenética particular es exacta o no, a menos que ya se conozcan las verdaderas relaciones entre los taxones que se están examinando (lo que puede suceder con las bacterias o los virus en condiciones de laboratorio). El mejor resultado que puede esperar obtener un filogenético empírico es un árbol con ramas que estén bien respaldadas por la evidencia disponible. Se han identificado varios escollos potenciales:

Homoplasia

Ciertos caracteres tienen más probabilidades de evolucionar de manera convergente que otros; lógicamente, a dichos caracteres se les debería dar menos peso en la reconstrucción de un árbol. ^[45] Los pesos en forma de un modelo de evolución se pueden inferir a partir de conjuntos de datos moleculares, de modo que se pueden utilizar métodos de máxima verosimilitud o bayesianos para analizarlos. Para las secuencias moleculares, este problema se agrava cuando los taxones en estudio han divergido sustancialmente. A medida que aumenta el tiempo desde la divergencia de dos taxones, también aumenta la probabilidad de múltiples sustituciones en el mismo sitio, o mutaciones inversas, todas las cuales dan lugar a homoplasias. Para los datos morfológicos, lamentablemente, la única forma objetiva de determinar la convergencia es mediante la construcción de un árbol, un método algo circular. Aun así, la ponderación de los caracteres homoplásicos ^{[ ¿cómo? ]} conduce de hecho a árboles mejor sustentados. ^[45] Se puede lograr un mayor refinamiento ponderando los cambios en una dirección más que los cambios en otra; Por ejemplo, la presencia de alas torácicas casi garantiza la ubicación entre los insectos pterigotos porque, aunque las alas a menudo se pierden de forma secundaria, no hay evidencia de que se hayan ganado más de una vez. ^[46]

Transferencia horizontal de genes

En general, los organismos pueden heredar genes de dos maneras: transferencia génica vertical y transferencia génica horizontal . La transferencia génica vertical es el paso de genes de progenitores a descendientes, y la transferencia génica horizontal (también llamada lateral) ocurre cuando los genes saltan entre organismos no relacionados, un fenómeno común especialmente en procariotas ; un buen ejemplo de esto es la resistencia a los antibióticos adquirida como resultado del intercambio de genes entre varias bacterias que conduce a especies bacterianas resistentes a múltiples fármacos. También ha habido casos bien documentados de transferencia génica horizontal entre eucariotas .

La transferencia horizontal de genes ha complicado la determinación de las filogenias de los organismos, y se han descrito inconsistencias en la filogenia entre grupos específicos de organismos, dependiendo de los genes utilizados para construir árboles evolutivos. La única manera de determinar qué genes se han adquirido verticalmente y cuáles horizontalmente es suponer , con parsimonia, que el conjunto más grande de genes que se han heredado juntos se ha heredado verticalmente; esto requiere analizar una gran cantidad de genes.

Híbridos, especiación, introgresiones y clasificación incompleta de linajes

El supuesto básico que subyace al modelo matemático de la cladística es una situación en la que las especies se dividen de forma ordenada en forma de bifurcación. Si bien tal supuesto puede ser válido a mayor escala (salvo la transferencia horizontal de genes, ver arriba), la especiación es a menudo mucho menos ordenada. La investigación desde que se introdujo el método cladístico ha demostrado que la especiación híbrida , que alguna vez se consideró rara, es de hecho bastante común, particularmente en plantas. ^[47]^[48] También es común la especiación parafilética , lo que hace que la suposición de un patrón de bifurcación no sea adecuada, lo que conduce a redes filogenéticas en lugar de árboles. ^[49]^[50] La introgresión también puede mover genes entre especies que de otro modo serían distintas y, a veces, incluso géneros, ^[51] lo que complica el análisis filogenético basado en genes. ^[52] Este fenómeno puede contribuir a una "clasificación incompleta del linaje" y se cree que es un fenómeno común en varios grupos. En el análisis a nivel de especie, esto se puede abordar mediante un muestreo más amplio o un mejor análisis del genoma completo. ^[53] A menudo el problema se evita restringiendo el análisis a un menor número de especímenes no estrechamente relacionados.

Muestreo de taxones

Gracias al desarrollo de técnicas avanzadas de secuenciación en biología molecular , se ha hecho posible reunir grandes cantidades de datos (secuencias de ADN o aminoácidos) para inferir hipótesis filogenéticas. Por ejemplo, no es raro encontrar estudios con matrices de caracteres basadas en genomas mitocondriales completos (~16.000 nucleótidos, en muchos animales). Sin embargo, las simulaciones han demostrado que es más importante aumentar el número de taxones en la matriz que aumentar el número de caracteres, porque cuantos más taxones haya, más preciso y robusto será el árbol filogenético resultante. ^[54]^[55] Esto puede deberse en parte a la ruptura de ramas largas .

Señal filogenética

Otro factor importante que afecta la precisión de la reconstrucción de árboles es si los datos analizados contienen realmente una señal filogenética útil, un término que se utiliza generalmente para indicar si un carácter evoluciona lo suficientemente lento como para tener el mismo estado en taxones estrechamente relacionados en lugar de variar aleatoriamente. Existen pruebas para detectar la señal filogenética. ^[56]

Caracteres continuos

Los caracteres morfológicos que muestrean un continuo pueden contener señales filogenéticas, pero son difíciles de codificar como caracteres discretos. Se han utilizado varios métodos, uno de los cuales es la codificación de espacios, y existen variaciones de la codificación de espacios. ^[57] En la forma original de codificación de espacios: ^[57]

Las medias de grupo de un personaje se ordenan primero por tamaño. Se calcula la desviación estándar intragrupo agrupada... y las diferencias entre medias adyacentes... se comparan en relación con esta desviación estándar. Cualquier par de medias adyacentes se considera diferente y se le asignan puntuaciones enteras diferentes... si las medias están separadas por una "brecha" mayor que la desviación estándar intragrupo... multiplicada por alguna constante arbitraria.

Si se añaden más taxones al análisis, las brechas entre taxones pueden llegar a ser tan pequeñas que se pierda toda la información. La codificación generalizada de brechas soluciona ese problema comparando pares individuales de taxones en lugar de considerar un conjunto que contenga todos los taxones. ^[57]

Datos faltantes

En general, cuantos más datos estén disponibles al construir un árbol, más preciso y confiable será el árbol resultante. La falta de datos no es más perjudicial que simplemente tener menos datos, aunque el impacto es mayor cuando la mayoría de los datos faltantes se encuentran en un pequeño número de taxones. Concentrar los datos faltantes en un pequeño número de caracteres produce un árbol más robusto. ^[58]

El papel de los fósiles

Debido a que muchos caracteres involucran caracteres embriológicos, de tejidos blandos o moleculares que (en el mejor de los casos) casi nunca se fosilizan, y la interpretación de los fósiles es más ambigua que la de los taxones vivos , los taxones extintos casi invariablemente tienen proporciones más altas de datos faltantes que los vivos. Sin embargo, a pesar de estas limitaciones, la inclusión de fósiles es invaluable, ya que pueden proporcionar información en áreas dispersas de árboles, rompiendo ramas largas y restringiendo estados de caracteres intermedios; por lo tanto, los taxones fósiles contribuyen tanto a la resolución de árboles como los taxones modernos. ^[59] Los fósiles también pueden restringir la edad de los linajes y así demostrar cuán consistente es un árbol con el registro estratigráfico; ^[1] la estratocladística incorpora información de edad en matrices de datos para análisis filogenéticos.

Véase también

Lista de programas de filogenética

Referencias

^ abc Khalafvand, Tyler (2015). "Encontrar estructura en el espacio de búsqueda de filogenia". Universidad de Dalhousie .
^ abcdefghijklmno Felsenstein J (2004). Inferir filogenias . Sunderland, Massachusetts: Sinauer Associates. ISBN 978-0-87893-177-4.
^ abcd Mount DM (2004). Bioinformática: análisis de secuencias y genomas (2.ª ed.). Cold Spring Harbor, Nueva York: Cold Spring Harbor Laboratory Press. ISBN 978-0-87969-712-9.
^ Swiderski DL, Zelditch ML, Fink WL (septiembre de 1998). "Por qué la morfometría no es especial: codificación de datos cuantitativos para el análisis filogenético". Biología sistemática . 47 (3): 508–19. JSTOR 2585256. PMID 12066691.
^ Gaubert P, Wozencraft WC, Cordeiro-Estrela P, Veron G (diciembre de 2005). "Mosaicos de convergencias y ruido en filogenias morfológicas: ¿qué hay en un carnívoro parecido a un vivérrido?". Biología sistemática . 54 (6): 865–94. doi :10.1080/10635150500232769. PMID 16282167.
^ Strait DS, Grine FE (diciembre de 2004). "Inferir la filogenia de los hominoides y de los primeros homínidos utilizando caracteres craneodentales: el papel de los taxones fósiles". Journal of Human Evolution . 47 (6): 399–452. Bibcode :2004JHumE..47..399S. doi :10.1016/j.jhevol.2004.08.008. PMID 15566946.
^ Wiens JJ (2001). "Análisis de caracteres en filogenética morfológica: problemas y soluciones". Biología Sistemática . 50 (5): 689–99. doi :10.1080/106351501753328811. PMID 12116939.
^ Jenner RA (2001). "Filogenia bilateral y reciclaje acrítico de conjuntos de datos morfológicos". Biología sistemática . 50 (5): 730–42. doi : 10.1080/106351501753328857 . PMID 12116943.
^ Sokal R, Michener C (1958). "Un método estadístico para evaluar relaciones sistemáticas". Boletín Científico de la Universidad de Kansas . 38 : 1409–1438.
^ Saitou N, Nei M (julio de 1987). "El método de unión de vecinos: un nuevo método para reconstruir árboles filogenéticos". Biología molecular y evolución . 4 (4): 406–25. doi : 10.1093/oxfordjournals.molbev.a040454 . PMID 3447015.
^ Fitch WM , Margoliash E (enero de 1967). "Construcción de árboles filogenéticos". Science . 155 (3760): 279–84. Bibcode :1967Sci...155..279F. doi :10.1126/science.155.3760.279. PMID 5334057.
^ Lespinats S, Grando D, Maréchal E, Hakimi MA, Tenaillon O, Bastien O (2011). "Cómo el algoritmo Fitch-Margoliash puede beneficiarse del escalamiento multidimensional". Evolutionary Bioinformatics Online . 7 : 61–85. doi :10.4137/EBO.S7048. PMC 3118699 . PMID 21697992.
^ Day WH (1987). "Complejidad computacional de la inferencia de filogenias a partir de matrices de disimilitud". Boletín de biología matemática . 49 (4): 461–7. doi :10.1007/BF02458863. PMID 3664032. S2CID 189885258.
^ Hendy MD, Penny D (1982). "Algoritmos de ramificación y acotación para determinar árboles evolutivos mínimos". Ciencias biológicas matemáticas . 59 (2): 277–290. doi :10.1016/0025-5564(82)90027-X.
^ Ratner VA, Zharkikh AA, Kolchanov N, Rodin S, Solovyov S, Antonov AS (1995). Evolución molecular . Serie Biomatemáticas. vol. 24. Nueva York: Springer-Verlag. ISBN 978-3-662-12530-4.
^ Sankoff D, Morel C, Cedergren RJ (octubre de 1973). "Evolución del ARN 5S y la no aleatoriedad del reemplazo de bases". Nature . 245 (147): 232–4. doi :10.1038/newbio245232a0. PMID 4201431.
^ ab De Laet J (2005). "Parsimonia y el problema de los inaplicables en los datos de secuencias". En Albert VA (ed.). Parsimonia, filogenia y genómica . Oxford University Press. págs. 81–116. ISBN 978-0-19-856493-5.
^ Wheeler WC, Gladstein DS (1994). "MALIGN: un programa de alineamiento de secuencias de ácidos nucleicos múltiples". Journal of Heredity . 85 (5): 417–418. doi :10.1093/oxfordjournals.jhered.a111492.
^ Simmons MP (junio de 2004). "Independencia de la alineación y búsqueda en árboles". Filogenética molecular y evolución . 31 (3): 874–9. Bibcode :2004MolPE..31..874S. doi :10.1016/j.ympev.2003.10.008. PMID 15120385.
^ De Laet J (2015). "Análisis de parsimonia de datos de secuencias no alineadas: maximización de la homología y minimización de la homoplasia, no minimización del costo total definido operacionalmente o minimización de transformaciones igualmente ponderadas". Cladistics . 31 (5): 550–567. doi :10.1111/cla.12098. PMID 34772278. S2CID 221582410.
^ Chor B, Tuller T (junio de 2005). "Máxima verosimilitud de los árboles evolutivos: dureza y aproximación". Bioinformática . 21 (Supl 1): i97–106. doi : 10.1093/bioinformatics/bti1027 . PMID 15961504.
^ El-Kebir M, Oesper L, Acheson-Field H, Raphael BJ (junio de 2015). "Reconstrucción de árboles clonales y composición tumoral a partir de datos de secuenciación de múltiples muestras". Bioinformática . 31 (12): i62-70. doi :10.1093/bioinformatics/btv261. PMC 4542783 . PMID 26072510.
^ Malikic S, McPherson AW, Donmez N, Sahinalp CS (mayo de 2015). "Inferencia de clonalidad en múltiples muestras tumorales mediante filogenia". Bioinformática . 31 (9): 1349–56. doi : 10.1093/bioinformatics/btv003 . PMID 25568283.
^ Mau B, Newton MA (1997). "Inferencia filogenética para datos binarios en dendrogramas utilizando el método Monte Carlo de cadena de Markov". Journal of Computational and Graphical Statistics . 6 (1): 122–131. doi :10.2307/1390728. JSTOR 1390728.
^ Yang Z, Rannala B (julio de 1997). "Inferencia filogenética bayesiana usando secuencias de ADN: un método de Monte Carlo de cadena de Markov". Biología molecular y evolución . 14 (7): 717–24. doi : 10.1093/oxfordjournals.molbev.a025811 . PMID 9214744.
^ Kolaczkowski B, Thornton JW (diciembre de 2009). Delport W (ed.). "Sesgo de atracción de ramas largas e inconsistencia en la filogenética bayesiana". PLOS ONE . 4 (12): e7891. Bibcode :2009PLoSO...4.7891K. doi : 10.1371/journal.pone.0007891 . PMC 2785476 . PMID 20011052.
^ Simmons MP (2012). "Resultados engañosos de los análisis filogenéticos basados en la probabilidad en presencia de datos faltantes". Cladistics . 28 (2): 208–222. doi : 10.1111/j.1096-0031.2011.00375.x . PMID 34872185. S2CID 53123024.
^ Larget B (julio de 2013). "La estimación de probabilidades posteriores de árboles utilizando distribuciones de probabilidad de clados condicionales". Biología sistemática . 62 (4): 501–11. doi :10.1093/sysbio/syt014. PMC 3676676 . PMID 23479066.
^ ab Ray S, Jia B, Safavi S, van Opijnen T, Isberg R, Rosch J, Bento J (22 de agosto de 2019). "Inferencia exacta bajo el modelo de filogenia perfecta". arXiv : 1908.08623 . Código Bib : 2019arXiv190808623R. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Jiang Y, Qiu Y, Minn AJ, Zhang NR (septiembre de 2016). "Evaluación de la heterogeneidad intratumoral y seguimiento de la historia evolutiva clonal longitudinal y espacial mediante secuenciación de próxima generación". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 113 (37): E5528-37. Bibcode :2016PNAS..113E5528J. doi : 10.1073/pnas.1522203113 . PMC 5027458 . PMID 27573852.
^ Deshwar AG, Vembu S, Yung CK, Jang GH, Stein L, Morris Q (febrero de 2015). "PhyloWGS: reconstrucción de la composición subclonal y la evolución a partir de la secuenciación del genoma completo de tumores". Genome Biology . 16 (1): 35. doi : 10.1186/s13059-015-0602-8 . PMC 4359439 . PMID 25786235.
^ abcdef Sullivan J, Joyce P (2005). "Selección de modelos en filogenética". Revista anual de ecología, evolución y sistemática . 36 (1): 445–466. doi :10.1146/annurev.ecolsys.36.102003.152633. PMC 3144157. PMID 20671039 .
^ Galtier N, Gouy M (julio de 1998). "Inferencia de patrones y procesos: implementación de máxima verosimilitud de un modelo no homogéneo de evolución de secuencias de ADN para análisis filogenético". Biología molecular y evolución . 15 (7): 871–9. doi : 10.1093/oxfordjournals.molbev.a025991 . PMID 9656487.
^ Fitch WM, Markowitz E (octubre de 1970). "Un método mejorado para determinar la variabilidad de codones en un gen y su aplicación a la tasa de fijación de mutaciones en la evolución". Genética bioquímica . 4 (5): 579–93. doi :10.1007/bf00486096. PMID 5489762. S2CID 26638948.
^ Pol D (diciembre de 2004). "Problemas empíricos de la prueba de razón de verosimilitud jerárquica para la selección de modelos". Biología sistemática . 53 (6): 949–62. doi : 10.1080/10635150490888868 . PMID 15764562.
^ Abadi S, Azouri D, Pupko T, Mayrose I (febrero de 2019). "La selección de modelos puede no ser un paso obligatorio para la reconstrucción de la filogenia". Nature Communications . 10 (1): 934. Bibcode :2019NatCo..10..934A. doi :10.1038/s41467-019-08822-w. PMC 6389923 . PMID 30804347.
^ Bast F (2013). "Búsqueda de similitud de secuencias, alineamiento de secuencias múltiples, selección de modelos, matriz de distancia y reconstrucción de filogenia". Protocol Exchange . doi : 10.1038/protex.2013.065 .
^ Ruan Y, House GL, Ekanayake S, Schütte U, Bever JD, Tang H, Fox G (26 de mayo de 2014). "Integración de agrupamiento y escalamiento multidimensional para determinar árboles filogenéticos como filogramas esféricos visualizados en 3 dimensiones". 2014 14th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing . IEEE. págs. 720–729. doi :10.1109/CCGrid.2014.126. ISBN . 978-1-4799-2784-5.S2CID 9581901 .
^ Baum DA, Smith SD (2013). El pensamiento arbóreo: una introducción a la biología filogenética. Roberts. pág. 442. ISBN 978-1-936221-16-5.
^ Felsenstein J (julio de 1985). "Límites de confianza en las filogenias: un enfoque que utiliza el método bootstrap". Evolución; Revista internacional de evolución orgánica . 39 (4): 783–791. doi :10.2307/2408678. JSTOR 2408678. PMID 28561359.
^ Hillis DM, Bull JJ (1993). "Una prueba empírica de bootstrapping como método para evaluar la confianza en el análisis filogenético". Biología sistemática . 42 (2): 182–192. doi :10.1093/sysbio/42.2.182. ISSN 1063-5157.
^ Huelsenbeck J, Rannala B (diciembre de 2004). "Propiedades frecuentistas de las probabilidades posteriores bayesianas de árboles filogenéticos bajo modelos de sustitución simples y complejos". Biología sistemática . 53 (6): 904–13. doi : 10.1080/10635150490522629 . PMID 15764559.
^ Chemisquy MA, Prevosti FJ (2013). "Evaluación del efecto del tamaño del clado en medidas alternativas de soporte de las ramas". Revista de Sistemática Zoológica e Investigación Evolutiva . 51 (4): 260–273. doi : 10.1111/jzs.12024 . hdl : 11336/4144 .
^ Phillips MJ, Delsuc F, Penny D (julio de 2004). "Filogenia a escala genómica y detección de sesgos sistemáticos" (PDF) . Biología molecular y evolución . 21 (7): 1455–8. doi : 10.1093/molbev/msh137 . PMID 15084674.
^ ab Goloboff PA, Carpenter JM, Arias JS, Esquivel DR (2008). "La ponderación contra la homoplasia mejora el análisis filogenético de conjuntos de datos morfológicos". Cladistics . 24 (5): 758–773. doi : 10.1111/j.1096-0031.2008.00209.x . hdl : 11336/82003 . S2CID 913161.
^ Goloboff PA (1997). "Optimización autoponderada: búsquedas de árboles y reconstrucciones de estados de caracteres bajo costos de transformación implícitos". Cladistics . 13 (3): 225–245. doi :10.1111/j.1096-0031.1997.tb00317.x. PMID 34911233. S2CID 196595734.
^ Arnold ML (1996). Hibridación natural y evolución . Nueva York: Oxford University Press. pág. 232. ISBN 978-0-19-509975-1.
^ Wendel JF, Doyle JJ (1998). "Secuenciación de ADN". En Soltis DE, Soltis PS , Doyle JJ (eds.). Sistemática Molecular de Plantas II . Boston: Kluwer. págs. 265–296. ISBN 978-0-19-535668-7.
^ Funk DJ, Omland KE (2003). "Parafilia y polifilia a nivel de especie: frecuencia, causas y consecuencias, con información obtenida del ADN mitocondrial animal". Revisión anual de ecología, evolución y sistemática . 34 : 397–423. doi :10.1146/annurev.ecolsys.34.011802.132421. S2CID 33951905.
^ "Genealogía de la vida (GoLife)". National Science Foundation . Consultado el 5 de mayo de 2015. El programa GoLife se basa en el programa AToL al dar cabida a la complejidad de los patrones de diversificación a lo largo de toda la historia de la vida. Nuestro conocimiento actual de procesos como la hibridación, la endosimbiosis y la transferencia lateral de genes deja claro que la historia evolutiva de la vida en la Tierra no se puede representar con precisión -para cada rama del árbol- como un árbol único, tipológico y bifurcado.
^ Kutschera VE, Bidon T, Hailer F, Rodi J, Fain SR, Janke A (2014). "Osos en un bosque de árboles genéticos: la inferencia filogenética se complica por la clasificación incompleta de linajes y el flujo genético". Biología molecular y evolución . 31 (8): 2004–2017. doi :10.1093/molbev/msu186. PMC 4104321 . PMID 24903145.
^ Qu Y, Zhang R, Quan Q, Song G, Li SH, Lei F (diciembre de 2012). "Clasificación de linaje incompleta o mezcla secundaria: desenredando la divergencia histórica del flujo genético reciente en el pico de loro de garganta vinosa (Paradoxornis webbianus)". Ecología molecular . 21 (24): 6117–33. Bibcode :2012MolEc..21.6117Q. doi :10.1111/mec.12080. PMID 23095021. S2CID 22635918.
^ Pollard DA, Iyer VN, Moses AM, Eisen MB (octubre de 2006). "Discordancia generalizada de los árboles genéticos con los árboles de especies en Drosophila: evidencia de una clasificación de linaje incompleta". PLOS Genetics . 2 (10): e173. doi : 10.1371/journal.pgen.0020173 . PMC 1626107 . PMID 17132051.
^ Zwickl DJ, Hillis DM (agosto de 2002). "El aumento del muestreo de taxones reduce en gran medida el error filogenético". Biología sistemática . 51 (4): 588–98. doi : 10.1080/10635150290102339 . PMID 12228001.
^ Wiens JJ (febrero de 2006). "Datos faltantes y diseño de análisis filogenéticos". Revista de informática biomédica . 39 (1): 34–42. doi : 10.1016/j.jbi.2005.04.001 . PMID 15922672.
^ Blomberg SP, Garland T, Ives AR (abril de 2003). "Prueba de señales filogenéticas en datos comparativos: los rasgos de comportamiento son más lábiles". Evolución; Revista internacional de evolución orgánica . 57 (4): 717–45. doi :10.1111/j.0014-3820.2003.tb00285.x. PMID 12778543. S2CID 221735844.
^ abc Archie JW (1985). "Métodos para codificar características morfológicas variables para el análisis taxonómico numérico". Zoología sistemática . 34 (3): 326–345. doi :10.2307/2413151. JSTOR 2413151.
^ Prevosti FJ, Chemisquy MA (2009). "El impacto de los datos faltantes en las filogenias morfológicas reales: Influencia del número y la distribución de las entradas faltantes". Cladistics . 26 (3): 326–339. doi :10.1111/j.1096-0031.2009.00289.x. hdl : 11336/69010 . PMID 34875786. S2CID 86850694.
^ Cobbett A, Wilkinson M, Wills MA (octubre de 2007). "Los fósiles impactan tan fuerte como los taxones vivos en los análisis de parsimonia de la morfología". Biología sistemática . 56 (5): 753–66. doi : 10.1080/10635150701627296 . PMID 17886145.

Lectura adicional

Semple C, Steel M (2003). Filogenética. Oxford University Press. ISBN 978-0-19-850942-4.
Cipra BA (2007). "Los geómetras algebraicos ven el enfoque ideal para la biología" (PDF) . SIAM News . 40 (6). Archivado desde el original (PDF) el 3 de marzo de 2016.
Press WH, Teukolsky SA, Vetterling WT, Flannery BP (2007). "Sección 16.4. Agrupamiento jerárquico mediante árboles filogenéticos". Recetas numéricas: el arte de la computación científica (3.ª ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-88068-8Archivado desde el original el 11 de agosto de 2011 . Consultado el 17 de agosto de 2011 .
Huson DH, Rupp R, Scornavacca C (2010). Redes filogenéticas: conceptos, algoritmos y aplicaciones. Cambridge University Press. ISBN 978-1-139-49287-4.

Enlaces externos

Medios relacionados con Filogenética computacional en Wikimedia Commons