Proceso coalescente de múltiples especies

El proceso coalescente multiespecie es un modelo de proceso estocástico que describe las relaciones genealógicas de una muestra de secuencias de ADN tomadas de varias especies. ^[1]^[2] Representa la aplicación de la teoría coalescente al caso de múltiples especies. El proceso coalescente multiespecie da como resultado casos en los que las relaciones entre especies para un gen individual (el árbol genético ) pueden diferir de la historia más amplia de la especie (el árbol de especies ). Tiene implicaciones importantes para la teoría y la práctica de la filogenética ^[3]^[4] y para comprender la evolución del genoma.

Un árbol genético es un gráfico binario que describe las relaciones evolutivas entre una muestra de secuencias para un locus no recombinante. Un árbol de especies describe las relaciones evolutivas entre un conjunto de especies, suponiendo una evolución similar a la de un árbol. Sin embargo, varios procesos pueden llevar a una discordancia entre árboles genéticos y árboles de especies . El modelo de coalescencia multiespecie proporciona un marco para inferir filogenias de especies al tiempo que tiene en cuenta el polimorfismo ancestral y el conflicto entre árboles genéticos y árboles de especies . El proceso también se denomina coalescencia censurada . ^[1]

Además de la estimación del árbol de especies, el modelo coalescente de múltiples especies también proporciona un marco para utilizar datos genómicos para abordar una serie de problemas biológicos, como la estimación de los tiempos de divergencia de las especies, los tamaños de población de las especies ancestrales, la delimitación de las especies y la inferencia del flujo genético entre especies. ^[5]^[6]

Congruencia árbol genético-árbol especie

Si consideramos un árbol de tres taxones enraizado, el árbol filogenético no trivial más simple, hay tres topologías de árboles diferentes ^[7] pero cuatro árboles genéticos posibles ^[8] . La existencia de cuatro árboles genéticos distintos a pesar del menor número de topologías refleja el hecho de que hay árboles genéticos topológicamente idénticos que difieren en sus tiempos de coalescencia. En el árbol de tipo 1, los alelos en las especies A y B se fusionan después del evento de especiación que separó el linaje AB del linaje C. En el árbol de tipo 2, los alelos en las especies A y B se fusionan antes del evento de especiación que separó el linaje AB del linaje C (en otras palabras, el árbol de tipo 2 es un árbol de coalescencia profunda ). Los árboles genéticos de tipo 1 y tipo 2 son congruentes con el árbol de especies. Los otros dos árboles genéticos difieren del árbol de especies; los dos árboles genéticos discordantes también son árboles de coalescencia profunda .

La distribución de los tiempos de coalescencia es en realidad continua para todos estos árboles. En otras palabras, el tiempo exacto de coalescencia para dos loci cualesquiera con el mismo árbol genético puede diferir. Sin embargo, es conveniente dividir los árboles en función de si la coalescencia se produjo antes o después del primer evento de especiación.

Dada la longitud de la rama interna en unidades coalescentes, es sencillo calcular la probabilidad de cada árbol genético. ^[9] Para los organismos diploides, la longitud de la rama en unidades coalescentes es el número de generaciones entre los eventos de especiación dividido por el doble del tamaño efectivo de la población. Dado que los tres árboles de coalescencia profunda son equiprobables y dos de esos árboles de coalescencia profunda son discordantes, es fácil ver que la probabilidad de que un árbol genético de tres taxones enraizado sea congruente con el árbol de especies es:

${\begin{aligned}P(congruencia)&=1-{\frac {2}{3}}\exp(-T)=1-{\frac {2}{3}}\exp(-{\frac {t}{2N_{e}}})\end{aligned}}$

Hemiplasia vs homoplasia verdadera — Ejemplos de árboles de especies con un árbol genético incorporado que muestra las diferencias entre la hemiplasia (que requiere diferencias entre el árbol genético y el árbol de especies) y la homoplasia verdadera (que puede ocurrir en un árbol genético que sea congruente con el árbol de especies o en un árbol genético que sea discordante con el árbol de especies). Usamos homoplasia verdadera *para* el ejemplo que muestra la homoplasia para enfatizar que tanto la hemiplasia como la homoplasia parecen homoplásicas dado el árbol de especies. Este ejemplo muestra los orígenes de algún rasgo en el árbol genético (azul). La presencia (+) o ausencia (-) del rasgo en cada especie se indica en la parte superior de la figura. Nótese que la homoplasia puede reflejar dos (o más) ganancias independientes (como se muestra aquí) y también puede reflejar un solo origen seguido de una pérdida (o múltiples pérdidas).

Donde la longitud de la rama en unidades coalescentes ( T ) también se escribe en una forma alternativa: el número de generaciones ( t ) dividido por el doble del tamaño efectivo de la población ( N _e ). Pamilo y Nei ^[9] también derivaron la probabilidad de congruencia para árboles enraizados de cuatro y cinco taxones, así como un límite superior general en la probabilidad de congruencia para árboles más grandes. Rosenberg ^[10] continuó con ecuaciones utilizadas para el conjunto completo de topologías (aunque la gran cantidad de árboles filogenéticos distintos que se vuelve posible a medida que aumenta el número de taxones ^[7] hace que estas ecuaciones sean poco prácticas a menos que el número de taxones sea muy limitado).

El fenómeno de la hemiplasia es una extensión natural de la idea básica que subyace a la discordancia entre el árbol genético y el árbol de especies. Si consideramos la distribución de algún carácter que no concuerda con el árbol de especies, podría reflejar homoplasia (múltiples orígenes independientes del carácter o un único origen seguido de múltiples pérdidas) o podría reflejar hemiplasia (un único origen del carácter que está asociado con un árbol genético que no concuerda con el árbol de especies).

El fenómeno llamado clasificación de linaje incompleta (a menudo abreviado ILS en la literatura científica ^[11] ) está vinculado al fenómeno. Si examinamos la ilustración de la hemiplasia con el uso de un árbol de cuatro taxones enraizados (ver imagen a la derecha), el linaje entre el ancestro común de los taxones A, B y C y el ancestro común de los taxones A y B debe ser polimórfico para el alelo con el rasgo derivado (por ejemplo, una inserción de elemento transponible ^[12] ) y el alelo con el rasgo ancestral. El concepto de clasificación de linaje incompleta en última instancia refleja la persistencia de polimorfismos a lo largo de uno o más eventos de especiación.

Descripción matemática del coalescente multiespecie

Se analiza la densidad de probabilidad de los árboles genéticos bajo el modelo coalescente de múltiples especies junto con su uso para la estimación de parámetros utilizando datos de secuencias de múltiples locus.

Suposiciones

En el modelo coalescente multiespecífico básico, se supone que se conoce la filogenia de las especies. También se supone que hay un aislamiento completo después de la divergencia de las especies, sin migración, hibridación ni introgresión. Suponemos que no hay recombinación, de modo que todos los sitios dentro del locus comparten el mismo árbol genético (topología y tiempos de coalescencia). Sin embargo, el modelo básico se puede ampliar de diferentes maneras para dar cabida a la migración o la introgresión, los cambios en el tamaño de la población y la recombinación. ^[13]^[14]

Parámetros de datos y modelos

El modelo y la implementación de este método se pueden aplicar a cualquier árbol de especies. Como ejemplo, se considera el árbol de especies de los grandes simios : humanos (H), chimpancés (C), gorilas (G) y orangutanes (O). La topología del árbol de especies, (((HC)G)O)), se supone conocida y fija en el análisis (Figura 1). ^[1] Sea el conjunto de datos completo, donde represente la alineación de secuencia en el locus , con para un total de loci. $D=\{D_{i}\}$ ${D_{i}}$ ${\estilo de visualización i}$ $i=1,2,\lpuntos ,L$ ${\estilo de visualización L}$

El tamaño de la población de una especie actual se considera sólo si se muestrea más de un individuo de esa especie en algunos loci.

Los parámetros del modelo para el ejemplo de la Figura 1 incluyen los tres tiempos de divergencia , y y los parámetros de tamaño de población para los humanos; para los chimpancés; y , y para las tres especies ancestrales. $\tau_{HC}$ $\tau_{HCG}$ $\tau_{HCGO}$ $\theta_{H}$ $Estilo de visualización: {\theta_{C}}$ $\theta_{HC}$ $Estilo de visualización: heta-HCG$ $\theta_{HCGO}$

Los tiempos de divergencia ( 's) se miden por el número esperado de mutaciones por sitio desde el nodo ancestral en el árbol de especies hasta el tiempo presente (Figura 1 de Rannala y Yang, 2003). ${\estilo de visualización \tau}$

Por lo tanto, los parámetros son . $\Theta =\{\theta _{H},\theta _{C},\theta _{HC},\theta _{HCG},\theta _{HCGO},\tau _{HC},\tau _{HCG},\tau _{HCGO}\}$

Distribución de genealogías genéticas

La distribución conjunta de se deriva directamente en esta sección. ^[1] Dos secuencias de diferentes especies pueden fusionarse solo en una población que es ancestral de las dos especies. Por ejemplo, las secuencias H y G pueden fusionarse en las poblaciones HCG o HCGO, pero no en las poblaciones H o HC. Los procesos de coalescencia en diferentes poblaciones son diferentes. $f(T_{i},t_{i}\mid \Theta )$

Para cada población, se rastrea la genealogía hacia atrás en el tiempo, hasta el final de la población en el momento , y se registra el número de linajes que ingresan a la población y el número de linajes que la abandonan . Por ejemplo, y , para la población H (Tabla 1). ^[1] Este proceso se denomina proceso de coalescencia censurada porque el proceso de coalescencia para una población puede terminar antes de que todos los linajes que ingresaron a la población se hayan fusionado. Si la población consta de subárboles o linajes desconectados. ${\estilo de visualización \tau}$ ${\estilo de visualización (m)}$ ${\estilo de visualización (n)}$ $m=3,n=2,$ $\tau =\tau _{HC}$ $n\geq 1$ $n$

Con una unidad de tiempo definida como el tiempo que se tarda en acumular una mutación por sitio, dos linajes cualesquiera se fusionan a una velocidad de . El tiempo de espera hasta el siguiente evento de coalescencia, que reduce el número de linajes de a tiene una densidad exponencial ${\frac {2}{\theta }}$ $t_{j}$ $j$ $j-1$

f(t_{j})={\frac {j(j-1)}{2}}{\frac {2}{\theta }}\exp\{-{\frac {j(j-1)}{2}}{\frac {2}{\theta }}t_{j}\},\quad j=m,m-1,\ldots ,n+1

Si , la probabilidad de que no ocurra ningún evento coalescente entre el último y el final de la población en el tiempo ; es decir, durante el intervalo de tiempo . Esta probabilidad es y es 1 si . $n\geq 1$ $\tau$ $\tau -(t_{m}+t_{m-1}+\ldots +t_{n+1})$ $\exp\{-{\frac {n(n-1)}{\theta }}[\tau -(t_{m}+t_{m-1}+\ldots +t_{n+1})]$ $n=1$

(Nota: Se debe recordar que la probabilidad de que no haya eventos en un intervalo de tiempo para un proceso de Poisson con tasa es . Aquí, la tasa de coalescencia cuando hay linajes es .) $t$ $\lambda$ $e^{-\lambda t}$ $n$ $\lambda ={\frac {n(n-1)}{\theta }}$

Además, para derivar la probabilidad de una topología particular de árbol genético en la población, si ocurre un evento coalescente en una muestra de linajes, la probabilidad de que un par particular de linajes se fusionen es . $j$ $1/{\binom {j}{2}}=2/j(j-1),\quad j=m,m-1,\ldots ,n+1$

Al multiplicar estas probabilidades entre sí, se obtiene la distribución de probabilidad conjunta de la topología del árbol genético en la población y sus tiempos de coalescencia como $t_{m},t_{m+1},\ldots ,t_{n+1}$

\prod _{j=n+1}^{m}{\Big [}{\frac {2}{\theta }}\exp {\Big \{}-{\frac {j(j-1)}{\theta }}t_{j}{\Big \}}{\Big ]}\exp {\Big \{}-{\frac {n(n-1)}{\theta }}(\tau -(t_{m}+t_{m+1}+\ldots +t_{n+1})){\Big \}}

La probabilidad del árbol genético y los tiempos de coalescencia para el locus es el producto de dichas probabilidades en todas las poblaciones. Por lo tanto, la genealogía genética de la Figura 1, ^[1]^[15] tenemos

${\begin{aligned}f(G_{i}\mid \Theta )&=[2/\theta _{H}\exp\{-6t_{3}^{(H)}/\theta _{H}\}\exp\{-2(\tau _{HC}-t_{3}^{(H)})/\theta _{H}\}]\\&{}\times [2/\theta _{C}\exp\{-2t_{2}^{(C)}/\theta _{C}\}]\\&{}\times [2/\theta _{HC}\exp\{-6t_{3}^{HC}/\theta _{HC}\}]\times [2/\theta _{HC}\exp\{-2t_{2}^{HC}/\theta _{HC}\}]\\&{}\times [\exp\{-2(\tau _{HCG}-\tau _{HG}-(t_{3}^{HC}+t_{2}^{HC}))/\theta _{HCG}\}]\\&{}\times [2/\theta _{HCGO}\exp\{-6t_{3}^{HCGO}/\theta _{HCGO}\}]\times [2/\theta _{HCGO}\exp\{-2t_{2}^{HCGO}/\theta _{HCGO}\}]\end{aligned}}$

Inferencia basada en probabilidad

La genealogía de los genes en cada locus está representada por la topología del árbol y los tiempos de coalescencia . Dado el árbol de especies y los parámetros que contiene, la distribución de probabilidad de se especifica mediante el proceso de coalescencia como $G_{i}$ $i$ $T_{i}$ $t_{i}$ $\Theta$ $G_{i}=\{T_{i},t_{i}\}$

f(G\mid \Theta )=\prod _{i}f(G_{i}\mid \Theta )=\prod _{i}f(T_{i},t_{i}\mid \Theta )

donde es la densidad de probabilidad para el árbol genético en el locus locus , ^[1] y el producto es porque asumimos que los árboles genéticos son independientes dados los parámetros. $f(G_{i}\mid \Theta )=f(T_{i},t_{i}\mid \Theta )$ $i$

La probabilidad de los datos dados el árbol genético y los tiempos de coalescencia (y por lo tanto las longitudes de las ramas) en el locus, es la probabilidad filogenética de Felsenstein. ^[16] Debido al supuesto de evolución independiente a través de los loci, $D_{i}$ $f(D_{i}\mid G_{i})$

f(D\mid G)=\prod _{i}f(D_{i}\mid G_{i})

La función de verosimilitud o la probabilidad de los datos de secuencia dados los parámetros es entonces un promedio sobre los árboles genéticos no observados. $\Theta$

f(D\mid \Theta )=\int f(D\mid G)f(G\mid \Theta )dG,

donde la integración representa la suma de todas las topologías posibles de árboles genéticos ( ) y, para cada topología posible en cada locus, la integración sobre los tiempos de coalescencia . ^[17] Esto es en general intratable excepto para árboles de especies muy pequeños. $T_{i}$ $t_{i}$

En la inferencia bayesiana , asignamos una anterior a los parámetros, y luego la posterior se da como $f(\Theta )$

f(\Theta \mid D)=\int f(\Theta ,G\mid D)dG,

donde nuevamente la integración representa la suma de todas las topologías de árboles genéticos posibles ( ) y la integración de los tiempos de coalescencia . En la práctica, esta integración de los árboles genéticos se logra mediante un algoritmo de Monte Carlo de cadena de Markov , que toma muestras de la distribución condicional conjunta de los parámetros y los árboles genéticos. $T_{i}$ $t_{i}$

f(\Theta ,G\mid D)\propto f(D\mid G)f(G\mid \Theta )f(\Theta ).

Lo anterior supone que el árbol de especies es fijo. En la estimación del árbol de especies, el árbol de especies ( ) también cambia, de modo que la distribución condicional conjunta (de la que se toman las muestras del MCMC) es $S$

f(S,\Theta ,G\mid D)\propto f(D\mid G)f(G\mid S,\Theta )f(\Theta )f(S),

¿Dónde está la prioridad sobre las especies de árboles? $f(S)$

Como una importante diferencia con respecto a los métodos de resumen en dos pasos, los métodos de verosimilitud total promedian los árboles genéticos. Esto significa que utilizan información sobre las longitudes de las ramas (tiempos de coalescencia) en los árboles genéticos y al mismo tiempo tienen en cuenta sus incertidumbres (debidas a la longitud limitada de la secuencia en las alineaciones). Esto también explica por qué los métodos de verosimilitud total son computacionalmente mucho más exigentes que los métodos de resumen en dos pasos.

Cadena de Markov Monte Carlo bajo la coalescencia multiespecie

La integración o suma sobre los árboles genéticos en la definición de la función de verosimilitud anterior es virtualmente imposible de calcular excepto para árboles de especies muy pequeños con solo dos o tres especies. ^[18] Los métodos de verosimilitud total o de datos completos, basados en el cálculo de la función de verosimilitud en alineaciones de secuencias, se han basado principalmente en algoritmos de Monte Carlo de cadena de Markov. Los algoritmos MCMC bajo el modelo coalescente de múltiples especies son similares a los utilizados en la filogenética bayesiana, pero son claramente más complejos, principalmente debido al hecho de que los árboles genéticos en múltiples loci y el árbol de especies tienen que ser compatibles: la divergencia de secuencias tiene que ser más antigua que la divergencia de especies. Como resultado, cambiar el árbol de especies mientras los árboles genéticos están fijos (o cambiar un árbol genético mientras el árbol de especies está fijo) conduce a algoritmos ineficientes con malas propiedades de mezcla. Se han realizado esfuerzos considerables para diseñar algoritmos inteligentes que cambien el árbol de especies y los árboles genéticos de manera coordinada, como en el algoritmo de banda elástica para cambiar los tiempos de divergencia de las especies, ^[1] los movimientos coordinados NNI, SPR y NodeSlider. ^[19]^[20]

Consideremos por ejemplo el caso de dos especies ( A y B ) y dos secuencias en cada locus, con un tiempo de divergencia de secuencia en el locus . Tenemos para todos los . Cuando queremos cambiar el tiempo de divergencia de especies dentro de la restricción del actual , podemos tener muy poco margen para el cambio, ya que puede ser virtualmente idéntico al más pequeño de los . El algoritmo de banda elástica ^[1] cambia sin tener en cuenta el , y luego modifica el de manera determinista de la misma manera que las marcas en una banda elástica se mueven cuando la banda elástica se sostiene desde un punto fijo tirando hacia un extremo. En general, el movimiento de banda elástica garantiza que las edades de los nodos en los árboles genéticos se modifiquen de modo que permanezcan compatibles con el tiempo de divergencia de especies modificado. $t_{i}$ $i$ $t_{i}<\tau$ $i$ $\tau$ $t_{i}$ $\tau$ $t_{i}$ $\tau$ $t_{i}$ $t_{i}$

Los métodos de verosimilitud total tienden a llegar a su límite cuando los datos consisten en unos pocos cientos de loci, aunque se han analizado más de 10.000 loci en algunos estudios publicados. ^[21]^[22]

Extensiones

El modelo coalescente multiespecie básico se puede ampliar de varias maneras para dar cabida a los principales factores del proceso biológico de reproducción y deriva. ^[13]^[14] Por ejemplo, la incorporación de la migración en tiempo continuo conduce al modelo MSC+M (para MSC con migración), también conocido como modelos de aislamiento con migración o IM. ^[23]^[24] La incorporación de hibridación/introgresión episódica conduce al modelo MSC con introgresión (MSci) ^[25] o al modelo de red coalescente multiespecie (MSNC). ^[26]^[27]

Impacto en la estimación filogenética

La coalescencia multiespecie tiene profundas implicaciones para la teoría y la práctica de la filogenética molecular. ^[3]^[4] Dado que los árboles genéticos individuales pueden diferir del árbol de especies, no se puede estimar el árbol para un solo locus y asumir que el árbol genético corresponde al árbol de especies. De hecho, se puede estar virtualmente seguro de que cualquier árbol genético individual diferirá del árbol de especies al menos para algunas relaciones cuando se considera cualquier número razonable de taxones. Sin embargo, la discordancia entre árboles genéticos y árboles de especies tiene un impacto en la teoría y la práctica de la estimación de árboles de especies que va más allá de la simple observación de que no se puede usar un solo árbol genético para estimar el árbol de especies porque hay una parte del espacio de parámetros donde el árbol genético más frecuente es incongruente con el árbol de especies. Esta parte del espacio de parámetros se llama zona de anomalías ^[28] y cualquier árbol genético discordante que se espera que surja con más frecuencia que el árbol genético que coincide con el árbol de especies se llama árbol genético anómalo .

La existencia de la zona de anomalías implica que no se puede simplemente estimar una gran cantidad de árboles genéticos y asumir que el árbol genético recuperado la mayor cantidad de veces es el árbol de especies. Por supuesto, estimar el árbol de especies mediante un "voto democrático" de árboles genéticos solo funcionaría para una cantidad limitada de taxones fuera de la zona de anomalías dada la cantidad extremadamente grande de árboles filogenéticos que son posibles. ^[7] Sin embargo, la existencia de árboles genéticos anómalos también significa que los métodos simples para combinar árboles genéticos, como el método de consenso extendido ("codicioso") de regla de mayoría o el enfoque de superárbol de representación matricial con parsimonia (MRP) ^[29]^[30] , no serán estimadores consistentes del árbol de especies ^[31]^[32] (es decir, serán engañosos). Simplemente generar el árbol de consenso de regla de mayoría para los árboles genéticos, donde se retienen los grupos que están presentes en al menos el 50% de los árboles genéticos, no será engañoso siempre que se use una cantidad suficiente de árboles genéticos. ^[31] Sin embargo, esta capacidad del árbol de consenso de regla de mayoría para un conjunto de árboles genéticos para evitar clados incorrectos tiene el costo de tener grupos sin resolver.

Las simulaciones han demostrado que hay partes del espacio de parámetros del árbol de especies donde las estimaciones de máxima verosimilitud de la filogenia son árboles incorrectos con una probabilidad creciente a medida que aumenta la cantidad de datos analizados. ^[33] Esto es importante porque el "enfoque de concatenación", donde se concatenan múltiples alineaciones de secuencias de diferentes loci para formar una única alineación de supermatriz grande que luego se utiliza para el análisis de máxima verosimilitud (o MCMC bayesiano ), es fácil de implementar y se utiliza comúnmente en estudios empíricos. Esto representa un caso de especificación incorrecta del modelo porque el enfoque de concatenación supone implícitamente que todos los árboles genéticos tienen la misma topología. ^[34] De hecho, ahora se ha demostrado que no se garantiza que los análisis de datos generados bajo la coalescencia de múltiples especies utilizando el análisis de máxima verosimilitud de datos concatenados converjan en el verdadero árbol de especies a medida que aumenta el número de loci utilizados para el análisis ^[35]^[36]^[37] (es decir, la concatenación de máxima verosimilitud es estadísticamente inconsistente).

Software para inferencia bajo la coalescencia multiespecie

Hay dos enfoques básicos para la estimación filogenética en el marco coalescente de múltiples especies: 1) métodos de verosimilitud total o de datos completos que operan sobre alineaciones de secuencias de múltiples loci directamente, incluidos los métodos de máxima verosimilitud y bayesianos, y 2) métodos de resumen, que utilizan un resumen de los datos de la secuencia original, incluidos los métodos de dos pasos que utilizan árboles genéticos estimados como entrada de resumen y SVDQuartets, que utilizan recuentos de patrones de sitios agrupados sobre loci como entrada de resumen.

Referencias

^ abcdefghi Rannala B, Yang Z (agosto de 2003). "Estimación bayesiana de los tiempos de divergencia de las especies y los tamaños de las poblaciones ancestrales utilizando secuencias de ADN de múltiples loci". Genética . 164 (4): 1645–56. doi :10.1093/genetics/164.4.1645. PMC 1462670 . PMID 12930768.
^ Degnan JH, Rosenberg NA (junio de 2009). "Discordancia en árboles genéticos, inferencia filogenética y coalescencia multiespecífica". Tendencias en ecología y evolución . 24 (6): 332–40. doi :10.1016/j.tree.2009.01.009. PMID 19307040.
^ ab Maddison WP (1997-09-01). "Árboles genéticos en árboles de especies". Biología sistemática . 46 (3): 523–536. doi : 10.1093/sysbio/46.3.523 . ISSN 1063-5157.
^ ab Edwards SV (enero de 2009). "¿Está surgiendo una nueva y general teoría de la sistemática molecular?". Evolución; Revista internacional de evolución orgánica . 63 (1): 1–19. doi : 10.1111/j.1558-5646.2008.00549.x . PMID 19146594.
^ Yang, Ziheng (15 de mayo de 2014), "Simulación de la evolución molecular", Evolución molecular , Oxford University Press, págs. 418–441, doi :10.1093/acprof:oso/9780199602605.003.0012, ISBN 978-0-19-960260-5
^ Bruce Rannala, Scott V. Edwards, Adam Leaché y Ziheng Yang (2020). El modelo coalescente multiespecie y la inferencia del árbol de especies. En Scornavacca, C., Delsuc, F. y Galtier, N., editores, Phylogenetics in the Genomic Era, capítulo n.° 3.3, págs. 3.3:1–3.3:21. Sin editorial comercial | Libro de acceso abierto de los autores.
^ abc Felsenstein J (marzo de 1978). "El número de árboles evolutivos". Zoología sistemática . 27 (1): 27–33. doi :10.2307/2412810. JSTOR 2412810.
^ Hobolth A, Christensen OF, Mailund T, Schierup MH (febrero de 2007). "Relaciones genómicas y tiempos de especiación de humanos, chimpancés y gorilas inferidos a partir de un modelo oculto de Markov coalescente". PLOS Genetics . 3 (2): e7. doi : 10.1371/journal.pgen.0030007 . PMC 1802818 . PMID 17319744.
^ ab Pamilo P, Nei M (septiembre de 1988). "Relaciones entre árboles genéticos y árboles de especies". Biología molecular y evolución . 5 (5): 568–83. doi : 10.1093/oxfordjournals.molbev.a040517 . PMID 3193878.
^ Rosenberg NA (marzo de 2002). "La probabilidad de concordancia topológica de árboles genéticos y árboles de especies". Biología de poblaciones teórica . 61 (2): 225–47. doi :10.1006/tpbi.2001.1568. PMID 11969392.
^ Jarvis ED, Mirarab S, Aberer AJ, Li B, Houde P, Li C, et al. (diciembre de 2014). "Los análisis de todo el genoma resuelven las ramas tempranas en el árbol de la vida de las aves modernas". Science . 346 (6215): 1320–31. Bibcode :2014Sci...346.1320J. doi :10.1126/science.1253451. PMC 4405904 . PMID 25504713.
^ Suh A, Smeds L, Ellegren H (agosto de 2015). Penny D (ed.). "La dinámica de la clasificación de linaje incompleto a lo largo de la radiación adaptativa antigua de las aves neoavianas". PLOS Biology . 13 (8): e1002224. doi : 10.1371/journal.pbio.1002224 . PMC 4540587 . PMID 26284513.
^ ab "Modelado de hibridación bajo la red coalescente multiespecie".
^ ab "El modelo coalescente de múltiples especies y la inferencia del árbol de especies". Filogenética en la era genómica . Sin editorial comercial | Libro de acceso abierto de los autores. 2020.Autores del libro de acceso abierto.
^ Yang Z (2014). Evolución molecular: un enfoque estadístico (Primera edición). Oxford: Oxford University Press. pp. Capítulo 9. ISBN 9780199602605.OCLC 869346345 .
^ Felsenstein J (1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Journal of Molecular Evolution . 17 (6): 368–76. Bibcode :1981JMolE..17..368F. doi :10.1007/BF01734359. PMID 7288891. S2CID 8024924.
^ Xu B, Yang Z (diciembre de 2016). "Desafíos en la estimación de árboles de especies bajo el modelo coalescente multiespecie". Genética . 204 (4): 1353–1368. doi :10.1534/genetics.116.190173. PMC 5161269 . PMID 27927902.
^ Yang, Ziheng (1 de diciembre de 2002). "Estimación de Bayes y de probabilidad de tamaños de poblaciones ancestrales en hominoides utilizando datos de múltiples loci". Genética . 162 (4): 1811–1823. doi :10.1093/genetics/162.4.1811. ISSN 0016-6731. PMC 1462394 . PMID 12524351.
^ Yang, Z.; Rannala, B. (1 de diciembre de 2014). "Delimitación de especies no guiada utilizando datos de secuencias de ADN de múltiples loci". Biología molecular y evolución . 31 (12): 3125–3135. doi :10.1093/molbev/msu279. ISSN 0737-4038. PMC 4245825 . PMID 25274273.
^ Rannala, Bruce; Yang, Ziheng (4 de enero de 2017). "Inferencia de árboles de especies bayesianos eficientes bajo el coalescente multiespecie". Biología sistemática . 66 (5): 823–842. doi : 10.1093/sysbio/syw119 . ISSN 1063-5157. PMC 8562347 . PMID 28053140.
^ Shi, Cheng-Min; Yang, Ziheng (1 de enero de 2018). "Los análisis basados en coalescencia de datos de secuencias genómicas proporcionan una resolución robusta de las relaciones filogenéticas entre los principales grupos de gibones". Biología molecular y evolución . 35 (1): 159–179. doi :10.1093/molbev/msx277. ISSN 0737-4038. PMC 5850733 . PMID 29087487.
^ Thawornwattana, Yuttapong; Dalquen, Daniel; Yang, Ziheng (1 de octubre de 2018). Tamura, Koichiro (ed.). "El análisis coalescente de datos filogenómicos resuelve con seguridad las relaciones entre especies en el complejo de especies Anopheles gambiae". Biología molecular y evolución . 35 (10): 2512–2527. doi :10.1093/molbev/msy158. ISSN 0737-4038. PMC 6188554 . PMID 30102363.
^ Hey, Jody (abril de 2010). "Aislamiento con modelos de migración para más de dos poblaciones". Biología molecular y evolución . 27 (4): 905–920. doi :10.1093/molbev/msp296. ISSN 1537-1719. PMC 2877539 . PMID 19955477.
^ Zhu, T.; Yang, Z. (1 de octubre de 2012). "Implementación de máxima verosimilitud de un modelo de aislamiento con migración con tres especies para probar la especiación con flujo genético". Biología molecular y evolución . 29 (10): 3131–3142. doi : 10.1093/molbev/mss118 . ISSN 0737-4038. PMID 22504520.
^ Flouri, Tomáš; Jiao, Xiyun; Rannala, Bruce; Yang, Ziheng (1 de abril de 2020). Rosenberg, Michael (ed.). "Una implementación bayesiana del modelo coalescente multiespecie con introgresión para el análisis filogenómico". Biología molecular y evolución . 37 (4): 1211–1223. doi :10.1093/molbev/msz296. ISSN 0737-4038. PMC 7086182 . PMID 31825513.
^ Wen, Dingqiao; Nakhleh, Luay (1 de mayo de 2018). Kubatko, Laura (ed.). "Coestimación de filogenias reticuladas y árboles genéticos a partir de datos de secuencias de múltiples loci". Biología sistemática . 67 (3): 439–457. doi : 10.1093/sysbio/syx085 . ISSN 1063-5157. PMID 29088409.
^ Zhang, Chi; Ogilvie, Huw A; Drummond, Alexei J; Stadler, Tanja (1 de febrero de 2018). "Inferencia bayesiana de redes de especies a partir de datos de secuencias de múltiples loci". Biología molecular y evolución . 35 (2): 504–517. doi :10.1093/molbev/msx307. ISSN 0737-4038. PMC 5850812 . PMID 29220490.
^ Degnan JH, Rosenberg NA (mayo de 2006). Wakeley J (ed.). "Discordancia de los árboles de especies con sus árboles genéticos más probables". PLOS Genetics . 2 (5): e68. doi : 10.1371/journal.pgen.0020068 . PMC 1464820 . PMID 16733550.
^ Baum BR (febrero de 1992). "Combinación de árboles como forma de combinar conjuntos de datos para la inferencia filogenética y la conveniencia de combinar árboles genéticos". Taxon . 41 (1): 3–10. doi :10.2307/1222480. ISSN 0040-0262. JSTOR 1222480.
^ Ragan MA (marzo de 1992). "Inferencia filogenética basada en la representación matricial de árboles". Filogenética molecular y evolución . 1 (1): 53–58. doi :10.1016/1055-7903(92)90035-F. PMID 1342924.
^ ab Degnan JH, DeGiorgio M, Bryant D, Rosenberg NA (febrero de 2009). "Propiedades de los métodos de consenso para inferir árboles de especies a partir de árboles genéticos". Biología sistemática . 58 (1): 35–54. doi :10.1093/sysbio/syp008. PMC 2909780 . PMID 20525567.
^ Wang Y, Degnan JH (2011-05-02). "Rendimiento de la representación matricial con parsimonia para inferir especies a partir de árboles genéticos". Aplicaciones estadísticas en genética y biología molecular . 10 (1). doi :10.2202/1544-6115.1611. S2CID 199663909.
^ Kubatko LS, Degnan JH (febrero de 2007). Collins T (ed.). "Inconsistencia de las estimaciones filogenéticas a partir de datos concatenados en condiciones de coalescencia". Biología sistemática . 56 (1): 17–24. doi : 10.1080/10635150601146041 . PMID 17366134.
^ Warnow T (mayo de 2015). "Análisis de concatenación en presencia de ordenamiento de linaje incompleto". PLOS Currents . 7 . doi : 10.1371/currents.tol.8d41ac0f13d1abedf4c4a59f5d17b1f7 . PMC 4450984 . PMID 26064786.
^ Roch S, Steel M (marzo de 2015). "La reconstrucción de árboles basada en la verosimilitud en una concatenación de conjuntos de datos de secuencias alineadas puede ser estadísticamente inconsistente". Biología de poblaciones teórica . 100C : 56–62. arXiv : 1409.2051 . doi :10.1016/j.tpb.2014.12.005. PMID 25545843.
^ Mendes FK, Hahn MW (enero de 2018). "Por qué falla la concatenación cerca de la zona de anomalía". Biología sistemática . 67 (1): 158–169. doi : 10.1093/sysbio/syx063 . PMID 28973673.
^ Roch S, Nute M, Warnow T (marzo de 2019). Kubatko L (ed.). "Atracción de ramas largas en la estimación de árboles de especies: inconsistencia de los métodos de resumen basados en topología y verosimilitud particionada". Biología sistemática . 68 (2): 281–297. arXiv : 1803.02800 . doi :10.1093/sysbio/syy061. PMID 30247732.
^ Sayyari E, Mirarab S (julio de 2016). "Cálculo rápido basado en coalescencia del soporte de ramificación local a partir de frecuencias de cuarteto". Biología molecular y evolución . 33 (7): 1654–68. doi :10.1093/molbev/msw079. PMC 4915361 . PMID 27189547.
^ Mirarab S, Reaz R, Bayzid MS, Zimmermann T, Swenson MS, Warnow T (septiembre de 2014). "ASTRAL: estimación de árboles de especies a escala del genoma basada en coalescencia". Bioinformática . 30 (17): i541-8. doi :10.1093/bioinformatics/btu462. PMC 4147915 . PMID 25161245.
^ Zhang C, Rabiee M, Sayyari E, Mirarab S (mayo de 2018). "ASTRAL-III: reconstrucción de árboles de especies en tiempo polinomial a partir de árboles genéticos parcialmente resueltos". BMC Bioinformatics . 19 (Supl 6): 153. doi : 10.1186/s12859-018-2129-y . PMC 5998893 . PMID 29745866.
^ Liu, Liang; Yu, Lili (1 de octubre de 2011). "Estimación de árboles de especies a partir de árboles genéticos sin raíz". Biología sistemática . 60 (5): 661–667. doi : 10.1093/sysbio/syr027 . ISSN 1076-836X. PMID 21447481.
^ Rhodes JA, Nute MG, Warnow T. (enero de 2020). "NJst y ASTRID no son estadísticamente consistentes bajo un modelo aleatorio de datos faltantes". arXiv:2001.07844 https://arxiv.org/abs/2001.07844
^ Vachaspati, Pranjal; Warnow, Tandy (diciembre de 2015). "ASTRID: árboles de especies precisos a partir de distancias entre nudos". BMC Genomics . 16 (S10): S3. doi : 10.1186/1471-2164-16-S10-S3 . ISSN 1471-2164. PMC 4602181 . PMID 26449326.
^ Yang Z (1 de octubre de 2015). "El programa BPP para la estimación de árboles de especies y la delimitación de especies". Zoología actual . 61 (5): 854–865. doi : 10.1093/czoolo/61.5.854 . ISSN 2396-9814.
^ Flouri T, Jiao X, Rannala B, Yang Z (octubre de 2018). Yoder AD (ed.). "Inferencia de árboles de especies con BPP usando secuencias genómicas y el coalescente multiespecie". Biología molecular y evolución . 35 (10): 2585–2593. doi :10.1093/molbev/msy147. PMC 6188564 . PMID 30053098.
^ Jones GR, Aydin Z, Oxelman B (1 de octubre de 2015). "TDISSECT: un método de descubrimiento bayesiano sin asignación para la delimitación de especies bajo el coalescente multiespecie". Bioinformática . 31 (7): 991–998. doi : 10.1093/bioinformatics/btu770 . PMID 25422051.
^ Jones G (10 de junio de 2016). Oxelman B (ed.). "Mejoras algorítmicas en la delimitación de especies y estimación de filogenia bajo el modelo de coalescencia multiespecífica". Journal of Mathematical Biology . 74 (1–2): 447–467. doi :10.1007/s00285-016-1034-0. PMID 27287395. S2CID 13308130.
^ Heled, J.; Drummond, AJ (1 de marzo de 2010). "Inferencia bayesiana de árboles de especies a partir de datos de múltiples loci". Biología molecular y evolución . 27 (3): 570–580. doi :10.1093/molbev/msp274. ISSN 0737-4038. PMC 2822290 . PMID 19906793.
^ Liu L, Yu L, Edwards SV (octubre de 2010). "Un enfoque de máxima pseudoverosimilitud para estimar árboles de especies bajo el modelo coalescente". BMC Evolutionary Biology . 10 (1): 302. Bibcode :2010BMCEE..10..302L. doi : 10.1186/1471-2148-10-302 . PMC 2976751 . PMID 20937096.
^ Chifman J, Kubatko L (diciembre de 2014). "Inferencia de cuarteto a partir de datos de SNP bajo el modelo coalescente". Bioinformática . 30 (23): 3317–24. doi :10.1093/bioinformatics/btu530. PMC 4296144 . PMID 25104814.