Modelos de evolución del ADN

Se han propuesto varios modelos de Markov diferentes para la evolución de secuencias de ADN . ^[1] Estos modelos de sustitución difieren en términos de los parámetros utilizados para describir las tasas a las que un nucleótido reemplaza a otro durante la evolución. Estos modelos se utilizan con frecuencia en análisis filogenéticos moleculares . En particular, se utilizan durante el cálculo de la probabilidad de un árbol (en enfoques bayesianos y de máxima probabilidad para la estimación de árboles) y se utilizan para estimar la distancia evolutiva entre secuencias a partir de las diferencias observadas entre las secuencias.

Introducción

Estos modelos son descripciones fenomenológicas de la evolución del ADN como una cadena de cuatro estados discretos. Estos modelos de Markov no describen explícitamente el mecanismo de mutación ni la acción de la selección natural. Más bien, describen las tasas relativas de diferentes cambios. Por ejemplo, los sesgos mutacionales y la selección purificadora que favorece los cambios conservadores son probablemente responsables de la tasa relativamente alta de transiciones en comparación con las transversiones en las secuencias en evolución. Sin embargo, el modelo de Kimura (K80) descrito a continuación solo intenta capturar el efecto de ambas fuerzas en un parámetro que refleja la tasa relativa de transiciones a transversiones.

Los análisis evolutivos de secuencias se llevan a cabo en una amplia variedad de escalas de tiempo. Por lo tanto, es conveniente expresar estos modelos en términos de las tasas instantáneas de cambio entre diferentes estados (las matrices Q que se muestran a continuación). Si se nos da un estado inicial (ancestral) en una posición, la matriz Q del modelo y una longitud de rama que expresa el número esperado de cambios que se han producido desde el ancestro, entonces podemos derivar la probabilidad de que la secuencia descendiente tenga cada uno de los cuatro estados. Los detalles matemáticos de esta transformación de la matriz de tasas a la matriz de probabilidad se describen en la sección de matemáticas de los modelos de sustitución de la página de modelos de sustitución . Al expresar los modelos en términos de las tasas instantáneas de cambio, podemos evitar la estimación de una gran cantidad de parámetros para cada rama de un árbol filogenético (o cada comparación si el análisis implica muchas comparaciones de secuencias por pares).

Los modelos descritos en esta página describen la evolución de un único sitio dentro de un conjunto de secuencias. A menudo se utilizan para analizar la evolución de un locus entero , haciendo la suposición simplificadora de que los diferentes sitios evolucionan de forma independiente y están distribuidos de forma idéntica . Esta suposición puede justificarse si se puede suponer que los sitios evolucionan de forma neutral . Si el efecto principal de la selección natural en la evolución de las secuencias es restringir algunos sitios, entonces se pueden utilizar modelos de heterogeneidad de tasas entre sitios. Este enfoque permite estimar solo una matriz de tasas relativas de sustitución y otro conjunto de parámetros que describen la varianza en la tasa total de sustitución entre sitios.

La evolución del ADN como una cadena de Markov de tiempo continuo

Cadenas de Markov de tiempo continuo

Las cadenas de Markov de tiempo continuo tienen las matrices de transición habituales que, además, están parametrizadas por el tiempo, . En concreto, si son los estados, entonces la matriz de transición ${\estilo de visualización t}$ ${\ Displaystyle E_ {1}, E_ {2}, E_ {3}, E_ {4}}$

P(t)={\big (}P_{ij}(t){\big )}

donde cada entrada individual, se refiere a la probabilidad de que el estado cambie al estado en el tiempo .

Estilo de visualización P_{ij}(t)}

Estilo de visualización E_{i}}

Estilo de visualización E_ {j}}

{\estilo de visualización t}

Ejemplo: Nos gustaría modelar el proceso de sustitución en secuencias de ADN ( es decir , Jukes–Cantor , Kimura, etc. ) de manera continua en el tiempo. Las matrices de transición correspondientes se verán así:

P(t)={\begin{pmatrix}p_{\mathrm {AA} }(t)&p_{\mathrm {AG} }(t)&p_{\mathrm {AC} }(t)&p_{\mathrm {AT} }(t)\\p_{\mathrm {GA} }(t)&p_{\mathrm {GG} }(t)&p_{\mathrm {GC} }(t)&p_{\mathrm {GT} }(t)\\p_{\mathrm {CA} }(t)&p_{\mathrm {CG} }(t)&p_{\mathrm {CC} }(t)&p_{\mathrm {CT} }(t)\\p_{\mathrm {TA} }(t)&p_{\mathrm {TG} }(t)&p_{\mathrm {TC} }(t)&p_{\mathrm {TT} }(t)\end{pmatrix}}

donde los bloques 2 × 2 superior izquierdo e inferior derecho corresponden a las probabilidades de transición y los bloques 2 × 2 superior derecho e inferior izquierdo corresponden a las probabilidades de transversión .

Supuesto: si en algún momento , la cadena de Markov está en el estado , entonces la probabilidad de que en el momento , esté en el estado depende únicamente de , y . Esto nos permite escribir esa probabilidad como . ${\estilo de visualización t_{0}}$ $Estilo de visualización E_{i}}$ $estilo de visualización t_{0}+t}$ $Estilo de visualización E_ {j}}$ ${\estilo de visualización i}$ ${\estilo de visualización j}$ ${\estilo de visualización t}$ $estilo de visualización p_{ij}(t)}$

Teorema: Las matrices de transición de tiempo continuo satisfacen:

P(t+\tau)=P(t)P(\tau)

Nota: Aquí hay una posible confusión entre dos significados de la palabra transición . (i) En el contexto de las cadenas de Markov , transición es el término general para el cambio entre dos estados. (ii) En el contexto de los cambios de nucleótidos en las secuencias de ADN , transición es un término específico para el intercambio entre las dos purinas (A ↔ G) o las dos pirimidinas (C ↔ T) (para más detalles, consulte el artículo sobre transiciones en genética ). Por el contrario, un intercambio entre una purina y una pirimidina se denomina transversión .

Derivación de la dinámica de la sustitución

Consideremos una secuencia de ADN de longitud fija m que evoluciona en el tiempo mediante reemplazo de bases. Supongamos que los procesos seguidos por los sitios m son independientes de Markov, se distribuyen de manera idéntica y que el proceso es constante en el tiempo. Para un sitio en particular, sea

{\mathcal {E}}=\{A,\,G,\,C,\,T\}

sea el conjunto de estados posibles para el sitio, y

\mathbf {p}(t)=(p_{A}(t),\,p_{G}(t),\,p_{C}(t),\,p_{T}(t))

sus respectivas probabilidades en el momento . Para dos , sea la tasa de transición de un estado a otro . De manera similar, para cualquier , sea la tasa total de cambio de ${\estilo de visualización t}$ $x,y\in {\mathcal {E}}$ $\mu_{xy}\$ ${\estilo de visualización x}$ ${\estilo de visualización y}$ ${\estilo de visualización x}$ ${\estilo de visualización x}$

\mu _{x}=\sum _{y\neq x}\mu _{xy}\,.

Los cambios en la distribución de probabilidad para pequeños incrementos de tiempo se dan por $estilo de visualización p_{A}(t)}$ $\Delta t$

p_{A}(t+\Delta t)=p_{A}(t)-p_{A}(t)\mu_{A}\Delta t+\sum_{x\neq A}p_{x}(t)\mu_{xA}\Delta t\,.

En otras palabras, (en lenguaje frecuentista), la frecuencia de 's en el tiempo es igual a la frecuencia en el tiempo menos la frecuencia de los 's perdidos más la frecuencia de los 's recién creados . ${\estilo de visualización A}$ $t+\Delta t$ ${\estilo de visualización t}$ ${\estilo de visualización A}$ ${\estilo de visualización A}$

De manera similar, las probabilidades , y . Estas ecuaciones se pueden escribir de forma compacta como $estilo de visualización p_{G}(t)}$ $estilo de visualización p_{C}(t)}$ $estilo de visualización p_{T}(t)}$

\mathbf {p} (t+\Delta t)=\mathbf {p} (t)+\mathbf {p} (t)Q\Delta t\,,

dónde

Q={\begin{pmatrix}-\mu _{A}&\mu _{AG}&\mu _{AC}&\mu _{AT}\\\mu _{GA}&-\ mu _{G}&\mu _{GC}&\mu _{GT}\\\mu _{CA}&\mu _{CG}&-\mu _{C}&\mu _{CT}\ \\mu _{TA}&\mu _{TG}&\mu _{TC}&-\mu _{T}\end{pmatrix}}

se conoce como la matriz de tasas . Nótese que, por definición, la suma de las entradas en cada fila de es igual a cero. De ello se deduce que ${\estilo de visualización Q}$

\mathbf {p} '(t)=\mathbf {p} (t)Q\,.

Para un proceso estacionario , donde no depende del tiempo t , se puede resolver esta ecuación diferencial. Primero, ${\estilo de visualización Q}$

P(t)=\exp(tQ),

donde denota el exponente de la matriz . Como resultado, $\exp(tQ)$ ${\estilo de visualización tQ}$

\mathbf {p} (t)=\mathbf {p} (0)P(t)=\mathbf {p} (0)\exp(tQ)\,.

Ergodicidad

Si la cadena de Markov es irreducible , es decir , si siempre es posible pasar de un estado a otro (posiblemente en varios pasos), entonces también es ergódica . Como resultado, tiene una distribución estacionaria única , donde corresponde a la proporción de tiempo transcurrido en el estado después de que la cadena de Markov haya funcionado durante una cantidad infinita de tiempo. En la evolución del ADN, bajo el supuesto de un proceso común para cada sitio, las frecuencias estacionarias corresponden a composiciones de bases en equilibrio. De hecho, observe que dado que la distribución estacionaria satisface , vemos que cuando la distribución actual es la distribución estacionaria tenemos ${\estilo de visualización x}$ ${\estilo de visualización y}$ ${\boldsymbol {\pi }}=\{\pi _{x},\,x\in {\mathcal {E}}\}$ $\pi _{x}$ $x$ $\pi _{A},\,\pi _{G},\,\pi _{C},\,\pi _{T}$ ${\boldsymbol {\pi }}$ ${\boldsymbol {\pi }}Q=0$ $\mathbf {p} (t)$ ${\boldsymbol {\pi }}$

{\mathbf {p} '(t)=\mathbf {p} (t)Q={\boldsymbol {\pi }}}Q=0\,.

En otras palabras, las frecuencias de no cambian. $p_{A}(t),\,p_{G}(t),\,p_{C}(t),\,p_{T}(t)$

Reversibilidad del tiempo

Definición : Un proceso de Markov estacionario es reversible en el tiempo si (en estado estable) la cantidad de cambio del estado a es igual a la cantidad de cambio de a (aunque los dos estados pueden ocurrir con diferentes frecuencias). Esto significa que: $x\$ $y\$ $y\$ $x\$

\pi _{x}\mu _{xy}=\pi _{y}\mu _{yx}\

No todos los procesos estacionarios son reversibles, sin embargo, la mayoría de los modelos de evolución del ADN comúnmente utilizados suponen reversibilidad en el tiempo, lo que se considera una suposición razonable.

Bajo el supuesto de reversibilidad temporal, sea , entonces es fácil ver que: $s_{xy}=\mu _{xy}/\pi _{y}\$

s_{xy}=s_{yx}\

Definición El término simétrico se denomina intercambiabilidad entre estados y . En otras palabras, es la fracción de la frecuencia de estado que es el resultado de las transiciones de estado a estado . $s_{xy}\$ $x\$ $y\$ $s_{xy}\$ $x\$ $y\$ $x\$

Corolario Las 12 entradas fuera de la diagonal de la matriz de tasas (nótese que las entradas fuera de la diagonal determinan las entradas diagonales, ya que las filas de suman cero) pueden determinarse completamente mediante 9 números; estos son: 6 términos de intercambiabilidad y 3 frecuencias estacionarias (ya que las frecuencias estacionarias suman 1). $Q\$ $Q\$ $\pi _{x}\$

Escalado de longitudes de ramas

Al comparar las secuencias existentes, se puede determinar la cantidad de divergencia de la secuencia. Esta medición en bruto de la divergencia proporciona información sobre el número de cambios que han ocurrido a lo largo del camino que separa las secuencias. El simple recuento de diferencias (la distancia de Hamming ) entre secuencias a menudo subestimará el número de sustituciones debido a múltiples coincidencias (véase homoplasia ). Intentar estimar el número exacto de cambios que han ocurrido es difícil y, por lo general, no es necesario. En cambio, las longitudes de las ramas (y las longitudes de los caminos) en los análisis filogenéticos se expresan generalmente en el número esperado de cambios por sitio. La longitud del camino es el producto de la duración del camino en el tiempo y la tasa media de sustituciones. Si bien su producto se puede estimar, la tasa y el tiempo no son identificables a partir de la divergencia de la secuencia.

Las descripciones de las matrices de velocidad en esta página reflejan con precisión la magnitud relativa de las diferentes sustituciones, pero estas matrices de velocidad no están escaladas de manera que una longitud de rama de 1 produzca un cambio esperado. Esta escala se puede lograr multiplicando cada elemento de la matriz por el mismo factor, o simplemente escalando las longitudes de rama. Si usamos β para denotar el factor de escala y ν para denotar la longitud de rama medida en el número esperado de sustituciones por sitio, entonces βν se usa en las fórmulas de probabilidad de transición a continuación en lugar de μ t . Tenga en cuenta que ν es un parámetro que se debe estimar a partir de los datos y se lo conoce como la longitud de rama, mientras que β es simplemente un número que se puede calcular a partir de la matriz de velocidad (no es un parámetro libre separado).

El valor de β se puede encontrar forzando la tasa esperada de flujo de estados a 1. Las entradas diagonales de la matriz de tasa (la matriz Q ) representan -1 multiplicado por la tasa de salida de cada estado. Para los modelos reversibles en el tiempo, conocemos las frecuencias de estado de equilibrio (estas son simplemente el valor del parámetro π _i para el estado i ). Por lo tanto, podemos encontrar la tasa esperada de cambio calculando la suma del flujo de salida de cada estado ponderado por la proporción de sitios que se espera que estén en esa clase. Establecer β como el recíproco de esta suma garantizará que el proceso escalado tenga un flujo esperado de 1:

\beta =1/\left(-\sum _{i}\pi _{i}\mu _{ii}\right)

Por ejemplo, en el modelo Jukes-Cantor, el factor de escala sería 4/(3μ) porque la tasa de salida de cada estado es 3μ/4 .

Los modelos más comunes de evolución del ADN

Modelo JC69 (Jukes y Cantor 1969)

JC69, el modelo de Jukes y Cantor de 1969, ^[2] es el modelo de sustitución más simple . Hay varias suposiciones. Supone frecuencias de base iguales y tasas de mutación iguales . El único parámetro de este modelo es, por lo tanto , la tasa de sustitución general. Como se mencionó anteriormente, esta variable se convierte en una constante cuando normalizamos la tasa media a 1. $\left(\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \over 4}\right)$ $\mu$

Q={\begin{pmatrix}{*}&{\mu \over 4}&{\mu \over 4}&{\mu \over 4}\\{\mu \over 4}&{*}&{\mu \over 4}&{\mu \over 4}\\{\mu \over 4}&{\mu \over 4}&{*}&{\mu \over 4}\\{\mu \over 4}&{\mu \over 4}&{\mu \over 4}&{*}\end{pmatrix}}

P={\begin{pmatrix}{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}\\\\{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}-{1 \over 4}e^{-t\mu }}&{{1 \over 4}+{3 \over 4}e^{-t\mu }}\end{pmatrix}}

Cuando la longitud de la rama, , se mide en el número esperado de cambios por sitio, entonces: $\nu$

P_{ij}(\nu )=\left\{{\begin{array}{cc}{1 \over 4}+{3 \over 4}e^{-4\nu /3}&{\mbox{ if }}i=j\\{1 \over 4}-{1 \over 4}e^{-4\nu /3}&{\mbox{ if }}i\neq j\end{array}}\right.

Vale la pena señalar que lo que representa la suma de cualquier columna (o fila) de la matriz multiplicada por el tiempo y, por lo tanto, significa el número esperado de sustituciones en el tiempo (duración de la rama) para cada sitio en particular (por sitio) cuando la tasa de sustitución es igual a . $\nu ={3 \over 4}t\mu =({\mu \over 4}+{\mu \over 4}+{\mu \over 4})t$ $Q$ $t$ $\mu$

Dada la proporción de sitios que difieren entre las dos secuencias, la estimación de Jukes-Cantor de la distancia evolutiva (en términos del número esperado de cambios) entre dos secuencias está dada por $p$

{\hat {d}}=-{3 \over 4}\ln({1-{4 \over 3}p})={\hat {\nu }}

En esta fórmula, el valor π se denomina con frecuencia π distancia. Es una estadística suficiente para calcular la corrección de la distancia de Jukes-Cantor, pero no es suficiente para calcular la distancia evolutiva en los modelos más complejos que siguen (observe también que el valor π utilizado en las fórmulas posteriores no es idéntico a la " distancia"). $p$ $p$ $p$ $p$

Modelo K80 (Kimura 1980)

K80, el modelo de Kimura 1980, ^[3] a menudo denominado modelo de dos parámetros de Kimura (o modelo K2P ), distingue entre transiciones ( , es decir, de purina a purina, o , es decir, de pirimidina a pirimidina) y transversiones (de purina a pirimidina o viceversa). En la descripción original de Kimura del modelo, α y β se usaban para denotar las tasas de estos tipos de sustituciones, pero ahora es más común establecer la tasa de transversiones en 1 y usar κ para denotar la relación tasa de transición/transversión (como se hace a continuación). El modelo K80 asume que todas las bases son igualmente frecuentes ( ). $A\leftrightarrow G$ $C\leftrightarrow T$ $\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \over 4}$

Matriz de tasas con columnas correspondientes a , , , y , respectivamente. $Q={\begin{pmatrix}{*}&{\kappa }&{1}&{1}\\{\kappa }&{*}&{1}&{1}\\{1}&{1}&{*}&{\kappa }\\{1}&{1}&{\kappa }&{*}\end{pmatrix}}$ $A$ $G$ $C$ $T$

La distancia de dos parámetros de Kimura viene dada por:

K=-{1 \over 2}\ln((1-2p-q){\sqrt {1-2q}})

donde p es la proporción de sitios que muestran diferencias transicionales y q es la proporción de sitios que muestran diferencias transversionales.

Modelo K81 (Kimura 1981)

K81, el modelo de Kimura 1981, ^[4] a menudo llamado modelo de tres parámetros de Kimura (modelo K3P) o modelo de tipo de tres sustituciones de Kimura (K3ST), tiene distintas tasas de transiciones y dos tipos distintos de transversiones . Los dos tipos de transversión son aquellos que conservan las propiedades débiles/fuertes de los nucleótidos (es decir, y , denotados por el símbolo ^[4] ) y aquellos que conservan las propiedades amino/ceto de los nucleótidos (es decir, y , denotados por el símbolo ^[4] ). El modelo K81 asume que todas las frecuencias base de equilibrio son iguales (es decir, ). $A\leftrightarrow T$ $C\leftrightarrow G$ $\gamma$ $A\leftrightarrow C$ $G\leftrightarrow T$ $\beta$ $\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}=0.25$

Matriz de tasas con columnas correspondientes a , , , y , respectivamente. $Q={\begin{pmatrix}{*}&{\alpha }&{\beta }&{\gamma }\\{\alpha }&{*}&{\gamma }&{\beta }\\{\beta }&{\gamma }&{*}&{\alpha }\\{\gamma }&{\beta }&{\alpha }&{*}\end{pmatrix}}$ $A$ $G$ $C$ $T$

El modelo K81 se utiliza con mucha menos frecuencia que el modelo K80 (K2P) para la estimación de distancias y rara vez es el modelo que mejor se ajusta en la filogenética de máxima verosimilitud. A pesar de estos hechos, el modelo K81 ha seguido estudiándose en el contexto de la filogenética matemática. ^[5]^[6]^[7] Una propiedad importante es la capacidad de realizar una transformación de Hadamard suponiendo que los patrones de sitios se generaron en un árbol con nucleótidos que evolucionaron según el modelo K81. ^[8]^[9]^[10]

Cuando se utiliza en el contexto de la filogenética, la transformada de Hadamard proporciona un medio elegante y completamente invertible para calcular las frecuencias esperadas de patrones de sitios dado un conjunto de longitudes de rama (o viceversa). A diferencia de muchos cálculos de máxima verosimilitud, los valores relativos de , , y pueden variar entre ramas y la transformada de Hadamard puede incluso proporcionar evidencia de que los datos no encajan en un árbol. La transformada de Hadamard también se puede combinar con una amplia variedad de métodos para dar cabida a la heterogeneidad de tasas entre sitios, ^[11] utilizando distribuciones continuas en lugar de las aproximaciones discretas que se utilizan normalmente en la filogenética de máxima verosimilitud ^[12] (aunque hay que sacrificar la invertibilidad de la transformada de Hadamard para utilizar ciertas distribuciones de heterogeneidad de tasas entre sitios ^[11] ). $\alpha$ $\beta$ $\gamma$

Modelo F81 (Felsenstein 1981)

F81, el modelo de Felsenstein de 1981, ^[13] es una extensión del modelo JC69 en el que se permite que las frecuencias base varíen de 0,25 ( ) $\pi _{A}\neq \pi _{G}\neq \pi _{C}\neq \pi _{T}$

Matriz de tarifas:

Q={\begin{pmatrix}{*}&{\pi _{G}}&{\pi _{C}}&{\pi _{T}}\\{\pi _{A}}&{*}&{\pi _{C}}&{\pi _{T}}\\{\pi _{A}}&{\pi _{G}}&{*}&{\pi _{T}}\\{\pi _{A}}&{\pi _{G}}&{\pi _{C}}&{*}\end{pmatrix}}

Cuando la longitud de la rama, ν, se mide en el número esperado de cambios por sitio, entonces:

\beta =1/(1-\pi _{A}^{2}-\pi _{C}^{2}-\pi _{G}^{2}-\pi _{T}^{2})

P_{ij}(\nu )=\left\{{\begin{array}{cc}e^{-\beta \nu }+\pi _{j}\left(1-e^{-\beta \nu }\right)&{\mbox{ if }}i=j\\\pi _{j}\left(1-e^{-\beta \nu }\right)&{\mbox{ if }}i\neq j\end{array}}\right.

Modelo HKY85 (Hasegawa, Kishino y Yano 1985)

El modelo HKY85, de Hasegawa, Kishino y Yano 1985, ^[14] puede considerarse como una combinación de las extensiones realizadas en los modelos Kimura80 y Felsenstein81. Es decir, distingue entre la tasa de transiciones y transversiones (utilizando el parámetro κ) y permite frecuencias base desiguales ( ). [ Felsenstein describió un modelo similar (pero no equivalente) en 1984 utilizando una parametrización diferente; ^[15] este último modelo se conoce como el modelo F84. ^[16] ] $\pi _{A}\neq \pi _{G}\neq \pi _{C}\neq \pi _{T}$

Matriz de tarifas $Q={\begin{pmatrix}{*}&{\kappa \pi _{G}}&{\pi _{C}}&{\pi _{T}}\\{\kappa \pi _{A}}&{*}&{\pi _{C}}&{\pi _{T}}\\{\pi _{A}}&{\pi _{G}}&{*}&{\kappa \pi _{T}}\\{\pi _{A}}&{\pi _{G}}&{\kappa \pi _{C}}&{*}\end{pmatrix}}$

Si expresamos la longitud de la rama, ν en términos del número esperado de cambios por sitio, entonces:

\beta ={\frac {1}{2(\pi _{A}+\pi _{G})(\pi _{C}+\pi _{T})+2\kappa [(\pi _{A}\pi _{G})+(\pi _{C}\pi _{T})]}}

P_{AA}(\nu ,\kappa ,\pi )=\left[\pi _{A}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)+\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/(\pi _{A}+\pi _{G})

P_{AC}(\nu ,\kappa ,\pi )=\pi _{C}\left(1.0-e^{-\beta \nu }\right)

P_{AG}(\nu ,\kappa ,\pi )=\left[\pi _{G}\left(\pi _{A}+\pi _{G}+(\pi _{C}+\pi _{T})e^{-\beta \nu }\right)-\pi _{G}e^{-(1+(\pi _{A}+\pi _{G})(\kappa -1.0))\beta \nu }\right]/\left(\pi _{A}+\pi _{G}\right)

P_{AT}(\nu ,\kappa ,\pi )=\pi _{T}\left(1.0-e^{-\beta \nu }\right)

y la fórmula para las otras combinaciones de estados se puede obtener sustituyendo las frecuencias base apropiadas.

Modelo T92 (Tamura 1992)

El modelo T92 de Tamura 1992 ^[17] es un método matemático desarrollado para estimar el número de sustituciones de nucleótidos por sitio entre dos secuencias de ADN, extendiendo el método de dos parámetros de Kimura (1980) al caso en que existe un sesgo de contenido de G+C . Este método será útil cuando existan fuertes sesgos de transición-transversión y de contenido de G+C, como en el caso del ADN mitocondrial de Drosophila . ^[17]

T92 implica un único parámetro de frecuencia base compuesto (también señalado ) $\theta \in (0,1)$ $\pi _{GC}$ $=\pi _{G}+\pi _{C}=1-(\pi _{A}+\pi _{T})$

Como T92 hace eco de la segunda regla de paridad de Chargaff (los nucleótidos apareados tienen la misma frecuencia en una sola cadena de ADN, G y C por un lado, y A y T por el otro), se deduce que las cuatro frecuencias base se pueden expresar como una función de $\pi _{GC}$

$\pi _{G}=\pi _{C}={\pi _{GC} \over 2}$ y $\pi _{A}=\pi _{T}={(1-\pi _{GC}) \over 2}$

Matriz de tarifas $Q={\begin{pmatrix}{*}&{\kappa \pi _{GC}/2}&{\pi _{GC}/2}&{(1-\pi _{GC})/2}\\{\kappa (1-\pi _{GC})/2}&{*}&{\pi _{GC}/2}&{(1-\pi _{GC})/2}\\{(1-\pi _{GC})/2}&{\pi _{GC}/2}&{*}&{\kappa (1-\pi _{GC})/2}\\{(1-\pi _{GC})/2}&{\pi _{GC}/2}&{\kappa \pi _{GC}/2}&{*}\end{pmatrix}}$

La distancia evolutiva entre dos secuencias de ADN según este modelo viene dada por

d=-h\ln(1-{p \over h}-q)-{1 \over 2}(1-h)\ln(1-2q)

donde y es el contenido de G+C ( ). $h=2\theta (1-\theta )$ $\theta$ $\pi _{GC}=\pi _{G}+\pi _{C}$

Modelo TN93 (Tamura y Nei 1993)

TN93, el modelo de Tamura y Nei 1993, ^[18] distingue entre los dos tipos diferentes de transición ; es decir, se permite que ( ) tenga una tasa diferente a ( ). Se supone que todas las transversiones ocurren a la misma tasa, pero se permite que esa tasa sea diferente de ambas tasas para las transiciones. $A\leftrightarrow G$ $C\leftrightarrow T$

TN93 también permite frecuencias base desiguales ( ). $\pi _{A}\neq \pi _{G}\neq \pi _{C}\neq \pi _{T}$

Matriz de tarifas $Q={\begin{pmatrix}{*}&{\kappa _{1}\pi _{G}}&{\pi _{C}}&{\pi _{T}}\\{\kappa _{1}\pi _{A}}&{*}&{\pi _{C}}&{\pi _{T}}\\{\pi _{A}}&{\pi _{G}}&{*}&{\kappa _{2}\pi _{T}}\\{\pi _{A}}&{\pi _{G}}&{\kappa _{2}\pi _{C}}&{*}\end{pmatrix}}$

Modelo GTR (Tavaré 1986)

GTR, el modelo generalizado reversible en el tiempo de Tavaré 1986, ^[19] es el modelo neutral, independiente, de sitios finitos y reversible en el tiempo más general posible. Fue descrito por primera vez en forma general por Simon Tavaré en 1986. ^[19]

Los parámetros GTR consisten en un vector de frecuencia base de equilibrio, , que da la frecuencia con la que cada base ocurre en cada sitio, y la matriz de velocidad $\Pi =(\pi _{A},\pi _{G},\pi _{C},\pi _{T})$

Q={\begin{pmatrix}{-(\alpha \pi _{G}+\beta \pi _{C}+\gamma \pi _{T})}&{\alpha \pi _{G}}&{\beta \pi _{C}}&{\gamma \pi _{T}}\\{\alpha \pi _{A}}&{-(\alpha \pi _{A}+\delta \pi _{C}+\epsilon \pi _{T})}&{\delta \pi _{C}}&{\epsilon \pi _{T}}\\{\beta \pi _{A}}&{\delta \pi _{G}}&{-(\beta \pi _{A}+\delta \pi _{G}+\eta \pi _{T})}&{\eta \pi _{T}}\\{\gamma \pi _{A}}&{\epsilon \pi _{G}}&{\eta \pi _{C}}&{-(\gamma \pi _{A}+\epsilon \pi _{G}+\eta \pi _{C})}\end{pmatrix}}

Dónde

${\begin{aligned}\alpha =r(A\rightarrow G)=r(G\rightarrow A)\\\beta =r(A\rightarrow C)=r(C\rightarrow A)\\\gamma =r(A\rightarrow T)=r(T\rightarrow A)\\\delta =r(G\rightarrow C)=r(C\rightarrow G)\\\epsilon =r(G\rightarrow T)=r(T\rightarrow G)\\\eta =r(C\rightarrow T)=r(T\rightarrow C)\end{aligned}}$

son los parámetros de la tasa de transición.

Por lo tanto, la GTR (para cuatro caracteres, como suele ser el caso en filogenética) requiere 6 parámetros de tasa de sustitución, así como 4 parámetros de frecuencia base de equilibrio. Sin embargo, esto suele eliminarse hasta 9 parámetros más , el número total de sustituciones por unidad de tiempo. Al medir el tiempo en sustituciones ( =1) solo quedan 8 parámetros libres. $\mu$ $\mu$

En general, para calcular el número de parámetros, se debe contar el número de entradas por encima de la diagonal en la matriz, es decir, para n valores de rasgos por sitio , y luego sumar n para las frecuencias base de equilibrio y restar 1 porque es fijo. Se obtiene ${{n^{2}-n} \over 2}$ $\mu$

{{n^{2}-n} \over 2}+n-1={1 \over 2}n^{2}+{1 \over 2}n-1.

Por ejemplo, para una secuencia de aminoácidos (hay 20 aminoácidos "estándar" que forman las proteínas ), se encontraría que hay 209 parámetros. Sin embargo, cuando se estudian las regiones codificantes del genoma, es más común trabajar con un modelo de sustitución de codones (un codón tiene tres bases y codifica un aminoácido en una proteína). Hay codones, pero se supone que las tasas de transición entre codones que difieren en más de una base son cero. Por lo tanto, hay parámetros. $4^{3}=64$ ${{20\times 19\times 3} \over 2}+64-1=633$

Véase también

Referencias

^ Arenas, Miguel (2015). "Tendencias en modelos de sustitución de la evolución molecular". Frontiers in Genetics . 6 : 319. doi : 10.3389/fgene.2015.00319 . ISSN 1664-8021. PMC 4620419 . PMID 26579193.
^ Jukes TH, Cantor CR (1969). Evolución de las moléculas de proteínas . Nueva York: Academic Press. pp. 21–132.
^ Kimura M (diciembre de 1980). "Un método simple para estimar las tasas evolutivas de sustituciones de bases mediante estudios comparativos de secuencias de nucleótidos". Journal of Molecular Evolution . 16 (2): 111–20. Bibcode :1980JMolE..16..111K. doi :10.1007/BF01731581. PMID 7463489. S2CID 19528200.
^ abc Kimura M (enero de 1981). "Estimación de distancias evolutivas entre secuencias de nucleótidos homólogas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 78 (1): 454–8. Bibcode :1981PNAS...78..454K. doi : 10.1073/pnas.78.1.454 . PMC 319072 . PMID 6165991.
^ Bashford JD, Jarvis PD, Sumner JG, Steel MA (25 de febrero de 2004). "Simetría U (1) × U (1) × U (1) del modelo 3ST de Kimura y procesos de ramificación filogenética". Journal of Physics A: Mathematical and General . 37 (8): L81–L89. arXiv : q-bio/0310037 . doi :10.1088/0305-4470/37/8/L01. S2CID 7845860.
^ Sumner JG, Charleston MA, Jermiin LS, Jarvis PD (agosto de 2008). "Invariantes de Markov, pletismos y filogenética". Journal of Theoretical Biology . 253 (3): 601–15. arXiv : 0711.3503 . Código Bibliográfico :2008JThBi.253..601S. doi :10.1016/j.jtbi.2008.04.001. PMID 18513747. S2CID 6851591.
^ Sumner JG, Jarvis PD, Holland BR (diciembre de 2014). "Un enfoque tensorial para la inversión de modelos filogenéticos basados en grupos". BMC Evolutionary Biology . 14 (1): 236. doi : 10.1186/s12862-014-0236-6 . PMC 4268818 . PMID 25472897.
^ Hendy MD, Penny D, Steel MA (abril de 1994). "Un análisis discreto de Fourier para árboles evolutivos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 91 (8): 3339–43. Bibcode :1994PNAS...91.3339H. doi : 10.1073/pnas.91.8.3339 . PMC 43572 . PMID 8159749.
^ Hendy MD (2005). "Conjugación de Hadamard: una herramienta analítica para la filogenética". En Gascuel O (ed.). Matemáticas de la evolución y la filogenia . Oxford University Press. págs. 143–177. ISBN 978-0198566106.
^ Hendy MD, Snir S (julio de 2008). "Conjugación de Hadamard para el modelo Kimura 3ST: prueba combinatoria usando conjuntos de rutas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 5 (3): 461–71. arXiv : q-bio/0505055 . doi :10.1109/TCBB.2007.70227. PMID 18670048. S2CID 20633916.
^ ab Waddell PJ, Penny D, Moore T (agosto de 1997). "Conjugaciones de Hadamard y modelado de la evolución de secuencias con tasas desiguales en los distintos sitios". Filogenética molecular y evolución . 8 (1): 33–50. doi :10.1006/mpev.1997.0405. PMID 9242594.
^ Yang Z (septiembre de 1994). "Estimación filogenética de máxima verosimilitud a partir de secuencias de ADN con tasas variables en los sitios: métodos aproximados". Journal of Molecular Evolution . 39 (3): 306–14. Bibcode :1994JMolE..39..306Y. CiteSeerX 10.1.1.305.951 . doi :10.1007/BF00160154. PMID 7932792. S2CID 17911050.
^ Felsenstein J (1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Journal of Molecular Evolution . 17 (6): 368–76. Bibcode :1981JMolE..17..368F. doi :10.1007/BF01734359. PMID 7288891. S2CID 8024924.
^ Hasegawa M, Kishino H, Yano T (1985). "Datación de la división entre humanos y simios mediante un reloj molecular de ADN mitocondrial". Journal of Molecular Evolution . 22 (2): 160–74. Bibcode :1985JMolE..22..160H. doi :10.1007/BF02101694. PMID 3934395. S2CID 25554168.
^ Kishino H, Hasegawa M (agosto de 1989). "Evaluación de la estimación de máxima verosimilitud de las topologías de árboles evolutivos a partir de datos de secuencias de ADN y el orden de ramificación en hominoidea". Journal of Molecular Evolution . 29 (2): 170–9. Bibcode :1989JMolE..29..170K. doi :10.1007/BF02100115. PMID 2509717. S2CID 8045061.
^ Felsenstein J, Churchill GA (enero de 1996). "Un enfoque del modelo oculto de Markov para la variación entre sitios en la tasa de evolución". Biología molecular y evolución . 13 (1): 93–104. doi : 10.1093/oxfordjournals.molbev.a025575 . hdl : 1813/31897 . PMID 8583911.
^ ab Tamura K (julio de 1992). "Estimación del número de sustituciones de nucleótidos cuando hay fuertes sesgos de transición-transversión y de contenido de G+C". Biología molecular y evolución . 9 (4): 678–87. doi : 10.1093/oxfordjournals.molbev.a040752 . PMID 1630306.
^ Tamura K, Nei M (mayo de 1993). "Estimación del número de sustituciones de nucleótidos en la región de control del ADN mitocondrial en humanos y chimpancés". Biología molecular y evolución . 10 (3): 512–26. doi : 10.1093/oxfordjournals.molbev.a040023 . PMID 8336541.
^ ab Tavaré S (1986). "Algunos problemas probabilísticos y estadísticos en el análisis de secuencias de ADN" (PDF) . Lecciones de matemáticas en las ciencias de la vida . 17 : 57–86.

Lectura adicional

Gu X, Li WH (septiembre de 1992). "Tasas más altas de sustitución de aminoácidos en roedores que en humanos". Filogenética molecular y evolución . 1 (3): 211–4. doi : 10.1016/1055-7903(92)90017-B . PMID 1342937.
Li WH, Ellsworth DL, Krushkal J, Chang BH, Hewett-Emmett D (febrero de 1996). "Tasas de sustitución de nucleótidos en primates y roedores y la hipótesis del efecto del tiempo generacional". Filogenética molecular y evolución . 5 (1): 182–7. doi :10.1006/mpev.1996.0012. PMID 8673286.

Enlaces externos

DAWG: DNA Assembly With Gaps: software gratuito para simular la evolución de secuencias