stringtranslate.com

Modelos de evolución del ADN.

Se han propuesto varios modelos de Markov diferentes de la evolución de la secuencia de ADN . [1] Estos modelos de sustitución difieren en términos de los parámetros utilizados para describir las velocidades a las que un nucleótido reemplaza a otro durante la evolución. Estos modelos se utilizan con frecuencia en análisis filogenéticos moleculares . En particular, se utilizan durante el cálculo de la probabilidad de un árbol (en los enfoques bayesianos y de máxima verosimilitud para la estimación de árboles) y se utilizan para estimar la distancia evolutiva entre secuencias a partir de las diferencias observadas entre las secuencias.

Introducción

Estos modelos son descripciones fenomenológicas de la evolución del ADN como una cadena de cuatro estados discretos. Estos modelos de Markov no describen explícitamente el mecanismo de mutación ni la acción de la selección natural. Más bien describen las tasas relativas de diferentes cambios. Por ejemplo, los sesgos mutacionales y la selección purificadora que favorecen los cambios conservadores son probablemente responsables de la tasa relativamente alta de transiciones en comparación con las transversiones en secuencias en evolución. Sin embargo, el modelo de Kimura (K80) que se describe a continuación solo intenta capturar el efecto de ambas fuerzas en un parámetro que refleja la tasa relativa de transiciones a transversiones.

Los análisis evolutivos de secuencias se realizan en una amplia variedad de escalas de tiempo. Por lo tanto, es conveniente expresar estos modelos en términos de tasas de cambio instantáneas entre diferentes estados (las matrices Q a continuación). Si se nos da un estado inicial (ancestral) en una posición, la matriz Q del modelo y una longitud de rama que expresa el número esperado de cambios que han ocurrido desde el ancestro, entonces podemos derivar la probabilidad de que la secuencia descendiente tenga cada uno de los cuatro estados. Los detalles matemáticos de esta transformación de matriz de tasas a matriz de probabilidad se describen en la sección de matemáticas de modelos de sustitución de la página del modelo de sustitución . Al expresar los modelos en términos de tasas de cambio instantáneas, podemos evitar estimar una gran cantidad de parámetros para cada rama de un árbol filogenético (o cada comparación si el análisis implica muchas comparaciones de secuencias por pares).

Los modelos descritos en esta página describen la evolución de un solo sitio dentro de un conjunto de secuencias. A menudo se utilizan para analizar la evolución de un locus completo haciendo la suposición simplificadora de que diferentes sitios evolucionan de forma independiente y están distribuidos de manera idéntica . Esta suposición puede ser justificable si se puede asumir que los sitios están evolucionando de manera neutral . Si el efecto principal de la selección natural sobre la evolución de las secuencias es restringir algunos sitios, entonces se pueden usar modelos de heterogeneidad de tasas entre sitios. Este enfoque permite estimar sólo una matriz de tasas relativas de sustitución y otro conjunto de parámetros que describen la varianza en la tasa total de sustitución entre sitios.

La evolución del ADN como cadena de Markov en tiempo continuo

Cadenas de Markov de tiempo continuo

Las cadenas de Markov de tiempo continuo tienen las matrices de transición habituales que, además, están parametrizadas por el tiempo . Específicamente, si son los estados, entonces la matriz de transición

donde cada entrada individual se refiere a la probabilidad de que el estado cambie a estado con el tiempo .

Ejemplo: Nos gustaría modelar el proceso de sustitución en secuencias de ADN ( es decir, Jukes-Cantor , Kimura, etc. ) en forma de tiempo continuo. Las matrices de transición correspondientes se verán así:

donde los bloques de 2 × 2 superior izquierdo e inferior derecho corresponden a probabilidades de transición y los bloques de 2 × 2 superior derecho e inferior izquierdo corresponden a probabilidades de transversión .

Supuesto: si en algún momento la cadena de Markov está en el estado , entonces la probabilidad de que en ese momento esté en el estado depende sólo de y . Esto nos permite escribir esa probabilidad como .

Teorema: Las matrices de transición de tiempo continuo satisfacen:

Nota: Existe aquí una posible confusión entre dos significados de la palabra transición . (i) En el contexto de las cadenas de Markov , transición es el término general para el cambio entre dos estados. (ii) En el contexto de los cambios de nucleótidos en las secuencias de ADN , transición es un término específico para el intercambio entre las dos purinas (A ↔ G) o las dos pirimidinas (C ↔ T) (para obtener detalles adicionales, consulte el artículo sobre transiciones en genética ). Por el contrario, un intercambio entre una purina y una pirimidina se llama transversión .

Derivando la dinámica de sustitución.

Considere una secuencia de ADN de longitud fija m que evoluciona en el tiempo mediante reemplazo de bases. Supongamos que los procesos seguidos por los m sitios son independientes de Markov, están distribuidos idénticamente y que el proceso es constante en el tiempo. Para un sitio en particular, dejemos

ser el conjunto de estados posibles para el sitio, y

sus respectivas probabilidades en el momento . Para dos distintos , sea la tasa de transición de un estado a otro . De manera similar, para cualquier , sea la tasa de cambio total de

Los cambios en la distribución de probabilidad para pequeños incrementos de tiempo están dados por

En otras palabras, (en lenguaje frecuentista), la frecuencia de los 's en el momento es igual a la frecuencia en el momento menos la frecuencia de los 's perdidos más la frecuencia de los 's recién creados .

Lo mismo ocurre con las probabilidades y . Estas ecuaciones se pueden escribir de forma compacta como

dónde

se conoce como matriz de tasas . Tenga en cuenta que, por definición, la suma de las entradas en cada fila es igual a cero. Resulta que

Para un proceso estacionario , donde no depende del tiempo t , esta ecuación diferencial se puede resolver. Primero,

donde denota el exponencial de la matriz . Como resultado,

Ergodicidad

Si la cadena de Markov es irreducible , es decir, si siempre es posible pasar de un estado a otro (posiblemente en varios pasos), entonces también es ergódica . Como resultado, tiene una distribución estacionaria única , donde corresponde a la proporción de tiempo que pasa en el estado después de que la cadena de Markov se ha ejecutado durante una cantidad infinita de tiempo. En la evolución del ADN, bajo el supuesto de un proceso común para cada sitio, las frecuencias estacionarias corresponden a composiciones de bases en equilibrio. De hecho, tenga en cuenta que dado que la distribución estacionaria satisface , vemos que cuando la distribución actual es la distribución estacionaria tenemos

En otras palabras, las frecuencias de no cambian.

Reversibilidad del tiempo

Definición : Un proceso de Markov estacionario es reversible en el tiempo si (en el estado estacionario) la cantidad de cambio del estado a es igual a la cantidad de cambio de a (aunque los dos estados pueden ocurrir con diferentes frecuencias). Esto significa que:

No todos los procesos estacionarios son reversibles; sin embargo, los modelos de evolución del ADN más comúnmente utilizados asumen reversibilidad en el tiempo, lo que se considera una suposición razonable.

Bajo el supuesto de reversibilidad temporal, sea , entonces es fácil ver que:

Definición El término simétrico se llama intercambiabilidad entre estados y . En otras palabras, es la fracción de la frecuencia de estado que es el resultado de las transiciones de un estado a otro .

Corolario Las 12 entradas fuera de la diagonal de la matriz de tasas (tenga en cuenta que las entradas fuera de la diagonal determinan las entradas diagonales, ya que las filas de la suma son cero) se pueden determinar completamente mediante 9 números; estos son: 6 términos de intercambiabilidad y 3 frecuencias estacionarias (ya que las frecuencias estacionarias suman 1).

Escalado de longitudes de ramas.

Al comparar secuencias existentes, se puede determinar la cantidad de divergencia de secuencia. Esta medida bruta de divergencia proporciona información sobre la cantidad de cambios que han ocurrido a lo largo del camino que separa las secuencias. El simple recuento de diferencias (la distancia de Hamming ) entre secuencias a menudo subestimará el número de sustituciones debido a múltiples aciertos (ver homoplasia ). Intentar estimar el número exacto de cambios que se han producido es difícil y, por lo general, no es necesario. En cambio, las longitudes de las ramas (y las longitudes de los caminos) en los análisis filogenéticos generalmente se expresan en el número esperado de cambios por sitio. La longitud del camino es el producto de la duración del camino en el tiempo y la tasa media de sustituciones. Si bien su producto puede estimarse, la tasa y el tiempo no son identificables a partir de la divergencia de secuencia.

Las descripciones de las matrices de tasas en esta página reflejan con precisión la magnitud relativa de diferentes sustituciones, pero estas matrices de tasas no están escaladas de manera que una longitud de rama de 1 produzca un cambio esperado. Este escalado se puede lograr multiplicando cada elemento de la matriz por el mismo factor, o simplemente escalando las longitudes de las ramas. Si usamos β para denotar el factor de escala y ν para denotar la longitud de la rama medida en el número esperado de sustituciones por sitio, entonces βν se usa en las fórmulas de probabilidad de transición a continuación en lugar de μ t . Tenga en cuenta que ν es un parámetro que se estima a partir de los datos y se denomina longitud de la rama, mientras que β es simplemente un número que se puede calcular a partir de la matriz de tasas (no es un parámetro libre separado).

El valor de β se puede encontrar forzando la tasa esperada de flujo de estados a 1. Las entradas diagonales de la matriz de tasas (la matriz Q ) representan -1 veces la tasa de salida de cada estado. Para los modelos reversibles en el tiempo, conocemos las frecuencias del estado de equilibrio (éstas son simplemente el valor del parámetro π i para el estado i ). Por lo tanto, podemos encontrar la tasa de cambio esperada calculando la suma del flujo de salida de cada estado ponderado por la proporción de sitios que se espera que estén en esa clase. Establecer β como el recíproco de esta suma garantizará que el proceso escalado tenga un flujo esperado de 1:

Por ejemplo, en Jukes-Cantor, el factor de escala sería 4/(3μ) porque la tasa de abandono de cada estado es 3μ/4 .

Modelos más comunes de evolución del ADN.

Modelo JC69 (Jukes y Cantor 1969)

JC69, el modelo de Jukes y Cantor 1969, [2] es el modelo de sustitución más simple . Hay varias suposiciones. Asume frecuencias de base iguales y tasas de mutación iguales . El único parámetro de este modelo es, por tanto , la tasa de sustitución global. Como se mencionó anteriormente, esta variable se vuelve constante cuando normalizamos la tasa media a 1.

Probabilidad de cambiar del estado inicial al estado final en función de la longitud de la rama ( ) para JC69. Curva roja: estados de nucleótidos y son diferentes. Curva azul: los estados inicial y final son iguales. Después de mucho tiempo, las probabilidades tienden a las frecuencias de equilibrio de nucleótidos (0,25: línea discontinua).

Cuando la longitud de la rama, , se mide en el número esperado de cambios por sitio, entonces:

Vale la pena señalar que lo que representa la suma de cualquier columna (o fila) de la matriz multiplicada por el tiempo y, por lo tanto, significa el número esperado de sustituciones en el tiempo (duración de la rama) para cada sitio en particular (por sitio) cuando la tasa de sustitución es igual .

Dada la proporción de sitios que difieren entre las dos secuencias, la estimación de Jukes-Cantor de la distancia evolutiva (en términos del número esperado de cambios) entre dos secuencias viene dada por

En esta fórmula, a menudo se hace referencia a la distancia. Es una estadística suficiente para calcular la corrección de distancia de Jukes-Cantor, pero no es suficiente para calcular la distancia evolutiva en los modelos más complejos que siguen (tenga en cuenta también que el uso en fórmulas posteriores no es idéntico a la " -distancia") .

Modelo K80 (Kimura 1980)

K80, el modelo de Kimura 1980, [3] a menudo denominado modelo de dos parámetros de Kimura (o modelo K2P ), distingue entre transiciones ( es decir, de purina a purina, o , es decir, de pirimidina a pirimidina) y transversiones (de purina a pirimidina o viceversa). En la descripción original del modelo de Kimura, α y β se usaban para denotar las tasas de estos tipos de sustituciones, pero ahora es más común establecer la tasa de transversiones en 1 y usar κ para denotar la relación de tasas de transición/transversión (como se hace a continuación). El modelo K80 supone que todas las bases son igualmente frecuentes ( ).

Matriz de tarifas con columnas correspondientes a , , y , respectivamente.

La distancia de dos parámetros de Kimura viene dada por:

donde p es la proporción de sitios que muestran diferencias transicionales y q es la proporción de sitios que muestran diferencias transversionales.

Modelo K81 (Kimura 1981)

K81, el modelo de Kimura 1981, [4] a menudo llamado modelo de tres parámetros de Kimura (modelo K3P) o modelo de tres tipos de sustitución de Kimura (K3ST), tiene distintas tasas de transiciones y dos tipos distintos de transversiones . Los dos tipos de transversión son aquellos que conservan las propiedades débiles/fuertes de los nucleótidos (es decir, y , denotados por el símbolo [4] ) y aquellos que conservan las propiedades amino/ceto de los nucleótidos (es decir, y , denotados por el símbolo [4] ] ). El modelo K81 supone que todas las frecuencias base de equilibrio son iguales (es decir, ).

Matriz de tarifas con columnas correspondientes a , , y , respectivamente.

El modelo K81 se utiliza con mucha menos frecuencia que el modelo K80 (K2P) para la estimación de distancias y rara vez es el modelo que mejor se ajusta en filogenética de máxima verosimilitud. A pesar de estos hechos, el modelo K81 ha seguido estudiándose en el contexto de la filogenética matemática. [5] [6] [7] Una propiedad importante es la capacidad de realizar una transformación de Hadamard suponiendo que los patrones de sitio se generaron en un árbol con nucleótidos que evolucionaron según el modelo K81. [8] [9] [10]

Cuando se utiliza en el contexto de la filogenética, la transformada de Hadamard proporciona un medio elegante y totalmente invertible para calcular las frecuencias esperadas de los patrones de sitio dado un conjunto de longitudes de ramas (o viceversa). A diferencia de muchos cálculos de máxima verosimilitud, los valores relativos de , y pueden variar entre ramas y la transformada de Hadamard puede incluso proporcionar evidencia de que los datos no se ajustan a un árbol. La transformada de Hadamard también se puede combinar con una amplia variedad de métodos para acomodar la heterogeneidad de tasas entre sitios, [11] usando distribuciones continuas en lugar de las aproximaciones discretas típicamente utilizadas en filogenética de máxima verosimilitud [12] (aunque se debe sacrificar la invertibilidad de la Transformada de Hadamard para utilizar ciertas distribuciones de heterogeneidad de tasas entre sitios [11] ).

Modelo F81 (Felsenstein 1981)

F81, el modelo de Felsenstein de 1981, [13] es una extensión del modelo JC69 en el que se permite que las frecuencias base varíen desde 0,25 ( )

Matriz de tarifas:

Cuando la longitud de la rama, ν, se mide en el número esperado de cambios por sitio, entonces:

Modelo HKY85 (Hasegawa, Kishino y Yano 1985)

Se puede considerar que HKY85, el modelo Hasegawa, Kishino y Yano 1985, [14] combina las extensiones realizadas en los modelos Kimura80 y Felsenstein81. Es decir, distingue entre la tasa de transiciones y transversiones (usando el parámetro κ) y permite frecuencias base desiguales ( ). [ Felsenstein describió un modelo similar (pero no equivalente) en 1984 utilizando una parametrización diferente; [15] este último modelo se conoce como modelo F84. [dieciséis] ]

Matriz de tarifas

Si expresamos la longitud de la rama, ν en términos del número esperado de cambios por sitio, entonces:

y la fórmula para las otras combinaciones de estados se puede obtener sustituyendo las frecuencias base apropiadas.

Modelo T92 (Tamura 1992)

T92, el modelo de Tamura 1992, [17] es un método matemático desarrollado para estimar el número de sustituciones de nucleótidos por sitio entre dos secuencias de ADN, extendiendo el método de dos parámetros de Kimura (1980) al caso en el que existe un sesgo de contenido de G+C . . Este método será útil cuando existan fuertes sesgos de transición-transversión y contenido de G+C, como en el caso del ADN mitocondrial de Drosophila . [17]

T92 implica un único parámetro de frecuencia base compuesto (también indicado )

Como T92 se hace eco de la segunda regla de paridad de Chargaff (los nucleótidos de emparejamiento tienen la misma frecuencia en una sola cadena de ADN, G y C por un lado, y A y T por el otro), se deduce que las cuatro frecuencias de bases se pueden expresar como una función de

y

Matriz de tarifas

La distancia evolutiva entre dos secuencias de ADN según este modelo viene dada por

donde y es el contenido de G+C ( ).

Modelo TN93 (Tamura y Nei 1993)

TN93, el modelo de Tamura y Nei 1993, [18] distingue entre dos tipos diferentes de transición ; es decir, ( ) puede tener una tasa diferente a ( ). Se supone que todas las transversiones ocurren a la misma tasa, pero se permite que esa tasa sea diferente de ambas tasas de transiciones.

TN93 también permite frecuencias base desiguales ( ).

Matriz de tarifas

Modelo GTR (Tavaré 1986)

GTR, el modelo generalizado reversible en el tiempo de Tavaré 1986, [19] es el modelo neutral, independiente, de sitios finitos y reversible en el tiempo más general posible. Fue descrito por primera vez de forma general por Simon Tavaré en 1986. [19]

Los parámetros GTR consisten en un vector de frecuencia base de equilibrio, que proporciona la frecuencia a la que ocurre cada base en cada sitio, y la matriz de tasas.

Dónde

son los parámetros de la tasa de transición.

Por lo tanto, GTR (para cuatro caracteres, como suele ser el caso en filogenética) requiere 6 parámetros de tasa de sustitución, así como 4 parámetros de frecuencia base de equilibrio. Sin embargo, esto generalmente se elimina hasta 9 parámetros más el número total de sustituciones por unidad de tiempo. Al medir el tiempo en sustituciones ( =1) sólo quedan 8 parámetros libres.

En general, para calcular el número de parámetros, se debe contar el número de entradas por encima de la diagonal en la matriz, es decir, para n valores de rasgos por sitio , y luego sumar n para las frecuencias base de equilibrio y restar 1 porque es fijo. uno consigue

Por ejemplo, para una secuencia de aminoácidos (hay 20 aminoácidos "estándar" que forman las proteínas ), se encontraría que hay 209 parámetros. Sin embargo, cuando se estudian regiones codificantes del genoma, es más común trabajar con un modelo de sustitución de codones (un codón tiene tres bases y codifica un aminoácido en una proteína). Hay codones, pero se supone que las tasas de transiciones entre codones que difieren en más de una base son cero. Por tanto, existen parámetros.

Ver también

Referencias

  1. Arenas, Miguel (2015). "Tendencias en modelos de sustitución de evolución molecular". Fronteras en genética . 6 : 319. doi : 10.3389/fgene.2015.00319 . ISSN  1664-8021. PMC  4620419 . PMID  26579193.
  2. ^ Jukes TH, Cantor CR (1969). Evolución de las Moléculas de Proteínas . Nueva York: Academic Press. págs. 21-132.
  3. ^ Kimura M (diciembre de 1980). "Un método sencillo para estimar tasas evolutivas de sustituciones de bases mediante estudios comparativos de secuencias de nucleótidos". Revista de evolución molecular . 16 (2): 111–20. Código Bib : 1980JMolE..16..111K. doi :10.1007/BF01731581. PMID  7463489. S2CID  19528200.
  4. ^ abc Kimura M (enero de 1981). "Estimación de distancias evolutivas entre secuencias de nucleótidos homólogas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 78 (1): 454–8. Código bibliográfico : 1981PNAS...78..454K. doi : 10.1073/pnas.78.1.454 . PMC 319072 . PMID  6165991. 
  5. ^ Bashford JD, Jarvis PD, Sumner JG, Steel MA (25 de febrero de 2004). "Simetría U (1) × U (1) × U (1) del modelo Kimura 3ST y procesos de ramificación filogenética". Revista de Física A: Matemática y General . 37 (8): L81–L89. arXiv : q-bio/0310037 . doi :10.1088/0305-4470/37/8/L01. S2CID  7845860.
  6. ^ Sumner JG, Charleston MA, Jermiin LS, Jarvis PD (agosto de 2008). "Invariantes de Markov, pletismos y filogenética". Revista de Biología Teórica . 253 (3): 601–15. arXiv : 0711.3503 . Código Bib : 2008JThBi.253..601S. doi :10.1016/j.jtbi.2008.04.001. PMID  18513747. S2CID  6851591.
  7. ^ Sumner JG, Jarvis PD, Holland BR (diciembre de 2014). "Un enfoque tensorial para la inversión de modelos filogenéticos basados ​​en grupos". Biología Evolutiva del BMC . 14 (1): 236. doi : 10.1186/s12862-014-0236-6 . PMC 4268818 . PMID  25472897. 
  8. ^ Hendy MD, Penny D, Steel MA (abril de 1994). "Un análisis de Fourier discreto para árboles evolutivos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 91 (8): 3339–43. Código bibliográfico : 1994PNAS...91.3339H. doi : 10.1073/pnas.91.8.3339 . PMC 43572 . PMID  8159749. 
  9. ^ Hendy MD (2005). "Conjugación de Hadamard: una herramienta analítica para la filogenética". En Gascuel O (ed.). Matemáticas de la Evolución y Filogenia . Prensa de la Universidad de Oxford. págs. 143-177. ISBN 978-0198566106.
  10. ^ Hendy MD, Snir S (julio de 2008). "Conjugación de Hadamard para el modelo Kimura 3ST: prueba combinatoria utilizando conjuntos de rutas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 5 (3): 461–71. arXiv : q-bio/0505055 . doi :10.1109/TCBB.2007.70227. PMID  18670048. S2CID  20633916.
  11. ^ ab Waddell PJ, Penny D, Moore T (agosto de 1997). "Conjugaciones de Hadamard y modelado de evolución de secuencias con tasas desiguales entre sitios". Filogenética molecular y evolución . 8 (1): 33–50. doi :10.1006/mpev.1997.0405. PMID  9242594.
  12. ^ Yang Z (septiembre de 1994). "Estimación filogenética de máxima probabilidad a partir de secuencias de ADN con tasas variables sobre sitios: métodos aproximados". Revista de evolución molecular . 39 (3): 306–14. Código Bib : 1994JMolE..39..306Y. CiteSeerX 10.1.1.305.951 . doi :10.1007/BF00160154. PMID  7932792. S2CID  17911050. 
  13. ^ Felsenstein J (1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Revista de evolución molecular . 17 (6): 368–76. Código Bib : 1981JMolE..17..368F. doi :10.1007/BF01734359. PMID  7288891. S2CID  8024924.
  14. ^ Hasegawa M, Kishino H, Yano T (1985). "Datación de la división humano-simio mediante un reloj molecular de ADN mitocondrial". Revista de evolución molecular . 22 (2): 160–74. Código Bib : 1985JMolE..22..160H. doi :10.1007/BF02101694. PMID  3934395. S2CID  25554168.
  15. ^ Kishino H, Hasegawa M (agosto de 1989). "Evaluación de la estimación de máxima verosimilitud de las topologías de los árboles evolutivos a partir de datos de secuencia de ADN y el orden de ramificación de los hominoideos". Revista de evolución molecular . 29 (2): 170–9. Código Bib : 1989JMolE..29..170K. doi :10.1007/BF02100115. PMID  2509717. S2CID  8045061.
  16. ^ Felsenstein J, Churchill GA (enero de 1996). "Un enfoque del modelo oculto de Markov para la variación entre sitios en la tasa de evolución". Biología Molecular y Evolución . 13 (1): 93-104. doi : 10.1093/oxfordjournals.molbev.a025575 . hdl : 1813/31897 . PMID  8583911.
  17. ^ ab Tamura K (julio de 1992). "Estimación del número de sustituciones de nucleótidos cuando existen fuertes sesgos de transición-transversión y contenido de G + C". Biología Molecular y Evolución . 9 (4): 678–87. doi : 10.1093/oxfordjournals.molbev.a040752 . PMID  1630306.
  18. ^ Tamura K, Nei M (mayo de 1993). "Estimación del número de sustituciones de nucleótidos en la región de control del ADN mitocondrial en humanos y chimpancés". Biología Molecular y Evolución . 10 (3): 512–26. doi : 10.1093/oxfordjournals.molbev.a040023 . PMID  8336541.
  19. ^ ab Tavaré S (1986). "Algunos problemas probabilísticos y estadísticos en el análisis de secuencias de ADN" (PDF) . Conferencias sobre Matemáticas en las Ciencias de la Vida . 17 : 57–86.

Otras lecturas

enlaces externos