Modelo de sustitución

En biología, un modelo de sustitución , también llamado modelo de evolución de secuencia , son modelos de Markov que describen cambios a lo largo del tiempo evolutivo. Estos modelos describen cambios evolutivos en macromoléculas, como secuencias de ADN o secuencias de proteínas , que pueden representarse como secuencias de símbolos (p. ej., A, C, G y T en el caso del ADN o los 20 aminoácidos proteinogénicos "estándar" en el caso de las proteínas ). Los modelos de sustitución se utilizan para calcular la probabilidad de que existan árboles filogenéticos utilizando datos de alineación de secuencias múltiples . Por lo tanto, los modelos de sustitución son fundamentales para la estimación de máxima verosimilitud de la filogenia, así como para la inferencia bayesiana en filogenia . Las estimaciones de distancias evolutivas (número de sustituciones que han ocurrido desde que un par de secuencias divergieron de un ancestro común) generalmente se calculan utilizando modelos de sustitución (las distancias evolutivas se utilizan como entrada para métodos de distancia como la unión de vecinos ). Los modelos de sustitución también son fundamentales para los invariantes filogenéticos porque son necesarios para predecir las frecuencias de patrones de sitios dada una topología de árbol. Los modelos de sustitución también son necesarios para simular datos de secuencia de un grupo de organismos relacionados por un árbol específico.

Topologías de árboles filogenéticos y otros parámetros.

Las topologías de árboles filogenéticos suelen ser el parámetro de interés; ^[1] por lo tanto, las longitudes de las ramas y cualquier otro parámetro que describa el proceso de sustitución a menudo se consideran parámetros molestos . Sin embargo, los biólogos a veces se interesan por otros aspectos del modelo. Por ejemplo, la longitud de las ramas, especialmente cuando esas longitudes se combinan con información del registro fósil y un modelo para estimar el marco temporal de la evolución. ^[2] Se han utilizado otros parámetros del modelo para obtener información sobre diversos aspectos del proceso de evolución. La relación K _a /K _s (también llamada ω en los modelos de sustitución de codones) es un parámetro de interés en muchos estudios. La relación K _a /K _s se puede utilizar para examinar la acción de la selección natural en las regiones codificantes de proteínas, ^[3] proporciona información sobre las tasas relativas de sustituciones de nucleótidos que cambian los aminoácidos (sustituciones no sinónimos) a aquellos que sí lo hacen. no cambiar el aminoácido codificado (sustituciones sinónimas).

Aplicación a secuenciar datos.

La mayor parte del trabajo sobre modelos de sustitución se ha centrado en la evolución de secuencias de ADN/ ARN y proteínas . Los modelos de evolución de la secuencia de ADN, donde el alfabeto corresponde a los cuatro nucleótidos (A, C, G y T), son probablemente los modelos más fáciles de entender. Los modelos de ADN también se pueden utilizar para examinar la evolución de los virus de ARN ; esto refleja el hecho de que el ARN también tiene un alfabeto de cuatro nucleótidos (A, C, G y U). Sin embargo, los modelos de sustitución se pueden utilizar para alfabetos de cualquier tamaño; el alfabeto son los 20 aminoácidos proteinogénicos para las proteínas y los codones sentidos (es decir, los 61 codones que codifican los aminoácidos en el código genético estándar ) para las secuencias de genes codificadores de proteínas alineadas. De hecho, se pueden desarrollar modelos de sustitución para cualquier carácter biológico que pueda codificarse utilizando un alfabeto específico (por ejemplo, secuencias de aminoácidos combinadas con información sobre la conformación de esos aminoácidos en estructuras proteicas tridimensionales ^[4] ).

La mayoría de los modelos de sustitución utilizados para la investigación evolutiva asumen independencia entre sitios (es decir, la probabilidad de observar cualquier patrón de sitio específico es idéntica independientemente de dónde se encuentre el patrón de sitio en la alineación de secuencia). Esto simplifica los cálculos de probabilidad porque sólo es necesario calcular la probabilidad de todos los patrones de sitios que aparecen en la alineación y luego usar esos valores para calcular la probabilidad general de la alineación (por ejemplo, la probabilidad de tres patrones de sitios "GGGG" dado algún modelo de La evolución de la secuencia de ADN es simplemente la probabilidad de un único patrón de sitio "GGGG" elevado a la tercera potencia). Esto significa que se puede considerar que los modelos de sustitución implican una distribución multinomial específica para las frecuencias de patrones de sitio. Si consideramos un alineamiento de secuencia múltiple de cuatro secuencias de ADN, hay 256 patrones de sitios posibles, por lo que hay 255 grados de libertad para las frecuencias de los patrones de sitios. Sin embargo, es posible especificar las frecuencias esperadas del patrón de sitio usando cinco grados de libertad si se utiliza el modelo de evolución del ADN de Jukes-Cantor, ^[5] que es un modelo de sustitución simple que permite calcular las frecuencias esperadas del patrón de sitio solo en el árbol. topología y longitud de las ramas (dados cuatro taxones, un árbol bifurcado sin raíces tiene cinco longitudes de ramas).

Los modelos de sustitución también permiten simular datos de secuencia utilizando métodos de Monte Carlo . Se pueden utilizar alineamientos de secuencias múltiples simulados para evaluar el rendimiento de los métodos filogenéticos ^[6] y generar la distribución nula para ciertas pruebas estadísticas en los campos de la evolución molecular y la filogenética molecular. Ejemplos de estas pruebas incluyen pruebas de ajuste del modelo ^[7] y la "prueba SOWH" que se puede utilizar para examinar topologías de árboles. ^[8]^[9]

Aplicación a datos morfológicos.

El hecho de que los modelos de sustitución puedan usarse para analizar cualquier alfabeto biológico ha hecho posible desarrollar modelos de evolución para conjuntos de datos fenotípicos ^[10] (por ejemplo, rasgos morfológicos y de comportamiento). Normalmente, "0" es. se usa para indicar la ausencia de un rasgo y "1" se usa para indicar la presencia de un rasgo, aunque también es posible calificar personajes usando múltiples estados. Usando este marco, podríamos codificar un conjunto de fenotipos como cadenas binarias (esto podría generalizarse a cadenas de k estados para caracteres con más de dos estados) antes de realizar análisis usando un modo apropiado. Esto se puede ilustrar usando un ejemplo de "juguete": podemos usar un alfabeto binario para calificar los siguientes rasgos fenotípicos "tiene plumas", "pone huevos", "tiene pelaje", "tiene sangre caliente" y "es capaz de generar energía". vuelo". En este ejemplo de juguete, los colibríes tendrían la secuencia 11011 (la mayoría de las demás aves tendrían la misma cuerda), los avestruces tendrían la secuencia 11010, el ganado (y la mayoría de los demás mamíferos terrestres ) tendrían 00110 y los murciélagos tendrían 00111. La probabilidad de una secuencia filogenética Luego, el árbol se puede calcular utilizando esas secuencias binarias y un modelo de sustitución apropiado. La existencia de estos modelos morfológicos hace posible analizar matrices de datos con taxones fósiles, ya sea utilizando datos morfológicos solos ^[11] o una combinación de datos morfológicos y moleculares ^[12] (este último puntuado como datos faltantes para los taxones fósiles) .

Existe una similitud obvia entre el uso de datos moleculares o fenotípicos en el campo de la cladística y el análisis de caracteres morfológicos utilizando un modelo de sustitución. Sin embargo, ha habido un debate ruidoso ^[a] en la comunidad sistemática sobre la cuestión de si los análisis cladísticos deben considerarse "libres de modelos". El campo de la cladística (definido en el sentido más estricto) favorece el uso del criterio de máxima parsimonia para la inferencia filogenética. ^[13] Muchos cladistas rechazan la posición de que la máxima parsimonia se base en un modelo de sustitución y (en muchos casos) justifican el uso de la parsimonia utilizando la filosofía de Karl Popper . ^[14] Sin embargo, la existencia de modelos "equivalentes a la parsimonia" ^[15] (es decir, modelos de sustitución que producen el árbol de parsimonia máxima cuando se utilizan para análisis) hace posible ver la parsimonia como un modelo de sustitución. ^[1]

El reloj molecular y las unidades de tiempo.

Normalmente, la longitud de una rama de un árbol filogenético se expresa como el número esperado de sustituciones por sitio; Si el modelo evolutivo indica que cada sitio dentro de una secuencia ancestral normalmente experimentará x sustituciones en el momento en que evolucione a una secuencia de descendiente particular, entonces se considera que el ancestro y el descendiente están separados por la longitud de la rama x .

A veces, la longitud de una rama se mide en términos de años geológicos. Por ejemplo, un registro fósil puede permitir determinar el número de años entre una especie ancestral y una especie descendiente. Debido a que algunas especies evolucionan a un ritmo más rápido que otras, estas dos medidas de longitud de las ramas no siempre están en proporción directa. El número esperado de sustituciones por sitio por año a menudo se indica con la letra griega mu (μ).

Se dice que un modelo tiene un reloj molecular estricto si el número esperado de sustituciones por año μ es constante independientemente de la evolución de la especie que se esté examinando. Una implicación importante de un reloj molecular estricto es que el número de sustituciones esperadas entre una especie ancestral y cualquiera de sus descendientes actuales debe ser independiente de qué especie descendiente se examine.

Tenga en cuenta que la suposición de un reloj molecular estricto suele ser poco realista, especialmente durante largos períodos de evolución. Por ejemplo, aunque los roedores son genéticamente muy similares a los primates , han sufrido un número mucho mayor de sustituciones en el tiempo estimado desde la divergencia en algunas regiones del genoma . ^[16] Esto podría deberse a su menor tiempo de generación , ^[17] mayor tasa metabólica , mayor estructuración de la población, mayor tasa de especiación o menor tamaño corporal. ^[18]^[19] Cuando se estudian eventos antiguos como la explosión del Cámbrico bajo el supuesto de un reloj molecular, a menudo se observa poca concurrencia entre los datos cladísticos y filogenéticos. Se han realizado algunos trabajos sobre modelos que permiten una tasa de evolución variable. ^[20]^[21]

Los modelos que pueden tener en cuenta la variabilidad del ritmo del reloj molecular entre diferentes linajes evolutivos en la filogenia se denominan "relajados" en oposición a "estrictos". En tales modelos se puede suponer que la tasa está correlacionada o no entre ancestros y descendientes y la variación de la tasa entre linajes se puede extraer de muchas distribuciones, pero generalmente se aplican distribuciones exponenciales y lognormales. Existe un caso especial, llamado “reloj molecular local”, cuando una filogenia se divide en al menos dos particiones (conjuntos de linajes) y en cada una se aplica un reloj molecular estricto, pero con ritmos diferentes.

Modelos estacionarios y reversibles en el tiempo.

Muchos modelos de sustitución útiles son reversibles en el tiempo ; En términos matemáticos, al modelo no le importa qué secuencia es el ancestro y cuál es el descendiente, siempre y cuando todos los demás parámetros (como el número de sustituciones por sitio que se espera entre las dos secuencias) se mantengan constantes.

Cuando se realiza un análisis de datos biológicos reales, generalmente no se tiene acceso a las secuencias de especies ancestrales, sólo a las especies actuales. Sin embargo, cuando un modelo es reversible en el tiempo, es irrelevante qué especie era la especie ancestral. En cambio, el árbol filogenético puede enraizarse utilizando cualquiera de las especies, volver a enraizarse más tarde basándose en nuevos conocimientos o dejarse sin enraizar. Esto se debe a que no existe una especie "especial", todas las especies eventualmente derivarán unas de otras con la misma probabilidad.

Un modelo es reversible en el tiempo si y sólo si satisface la propiedad (la notación se explica a continuación)

\pi _{i}Q_{ij}=\pi _{j}Q_{ji}

o, de manera equivalente, la propiedad del saldo detallado ,

\pi _{i}P(t)_{ij}=\pi _{j}P(t)_{ji}

para cada i , j y t .

La reversibilidad del tiempo no debe confundirse con la estacionariedad . Un modelo es estacionario si Q no cambia con el tiempo. El siguiente análisis supone un modelo estacionario.

Las matemáticas de los modelos de sustitución.

Los modelos de sitios finitos, neutrales, independientes y estacionarios (suponiendo una tasa de evolución constante) tienen dos parámetros, π , un vector de equilibrio de frecuencias de bases (o caracteres) y una matriz de tasas, Q , que describe la tasa a la que las bases de un tipo cambiar a bases de otro tipo; El elemento para i ≠ j es la velocidad a la que la base i pasa a la base j . Las diagonales de la matriz Q se eligen de modo que las filas sumen cero: $Q_{ij}$

Q_{ii}=-{\sum _{\lbrace j\mid j\neq i\rbrace }Q_{ij}}\,,

El vector fila de equilibrio π debe ser aniquilado por la matriz de tasas Q :

\pi \,Q=0\,.

La función de matriz de transición es una función de las longitudes de las ramas (en algunas unidades de tiempo, posiblemente en sustituciones) a una matriz de probabilidades condicionales. Se denota . La entrada en la i ^-ésima columna y la j ^-ésima fila , es la probabilidad, después del tiempo t , de que haya una base j en una posición dada, condicionada a que haya una base i en esa posición en el tiempo 0. Cuando el modelo Es reversible en el tiempo, esto se puede realizar entre dos secuencias cualesquiera, incluso si una no es el antepasado de la otra, si se conoce la longitud total de la rama entre ellas. $P(t)$ $P_{ij}(t)$

Las propiedades asintóticas de P _ij (t) son tales que P _ij (0) = δ _ij , donde δ _ij es la función delta de Kronecker . Es decir, no hay ningún cambio en la composición de bases entre una secuencia y ella misma. En el otro extremo, o, en otras palabras, a medida que el tiempo llega al infinito, la probabilidad de encontrar la base j en una posición dada que originalmente había una base i en esa posición va a la probabilidad de equilibrio de que haya una base j en esa posición, independientemente de de la base original. Además, se deduce que para todo t . $\lim _{t\rightarrow \infty }P_{ij}(t)=\pi _{j}\,,$ $\pi P(t)=\pi$

La matriz de transición se puede calcular a partir de la matriz de tasas mediante la exponenciación matricial :

P(t)=e^{Qt}=\sum _{n=0}^{\infty }Q^{n}{\frac {t^{n}}{n!}}\,,

donde Q ⁿ es la matriz Q multiplicada por sí misma suficientes veces para dar su enésima ^potencia .

Si Q es diagonalizable , la matriz exponencial se puede calcular directamente: sea Q = U ⁻¹ Λ U una diagonalización de Q , con

\Lambda ={\begin{pmatrix}\lambda _{1}&\ldots &0\\\vdots &\ddots &\vdots \\0&\ldots &\lambda _{4}\end{pmatrix}} \,,

donde Λ es una matriz diagonal y donde están los valores propios de Q , cada uno repetido según su multiplicidad. Entonces $\lbrace \lambda _ {i}\rbrace$

P(t)=e^{Qt}=e^{U^{-1}(\Lambda t)U}=U^{-1}e^{\Lambda t}\,U\,,

donde la matriz diagonal e ^Λt está dada por

e^{\Lambda t}={\begin{pmatrix}e^{\lambda _{1}t}&\ldots &0\\\vdots &\ddots &\vdots \\0&\ldots &e^{ \lambda _{4}t}\end{pmatrix}}\,.

Tiempo generalizado reversible

El tiempo generalizado reversible (GTR) es el modelo neutral, independiente, de sitios finitos y reversible en el tiempo más general posible. Fue descrito por primera vez de forma general por Simon Tavaré en 1986. ^[22] El modelo GTR a menudo se denomina modelo general reversible en el tiempo en las publicaciones; ^[23] también se le ha llamado modelo REV. ^[24]

Los parámetros de GTR para nucleótidos consisten en un vector de frecuencia de bases de equilibrio, que proporciona la frecuencia a la que ocurre cada base en cada sitio, y la matriz de tasas. ${\vec {\pi }}=(\pi _{1},\pi _{2},\pi _{3},\pi _{4})$

Q={\begin{pmatrix}{-(x_{1}+x_{2}+x_{3})}&x_{1}&x_{2}&x_{3}\\{\pi _{1) }x_{1} \sobre \pi _{2}}&{-({\pi _{1}x_{1} \sobre \pi _{2}}+x_{4}+x_{5})} &x_{4}&x_{5}\\{\pi _{1}x_{2} \over \pi _{3}}&{\pi _{2}x_{4} \over \pi _{3} }&{-({\pi _{1}x_{2} \over \pi _{3}}+{\pi _{2}x_{4} \over \pi _{3}}+x_{6 })}&x_{6}\\{\pi _{1}x_{3} \over \pi _{4}}&{\pi _{2}x_{5} \over \pi _{4}} &{\pi _{3}x_{6} \over \pi _{4}}&{-({\pi _{1}x_{3} \over \pi _{4}}+{\pi _ {2}x_{5} \over \pi _{4}}+{\pi _{3}x_{6} \over \pi _{4}})}\end{pmatrix}}

Debido a que el modelo debe ser reversible en el tiempo y debe acercarse a las frecuencias de nucleótidos (bases) de equilibrio en tiempos prolongados, cada tasa por debajo de la diagonal es igual a la tasa recíproca por encima de la diagonal multiplicada por la relación de equilibrio de las dos bases. Como tal, el nucleótido GTR requiere 6 parámetros de tasa de sustitución y 4 parámetros de frecuencia de base de equilibrio. Dado que los 4 parámetros de frecuencia deben sumar 1, solo hay 3 parámetros de frecuencia libres. El total de 9 parámetros libres a menudo se reduce aún más a 8 parámetros más el número total de sustituciones por unidad de tiempo. Al medir el tiempo en sustituciones ( =1) sólo quedan 8 parámetros libres. $\mu$ $\mu$

En general, para calcular el número de parámetros, se cuenta el número de entradas por encima de la diagonal en la matriz, es decir, para n valores de rasgos por sitio , y luego se suma n-1 para las frecuencias de equilibrio y se resta 1 porque es fijo. obtienes ${{n^{2}-n} \sobre 2}$ $\mu$

{{n^{2}-n} \over 2}+(n-1)-1={1 \over 2}n^{2}+{1 \over 2}n-2.

Por ejemplo, para una secuencia de aminoácidos (hay 20 aminoácidos "estándar" que forman las proteínas ), encontrará que hay 208 parámetros. Sin embargo, cuando se estudian regiones codificantes del genoma, es más común trabajar con un modelo de sustitución de codones (un codón tiene tres bases y codifica un aminoácido en una proteína). Hay codones, lo que da como resultado 2078 parámetros libres. Sin embargo, a menudo se supone que las tasas de transiciones entre codones que difieren en más de una base son cero, lo que reduce el número de parámetros libres a sólo parámetros. Otra práctica común es reducir el número de codones prohibiendo los codones de terminación (o sin sentido ). Esta es una suposición biológicamente razonable porque incluir los codones de terminación significaría que uno está calculando la probabilidad de encontrar un codón de sentido después de un tiempo, dado que el codón ancestral implicaría la posibilidad de pasar por un estado con un codón de terminación prematuro. $4^{3}=64$ ${{20\times 19\times 3} \over 2}+63-1=632$ $j$ $t$ $i$

Una forma alternativa (y comúnmente utilizada ^[23]^[25]^[26]^[27] ) de escribir la matriz de tasas instantáneas ( matriz) para el modelo GTR de nucleótidos es: $Q$

$Q={\begin{pmatrix}{-(a\pi _{C}+b\pi _{G}+c\pi _{T})}&a\pi _{C}&b\pi _{G}&c\pi _{T}\\a\pi _{A}&{-(a\pi _{A}+d\pi _{G}+e\pi _{T})}&d\pi _{G}&e\pi _{T}\\b\pi _{A}&d\pi _{C}&{-(b\pi _{A}+d\pi _{C}+f\pi _{T})}&f\pi _{T}\\c\pi _{A}&e\pi _{C}&f\pi _{G}&{-(c\pi _{A}+e\pi _{C}+f\pi _{G})}\end{pmatrix}}$

La matriz está normalizada entonces . $Q$ $-\sum _{k=1}^{4}\pi _{i}Q_{ii}=1$

Esta notación es más fácil de entender que la notación utilizada originalmente por Tavaré , porque todos los parámetros del modelo corresponden a parámetros de "intercambiabilidad" ( a través de , que también se pueden escribir usando la notación ) o a frecuencias de nucleótidos de equilibrio . Tenga en cuenta que los nucleótidos de la matriz se han escrito en orden alfabético. En otras palabras, la matriz de probabilidad de transición para la matriz anterior sería: $a$ $f$ $r_{ij}$ ${\vec {\pi }}=(\pi _{A},\pi _{C},\pi _{G},\pi _{T})$ $Q$ $Q$

$P(t)=e^{Qt}={\begin{pmatrix}p_{\mathrm {AA} }(t)&p_{\mathrm {AC} }(t)&p_{\mathrm {AG} }(t)&p_{\mathrm {AT} }(t)\\p_{\mathrm {CA} }(t)&p_{\mathrm {CC} }(t)&p_{\mathrm {CG} }(t)&p_{\mathrm {CT} }(t)\\p_{\mathrm {GA} }(t)&p_{\mathrm {GC} }(t)&p_{\mathrm {GG} }(t)&p_{\mathrm {GT} }(t)\\p_{\mathrm {TA} }(t)&p_{\mathrm {TC} }(t)&p_{\mathrm {TG} }(t)&p_{\mathrm {TT} }(t)\end{pmatrix}}$

Algunas publicaciones escriben los nucleótidos en un orden diferente (p. ej., algunos autores optan por agrupar dos purinas y dos pirimidinas juntas; ver también modelos de evolución del ADN ). Estas diferencias de notación hacen que sea importante tener claro el orden de los estados al escribir la matriz. $Q$

El valor de esta notación es que la tasa de cambio instantáneo de un nucleótido a otro siempre se puede escribir como , donde es la intercambiabilidad de los nucleótidos y y es la frecuencia de equilibrio del nucleótido. La matriz que se muestra arriba utiliza las letras para los parámetros de intercambiabilidad en aras de la legibilidad, pero esos parámetros también podrían escribirse de manera sistemática usando la notación (por ejemplo, , etc.). $i$ $j$ $r_{ij}\pi _{j}$ $r_{ij}$ $i$ $j$ $\pi _{j}$ $j^{th}$ $a$ $f$ $r_{ij}$ $a=r_{AC}$ $b=r_{AG}$

Tenga en cuenta que el orden de los subíndices de nucleótidos para los parámetros de intercambiabilidad es irrelevante (por ejemplo, ), pero los valores de la matriz de probabilidad de transición no lo son (es decir, es la probabilidad de observar A en la secuencia 1 y C en la secuencia 2 cuando la distancia evolutiva entre esas secuencias es mientras que es la probabilidad de observar C en la secuencia 1 y A en la secuencia 2 a la misma distancia evolutiva). $r_{AC}=r_{CA}$ $p_{\mathrm {AC} }(t)$ $t$ $p_{\mathrm {CA} }(t)$

Un parámetro de intercambiabilidad elegido arbitrariamente (por ejemplo, ) normalmente se establece en un valor de 1 para aumentar la legibilidad de las estimaciones de los parámetros de intercambiabilidad (ya que permite a los usuarios expresar esos valores en relación con el parámetro de intercambiabilidad elegido). La práctica de expresar los parámetros de intercambiabilidad en términos relativos no es problemática porque la matriz está normalizada. La normalización permite que (el tiempo) en la exponenciación de la matriz se exprese en unidades de sustituciones esperadas por sitio (práctica estándar en filogenética molecular). Esto equivale a decir que se establece la tasa de mutación en 1) y se reduce el número de parámetros libres a ocho. Específicamente, hay cinco parámetros de intercambiabilidad libre ( a través de , que se expresan en relación con el fijo en este ejemplo) y tres parámetros de frecuencia base de equilibrio (como se describió anteriormente, solo es necesario especificar tres valores porque deben sumar 1). $f=r_{GT}$ $Q$ $t$ $P(t)=e^{Qt}$ $\mu$ $a$ $e$ $f=r_{GT}=1$ $\pi _{i}$ ${\vec {\pi }}$

La notación alternativa también facilita la comprensión de los submodelos del modelo GTR, que simplemente corresponden a casos en los que los parámetros de intercambiabilidad y/o frecuencia base de equilibrio están obligados a tomar valores iguales. Se han nombrado varios submodelos específicos, en gran parte basándose en sus publicaciones originales:

Hay 203 formas posibles de restringir los parámetros de intercambiabilidad para formar submodelos de GTR, ^[34] que van desde los modelos JC69 ^[5] y F81 ^[28] (donde todos los parámetros de intercambiabilidad son iguales) hasta el SYM ^[33]. modelo y el modelo GTR ^[22] (o REV ^[24] ) completo (donde todos los parámetros de intercambiabilidad son gratuitos). Las frecuencias base de equilibrio normalmente se tratan de dos maneras diferentes: 1) todos los valores están obligados a ser iguales (es decir, ); o 2) todos los valores se tratan como parámetros libres. Aunque las frecuencias base de equilibrio pueden restringirse de otras maneras, la mayoría de las restricciones que vinculan algunos pero no todos los valores no son realistas desde un punto de vista biológico. La posible excepción es imponer la simetría de las hebras ^[35] (es decir, restringir pero permitir ). $\pi _{i}$ $\pi _{A}=\pi _{C}=\pi _{G}=\pi _{T}=0.25$ $\pi _{i}$ $\pi _{i}$ $\pi _{A}=\pi _{T}$ $\pi _{C}=\pi _{G}$ $\pi _{A}+\pi _{T}\neq \pi _{C}+\pi _{G}$

La notación alternativa también hace que sea sencillo ver cómo se puede aplicar el modelo GTR a alfabetos biológicos con un espacio de estados más grande (por ejemplo, aminoácidos o codones ). Es posible escribir un conjunto de frecuencias de estados de equilibrio como , , ... y un conjunto de parámetros de intercambiabilidad ( ) para cualquier alfabeto de estados de caracteres. Luego, estos valores se pueden usar para completar la matriz estableciendo los elementos fuera de la diagonal como se muestra arriba (la notación general sería ), estableciendo los elementos diagonales en la suma negativa de los elementos fuera de la diagonal en la misma fila y normalizando. Obviamente, para aminoácidos y codones ( asumiendo el código genético estándar ). Sin embargo, la generalidad de esta notación es beneficiosa porque se pueden utilizar alfabetos reducidos para los aminoácidos. Por ejemplo, se pueden utilizar y codificar aminoácidos recodificando los aminoácidos utilizando las seis categorías propuestas por Margaret Dayhoff . Los alfabetos de aminoácidos reducidos se consideran una forma de reducir el impacto de la variación y saturación de la composición. ^[36] $\pi _{1}$ $\pi _{2}$ $\pi _{k}$ $r_{ij}$ $k$ $Q$ $Q_{ij}=r_{ij}\pi _{j}$ $Q_{ii}$ $k=20$ $k=61$ $k=6$

Es importante destacar que los patrones evolutivos pueden variar entre regiones genómicas y, por lo tanto, diferentes regiones genómicas pueden encajar con diferentes modelos de sustitución. ^[37] En realidad, ignorar los patrones evolutivos heterogéneos a lo largo de las secuencias puede generar sesgos en la estimación de los parámetros evolutivos, incluida la relación K _a /K _s . En este sentido, el uso de modelos mixtos en marcos filogenénticos es conveniente para imitar mejor la evolución molecular observada en datos reales. ^[38]

Modelos mecanicistas versus empíricos

Una diferencia principal entre los modelos evolutivos es cuántos parámetros se estiman cada vez para el conjunto de datos considerado y cuántos de ellos se estiman una vez en un conjunto de datos grande. Los modelos mecanicistas describen todas las sustituciones en función de una serie de parámetros que se estiman para cada conjunto de datos analizado, preferiblemente utilizando la máxima verosimilitud . Esto tiene la ventaja de que el modelo puede ajustarse a las particularidades de un conjunto de datos específico (por ejemplo, diferentes sesgos de composición en el ADN). Pueden surgir problemas cuando se utilizan demasiados parámetros, especialmente si pueden compensarse entre sí (esto puede conducir a la no identificabilidad ^[39] ). Entonces ocurre con frecuencia que el conjunto de datos es demasiado pequeño para producir suficiente información para estimar todos los parámetros con precisión.

Los modelos empíricos se crean estimando muchos parámetros (normalmente todas las entradas de la matriz de tasas, así como las frecuencias de los caracteres, consulte el modelo GTR más arriba) a partir de un gran conjunto de datos. Luego, estos parámetros se fijan y se reutilizarán para cada conjunto de datos. Esto tiene la ventaja de que esos parámetros se pueden estimar con mayor precisión. Normalmente, no es posible estimar todas las entradas de la matriz de sustitución únicamente a partir del conjunto de datos actual. La desventaja es que los parámetros estimados a partir de los datos de entrenamiento pueden ser demasiado genéricos y, por lo tanto, no se ajustan bien a ningún conjunto de datos en particular. Una posible solución a ese problema es estimar algunos parámetros a partir de los datos utilizando la máxima verosimilitud (o algún otro método). En estudios de evolución de proteínas, las frecuencias de equilibrio de los aminoácidos (utilizando los códigos de una letra IUPAC para aminoácidos para indicar sus frecuencias de equilibrio) a menudo se estiman a partir de los datos ^[40] manteniendo fija la matriz de intercambiabilidad. Más allá de la práctica común de estimar las frecuencias de aminoácidos a partir de los datos, se han propuesto métodos para estimar los parámetros de intercambiabilidad ^[41] o ajustar la matriz ^{[42] para la evolución de las proteínas de otras maneras.} ${\vec {\pi }}=(\pi _{A},\pi _{R},\pi _{N},...\pi _{V})$ $Q$

Dado que la secuenciación del genoma a gran escala todavía produce cantidades muy grandes de secuencias de ADN y proteínas, hay suficientes datos disponibles para crear modelos empíricos con cualquier número de parámetros, incluidos modelos empíricos de codones. ^[43] Debido a los problemas mencionados anteriormente, los dos enfoques a menudo se combinan, estimando la mayoría de los parámetros una vez en datos a gran escala, mientras que algunos parámetros restantes luego se ajustan al conjunto de datos bajo consideración. Las siguientes secciones ofrecen una descripción general de los diferentes enfoques adoptados para modelos basados en ADN, proteínas o codones.

Modelos de sustitución de ADN.

El primer modelo de evolución del ADN fue propuesto por Jukes y Cantor ^[5] en 1969. El modelo Jukes-Cantor (JC o JC69) supone tasas de transición iguales así como frecuencias de equilibrio iguales para todas las bases y es el submodelo más simple de la Modelo GTR. En 1980, Motoo Kimura introdujo un modelo con dos parámetros (K2P o K80 ^[29] ): uno para la transición y otro para la tasa de transversión . Un año después, Kimura introdujo un segundo modelo (K3ST, K3P o K81 ^[31] ) con tres tipos de sustitución: uno para la tasa de transición , otro para la tasa de transversiones que conservan las propiedades fuertes/débiles de los nucleótidos ( y , denominado por Kimura ^[31] ), y uno para la tasa de transversiones que conservan las propiedades amino/ceto de los nucleótidos ( y , designado por Kimura ^[31] ). En 1981, Joseph Felsenstein propuso un modelo de cuatro parámetros (F81 ^[28] ) en el que la tasa de sustitución corresponde a la frecuencia de equilibrio del nucleótido objetivo. Hasegawa, Kishino y Yano unificaron los dos últimos modelos en un modelo de cinco parámetros (HKY ^[30] ). Después de estos esfuerzos pioneros, en la década de 1990 se introdujeron en la literatura (y en el uso común) muchos submodelos adicionales del modelo GTR. ^[32]^[33] Varios investigadores también desarrollaron y perfeccionaron otros modelos que van más allá del modelo GTR de maneras específicas. ^[44]^[45] $A\leftrightarrow T$ $C\leftrightarrow G$ $\beta$ $A\leftrightarrow C$ $G\leftrightarrow T$ $\gamma$

Casi todos los modelos de sustitución de ADN son modelos mecanicistas (como se describe anteriormente). El pequeño número de parámetros que es necesario estimar para estos modelos hace factible estimar esos parámetros a partir de los datos. También es necesario porque los patrones de evolución de la secuencia de ADN a menudo difieren entre organismos y entre genes dentro de los organismos. Esto último puede reflejar optimización mediante la acción de selección para propósitos específicos (por ejemplo, expresión rápida o estabilidad del ARN mensajero) o podría reflejar variación neutral en los patrones de sustitución. Por tanto, dependiendo del organismo y del tipo de gen, probablemente sea necesario ajustar el modelo a estas circunstancias.

Modelos de sustitución de dos estados

Una forma alternativa de analizar los datos de la secuencia de ADN es recodificar los nucleótidos como purinas (R) y pirimidinas (Y); ^[46]^[47] esta práctica a menudo se denomina codificación RY. ^[48] Las inserciones y eliminaciones en múltiples alineamientos de secuencias también pueden codificarse como datos binarios ^[49] y analizarse utilizando un modelo de dos estados. ^[50]^[51]

El modelo de evolución de secuencias de dos estados más simple se llama modelo de Cavender-Farris o modelo de Cavender-Farris- Neyman (CFN); El nombre de este modelo refleja el hecho de que fue descrito de forma independiente en varias publicaciones diferentes. ^[52]^[53]^[54] El modelo CFN es idéntico al modelo Jukes-Cantor adaptado a dos estados e incluso ha sido implementado como modelo "JC2" en el popular paquete de software IQ-TREE (usando este modelo en IQ -TREE requiere codificar los datos como 0 y 1 en lugar de R e Y; el popular paquete de software PAUP* puede interpretar una matriz de datos que comprende sólo R e Y como datos para analizar utilizando el modelo CFN). También es sencillo analizar datos binarios utilizando la transformada filogenética de Hadamard . ^[55] El modelo alternativo de dos estados permite que los parámetros de frecuencia de equilibrio de R e Y (o 0 y 1) tomen valores distintos de 0,5 añadiendo un único parámetro libre; este modelo se denomina indistintamente CFu ^[46] o GTR2 (en IQ-TREE).

Modelos de sustitución de aminoácidos.

Para muchos análisis, particularmente para distancias evolutivas más largas, la evolución se modela a nivel de aminoácidos. Dado que no todas las sustituciones de ADN alteran también el aminoácido codificado, se pierde información al observar aminoácidos en lugar de bases de nucleótidos. Sin embargo, varias ventajas hablan a favor del uso de la información de los aminoácidos: el ADN es mucho más propenso a mostrar un sesgo compositivo que los aminoácidos, no todas las posiciones en el ADN evolucionan a la misma velocidad ( es menos probable que las mutaciones no sinónimas queden fijadas en población que los sinónimos ), pero probablemente lo más importante es que debido a esas posiciones de rápida evolución y al tamaño limitado del alfabeto (sólo cuatro estados posibles), el ADN sufre más sustituciones hacia atrás, lo que dificulta estimar con precisión distancias evolutivas más largas.

A diferencia de los modelos de ADN, los modelos de aminoácidos son tradicionalmente modelos empíricos. Fueron pioneros en las décadas de 1960 y 1970 por Dayhoff y sus colaboradores al estimar tasas de reemplazo a partir de alineamientos de proteínas con al menos un 85 % de identidad (originalmente con datos muy limitados ^[56] y finalmente culminando en el modelo Dayhoff PAM de 1978 ^[57] ). . Esto minimizó las posibilidades de observar múltiples sustituciones en un sitio. A partir de la matriz de tasas estimadas, se derivaron una serie de matrices de probabilidad de reemplazo, conocidas con nombres como PAM 250. Las matrices logarítmicas de probabilidades basadas en el modelo PAM de Dayhoff se usaban comúnmente para evaluar la importancia de los resultados de la búsqueda de homología, aunque las matrices BLOSUM ^{[ 58]} han reemplazado las matrices de probabilidades logarítmicas PAM en este contexto porque las matrices BLOSUM parecen ser más sensibles en una variedad de distancias evolutivas, a diferencia de las matrices de probabilidades logarítmicas PAM . ^[59]

La matriz PAM de Dayhoff fue la fuente de los parámetros de intercambiabilidad utilizados en uno de los primeros análisis de filogenia de máxima verosimilitud que utilizó datos de proteínas ^[60] y el modelo PAM (o una versión mejorada del modelo PAM llamada DCMut ^[61] ) continúa para ser utilizado en filogenética. Sin embargo, el número limitado de alineamientos utilizados para generar el modelo PAM (que refleja la cantidad limitada de datos de secuencia disponibles en la década de 1970) casi con certeza infló la varianza de algunos parámetros de la matriz de tasas (alternativamente, las proteínas utilizadas para generar el modelo PAM podrían haber sido un conjunto no representativo). Independientemente, está claro que el modelo PAM rara vez se ajusta tan bien a la mayoría de los conjuntos de datos como los modelos empíricos más modernos (Keane et al. 2006 ^[62] probaron miles de proteínas de vertebrados , bacterias y arqueas y encontraron que el modelo PAM de Dayhoff modelo tenía el mejor ajuste a como máximo <4% de las proteínas).

A partir de la década de 1990, la rápida expansión de las bases de datos de secuencias debido a las tecnologías de secuenciación mejoradas condujo a la estimación de muchas matrices empíricas nuevas (consulte ^[63] para obtener una lista completa). Los primeros esfuerzos utilizaron métodos similares a los utilizados por Dayhoff, utilizando coincidencias a gran escala de la base de datos de proteínas para generar una nueva matriz de probabilidades logarítmicas ^[64] y el modelo JTT (Jones-Taylor-Thornton). ^[65] Los rápidos aumentos en la potencia de cálculo durante este tiempo (que reflejan factores como la ley de Moore ) hicieron posible estimar parámetros para modelos empíricos utilizando la máxima verosimilitud (por ejemplo, los modelos WAG ^[40] y LG ^[66] ) y otros métodos. (p. ej., los modelos VT ^[67] y PMB ^[68] ). El paquete de software IQ-Tree permite a los usuarios inferir su propio modelo reversible en el tiempo usando QMaker, ^[69] o no reversible en el tiempo usando nQMaker. ^[70]

El modelo sin mecanismo común (NCM) y la máxima parsimonia

En 1997, Tuffley y Steel ^[71] describieron un modelo al que denominaron modelo sin mecanismo común (NCM). La topología del árbol de máxima verosimilitud para un conjunto de datos específico dado el modelo NCM es idéntica a la topología del árbol óptimo para los mismos datos dado el criterio de máxima parsimonia . El modelo NCM supone que todos los datos (p. ej., nucleótidos homólogos, aminoácidos o caracteres morfológicos) están relacionados por un árbol filogenético común. Luego se introducen parámetros para cada carácter homólogo, donde está el número de secuencias. Esto puede verse como una estimación de un parámetro de tasa separado para cada par de carácter × rama en el conjunto de datos (tenga en cuenta que el número de ramas en un árbol filogenético completamente resuelto es ). Por lo tanto, el número de parámetros libres en el modelo NCM siempre excede el número de caracteres homólogos en la matriz de datos, y el modelo NCM ha sido criticado por estar constantemente "sobreparametrizado". ^[72] $2T-3$ $T$ $2T-3$

Referencias

^ ab Steel M, Penny D (junio de 2000). "Parsimonia, probabilidad y el papel de los modelos en filogenética molecular". Biología Molecular y Evolución . 17 (6): 839–850. doi : 10.1093/oxfordjournals.molbev.a026364 . PMID 10833190.
^ Bromham L (mayo de 2019). "Seis cosas imposibles antes del desayuno: suposiciones, modelos y creencias en la datación molecular". Tendencias en ecología y evolución . 34 (5): 474–486. doi : 10.1016/j.tree.2019.01.017. PMID 30904189. S2CID 85496215.
^ Yang Z, Bielawski JP (diciembre de 2000). "Métodos estadísticos para detectar la adaptación molecular". Tendencias en ecología y evolución . 15 (12): 496–503. doi :10.1016/s0169-5347(00)01994-7. PMC 7134603 . PMID 11114436.
^ Perron U, Kozlov AM, Stamatakis A, Goldman N, Moal IH (septiembre de 2019). Pupko T (ed.). "Modelado de restricciones estructurales en la evolución de proteínas a través de estados conformacionales de cadenas laterales". Biología Molecular y Evolución . 36 (9): 2086–2103. doi :10.1093/molbev/msz122. PMC 6736381 . PMID 31114882.
^ abcd Jukes TH, Cantor CH (1969). "Evolución de las moléculas de proteínas". En Munro HN (ed.). Metabolismo de las proteínas de los mamíferos . vol. 3. Elsevier. págs. 21-132. doi :10.1016/b978-1-4832-3211-9.50009-7. ISBN 978-1-4832-3211-9.
^ Huelsenbeck JP, Hillis DM (1 de septiembre de 1993). "Éxito de los métodos filogenéticos en el caso de los cuatro taxones". Biología Sistemática . 42 (3): 247–264. doi : 10.1093/sysbio/42.3.247. ISSN 1063-5157.
^ Goldman N (febrero de 1993). "Pruebas estadísticas de modelos de sustitución de ADN". Revista de evolución molecular . 36 (2): 182–198. Código Bib : 1993JMolE..36..182G. doi :10.1007/BF00166252. PMID 7679448. S2CID 29354147.
^ Swofford DL Olsen GJ Waddell PJ Hillis DM 1996. "Inferencia filogenética". en Sistemática molecular (ed. Hillis DM Moritz C. Mable BK) 2ª ed. Sunderland, MA: Sinauer. pag. 407–514. ISBN 978-0878932825
^ Church SH, Ryan JF, Dunn CW (noviembre de 2015). "Automatización y Evaluación de la Prueba SOWH con SOWHAT". Biología Sistemática . 64 (6): 1048-1058. doi :10.1093/sysbio/syv055. PMC 4604836 . PMID 26231182.
^ Lewis PO (1 de noviembre de 2001). "Un enfoque de probabilidad para estimar la filogenia a partir de datos de caracteres morfológicos discretos". Biología Sistemática . 50 (6): 913–925. doi : 10.1080/106351501753462876 . PMID 12116640.
^ Lee MS, Cau A, Naish D, Dyke GJ (mayo de 2014). "Relojes morfológicos en paleontología y el origen de las Aves de la corona del Cretácico medio". Biología Sistemática . 63 (3): 442–449. doi : 10.1093/sysbio/syt110 . PMID 24449041.
^ Ronquist F, Klopfstein S, Vilhelmsen L, Schulmeister S, Murray DL, Rasnitsyn AP (diciembre de 2012). "Un enfoque de evidencia total para la datación con fósiles, aplicado a la radiación temprana de los himenópteros". Biología Sistemática . 61 (6): 973–999. doi : 10.1093/sysbio/sys058. PMC 3478566 . PMID 22723471.
^ Brower, AVZ. (2016). "¿Somos todos cladistas?" en Williams, D., Schmitt, M. y Wheeler, Q. (Eds.). El futuro de la sistemática filogenética: el legado de Willi Hennig (Serie de volúmenes especiales de la Asociación de Sistemática, libro 86). Prensa de la Universidad de Cambridge. págs. 88-114 ISBN 978-1107117648
^ Farris JS, Kluge AG, Carpenter JM (junio de 2001). Olmstead R (ed.). "Popper y probabilidad versus" Popper"". Biología Sistemática . 50 (3): 438–444. doi : 10.1080/10635150119150 . PMID 12116585.
^ Goldman, Nick (diciembre de 1990). "Inferencia de máxima verosimilitud de árboles filogenéticos, con especial referencia a un modelo de proceso de Poisson de sustitución de ADN y análisis de parsimonia". Zoología Sistemática . 39 (4): 345–361. doi :10.2307/2992355. JSTOR 2992355.
^ Gu X, Li WH (septiembre de 1992). "Tasas más altas de sustitución de aminoácidos en roedores que en humanos". Filogenética molecular y evolución . 1 (3): 211–214. doi : 10.1016/1055-7903(92)90017-B . PMID 1342937.
^ Li WH, Ellsworth DL, Krushkal J, Chang BH, Hewett-Emmett D (febrero de 1996). "Tasas de sustitución de nucleótidos en primates y roedores y la hipótesis del efecto tiempo de generación". Filogenética molecular y evolución . 5 (1): 182–187. doi :10.1006/mpev.1996.0012. PMID 8673286.
^ Martín AP, Palumbi SR (mayo de 1993). "Tamaño corporal, tasa metabólica, tiempo de generación y reloj molecular". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 90 (9): 4087–4091. Código bibliográfico : 1993PNAS...90.4087M. doi : 10.1073/pnas.90.9.4087 . PMC 46451 . PMID 8483925.
^ Yang Z, Nielsen R (abril de 1998). "Variación de la tasa de sinónimos y no sinónimos en genes nucleares de mamíferos". Revista de evolución molecular . 46 (4): 409–418. Código Bib : 1998JMolE..46..409Y. CiteSeerX 10.1.1.19.7744 . doi :10.1007/PL00006320. PMID 9541535. S2CID 13917969.
^ Kishino H, Thorne JL, Bruno WJ (marzo de 2001). "Desempeño de un método de estimación del tiempo de divergencia bajo un modelo probabilístico de evolución de tasas". Biología Molecular y Evolución . 18 (3): 352–361. doi : 10.1093/oxfordjournals.molbev.a003811 . PMID 11230536.
^ Thorne JL, Kishino H, pintor IS (diciembre de 1998). "Estimación de la tasa de evolución de la tasa de evolución molecular". Biología Molecular y Evolución . 15 (12): 1647–1657. doi : 10.1093/oxfordjournals.molbev.a025892 . PMID 9866200.
^ abc Tavaré S. "Algunos problemas probabilísticos y estadísticos en el análisis de secuencias de ADN" (PDF) . Conferencias sobre Matemáticas en las Ciencias de la Vida . 17 : 57–86.
^ ab Yang Z (2006). Evolución molecular computacional . Oxford: prensa de la Universidad de Oxford. ISBN 978-1-4294-5951-8. OCLC 99664975.
^ abc Yang Z (julio de 1994). "Estimación del patrón de sustitución de nucleótidos". Revista de evolución molecular . 39 (1): 105-111. Código Bib : 1994JMolE..39..105Y. doi :10.1007/BF00178256. PMID 8064867. S2CID 15895455.
^ Swofford, DL, Olsen, GJ, Waddell, PJ y Hillis, DM (1996) Inferencia filogenética. En: Hillis, DM, Moritz, C. y Mable, BK, Eds., Molecular Systematics, 2.ª edición, Sinauer Associates, Sunderland (MA), 407-514. ISBN 0878932828 ISBN 978-0878932825
^ Felsenstein J (2004). Inferir filogenias . Sunderland, Massachusetts: Sinauer Associates. ISBN 0-87893-177-5. OCLC 52127769.
^ Swofford DL, Bell CD (1997). "(Borrador) manual PAUP *" . Consultado el 31 de diciembre de 2019 .
^ abc Felsenstein J (noviembre de 1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Revista de evolución molecular . 17 (6): 368–376. Código Bib : 1981JMolE..17..368F. doi :10.1007/BF01734359. PMID 7288891. S2CID 8024924.
^ ab Kimura M (diciembre de 1980). "Un método sencillo para estimar tasas evolutivas de sustituciones de bases mediante estudios comparativos de secuencias de nucleótidos". Revista de evolución molecular . 16 (2): 111-120. Código Bib : 1980JMolE..16..111K. doi :10.1007/BF01731581. PMID 7463489. S2CID 19528200.
^ ab Hasegawa M, Kishino H, Yano T (octubre de 1985). "Datación de la división humano-simio mediante un reloj molecular de ADN mitocondrial". Revista de evolución molecular . 22 (2): 160-174. Código Bib : 1985JMolE..22..160H. doi :10.1007/BF02101694. PMID 3934395. S2CID 25554168.
^ abcd Kimura M (enero de 1981). "Estimación de distancias evolutivas entre secuencias de nucleótidos homólogas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 78 (1): 454–458. Código bibliográfico : 1981PNAS...78..454K. doi : 10.1073/pnas.78.1.454 . PMC 319072 . PMID 6165991.
^ ab Tamura K, Nei M (mayo de 1993). "Estimación del número de sustituciones de nucleótidos en la región de control del ADN mitocondrial en humanos y chimpancés". Biología Molecular y Evolución . 10 (3): 512–526. doi : 10.1093/oxfordjournals.molbev.a040023 . PMID 8336541.
^ abc Zharkikh A (septiembre de 1994). "Estimación de distancias evolutivas entre secuencias de nucleótidos". Revista de evolución molecular . 39 (3): 315–329. Código Bib : 1994JMolE..39..315Z. doi :10.1007/BF00160155. PMID 7932793. S2CID 33845318.
^ Huelsenbeck JP, Larget B, Alfaro ME (junio de 2004). "Selección del modelo filogenético bayesiano mediante salto reversible de la cadena de Markov Monte Carlo". Biología Molecular y Evolución . 21 (6): 1123–1133. doi : 10.1093/molbev/msh123 . PMID 15034130.
^ Yap VB, Pachter L (abril de 2004). "Identificación de puntos críticos evolutivos en los genomas de roedores". Investigación del genoma . 14 (4): 574–579. doi :10.1101/gr.1967904. PMC 383301 . PMID 15059998.
^ Susko E, Roger AJ (septiembre de 2007). "Sobre alfabetos de aminoácidos reducidos para inferencia filogenética". Biología Molecular y Evolución . 24 (9): 2139–2150. doi : 10.1093/molbev/msm144 . PMID 17652333.
^ Arbiza, Leonardo; Patricio, Mateus; Dopazo, Hernán; Posada, David (1 de enero de 2011). "Heterogeneidad de todo el genoma del ajuste del modelo de sustitución de nucleótidos". Biología y evolución del genoma . 3 : 896–908. doi : 10.1093/gbe/evr080. ISSN 1759-6653. PMC 3175760 . PMID 21824869.
^ Halpern, AL; Bruno, WJ (1 de julio de 1998). "Distancias evolutivas para secuencias codificantes de proteínas: modelado de frecuencias de residuos específicas del sitio". Biología Molecular y Evolución . 15 (7): 910–917. doi : 10.1093/oxfordjournals.molbev.a025995. ISSN 0737-4038. PMID 9656490.
^ Ponciano JM, Burleigh JG, Braun EL, Taper ML (diciembre de 2012). "Evaluación de la identificabilidad de parámetros en modelos filogenéticos mediante clonación de datos". Biología Sistemática . 61 (6): 955–972. doi :10.1093/sysbio/sys055. PMC 3478565 . PMID 22649181.
^ ab Whelan S, Goldman N (mayo de 2001). "Un modelo empírico general de evolución de proteínas derivado de múltiples familias de proteínas utilizando un enfoque de máxima verosimilitud". Biología Molecular y Evolución . 18 (5): 691–699. doi : 10.1093/oxfordjournals.molbev.a003851 . PMID 11319253.
^ Braun EL (julio de 2018). "Un modelo evolutivo motivado por las propiedades fisicoquímicas de los aminoácidos revela variación entre proteínas". Bioinformática . 34 (13): i350-i356. doi : 10.1093/bioinformática/bty261. PMC 6022633 . PMID 29950007.
^ Goldman N, Whelan S (noviembre de 2002). "Un uso novedoso de frecuencias de equilibrio en modelos de evolución de secuencias". Biología Molecular y Evolución . 19 (11): 1821–1831. doi : 10.1093/oxfordjournals.molbev.a004007 . PMID 12411592.
^ Kosiol C, Holmes I, Goldman N (julio de 2007). "Un modelo empírico de codones para la evolución de secuencias de proteínas". Biología Molecular y Evolución . 24 (7): 1464-1479. doi : 10.1093/molbev/msm064 . PMID 17400572.
^ Tamura K (julio de 1992). "Estimación del número de sustituciones de nucleótidos cuando existen fuertes sesgos de transición-transversión y contenido de G + C". Biología Molecular y Evolución . 9 (4): 678–687. doi : 10.1093/oxfordjournals.molbev.a040752 . PMID 1630306.
^ Halpern AL, Bruno WJ (julio de 1998). "Distancias evolutivas para secuencias codificantes de proteínas: modelado de frecuencias de residuos específicas de sitio". Biología Molecular y Evolución . 15 (7): 910–917. doi : 10.1093/oxfordjournals.molbev.a025995 . PMID 9656490. S2CID 7332698.
^ ab Braun EL, Kimball RT (agosto de 2002). Kjer K (ed.). "Examen de las divergencias basales de las aves con secuencias mitocondriales: complejidad del modelo, muestreo de taxones y longitud de la secuencia". Biología Sistemática . 51 (4): 614–625. doi : 10.1080/10635150290102294 . PMID 12228003.
^ Phillips MJ, Delsuc F, Penny D (julio de 2004). "Filogenia a escala del genoma y detección de sesgos sistemáticos". Biología Molecular y Evolución . 21 (7): 1455-1458. doi : 10.1093/molbev/msh137 . PMID 15084674.
^ Ishikawa SA, Inagaki Y, Hashimoto T (enero de 2012). "Los modelos no homogéneos y de codificación RY pueden mejorar las inferencias de máxima verosimilitud a partir de datos de secuencia de nucleótidos con heterogeneidad composicional paralela". Bioinformática evolutiva en línea . 8 : 357–371. doi :10.4137/EBO.S9017. PMC 3394461 . PMID 22798721.
^ Simmons MP, Ochoterena H (junio de 2000). "Brechas como personajes en análisis filogenéticos basados en secuencias". Biología Sistemática . 49 (2): 369–381. doi : 10.1093/sysbio/49.2.369 . PMID 12118412.
^ Yuri T, Kimball RT, Harshman J, Bowie RC, Braun MJ, Chojnowski JL y otros. (Marzo de 2013). "La parsimonia y los análisis basados en modelos de indeles en genes nucleares aviares revelan señales filogenéticas congruentes e incongruentes". Biología . 2 (1): 419–444. doi : 10.3390/biología2010419 . PMC 4009869 . PMID 24832669.
^ Houde P, Braun EL, Narula N, Minjares U, Mirarab S (6 de julio de 2019). "Señal filogenética de Indels y la radiación neoaviana". Diversidad . 11 (7): 108. doi : 10.3390/d11070108 .
^ Cavender JA (agosto de 1978). "Taxonomía con confianza". Biociencias Matemáticas . 40 (3–4): 271–280. doi :10.1016/0025-5564(78)90089-5.
^ Farris JS (1 de septiembre de 1973). "Un modelo de probabilidad para inferir árboles evolutivos". Biología Sistemática . 22 (3): 250–256. doi :10.1093/sysbio/22.3.250. ISSN 1063-5157.
^ Neyman J (1971). Gupta SS, Yackel J (eds.). Estudios moleculares de la evolución: una fuente de nuevos problemas estadísticos . Nueva York, NY, Estados Unidos: New York Academic Press. págs. 1–27.
^ Waddell PJ, Penny D, Moore T (agosto de 1997). "Conjugaciones de Hadamard y modelado de evolución de secuencias con tasas desiguales entre sitios". Filogenética molecular y evolución . 8 (1): 33–50. doi :10.1006/mpev.1997.0405. PMID 9242594.
^ Dayhoff MO, Eck RV, Parque CM (1969). "Un modelo de cambio evolutivo en proteínas". En Dayhoff MO (ed.). Atlas de secuencia y estructura de proteínas . vol. 4. págs. 75–84.
^ Dayhoff MO, Schwartz RM, Orcutt BC (1978). "Un modelo de cambio evolutivo en proteínas" (PDF) . En Dayhoff MO (ed.). Atlas de secuencia y estructura de proteínas . vol. 5. págs. 345–352.
^ Henikoff S, Henikoff JG (noviembre de 1992). "Matrices de sustitución de aminoácidos a partir de bloques de proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (22): 10915–10919. Código bibliográfico : 1992PNAS...8910915H. doi : 10.1073/pnas.89.22.10915 . PMC 50453 . PMID 1438297.
^ Altschul SF (marzo de 1993). "Un sistema de puntuación de alineación de proteínas sensible a todas las distancias evolutivas". Revista de evolución molecular . 36 (3): 290–300. Código Bib : 1993JMolE..36..290A. doi :10.1007/BF00160485. PMID 8483166. S2CID 22532856.
^ Kishino H, Miyata T, Hasegawa M (agosto de 1990). "Inferencia de máxima verosimilitud de la filogenia de las proteínas y el origen de los cloroplastos". Revista de evolución molecular . 31 (2): 151-160. Código Bib : 1990JMolE..31..151K. doi :10.1007/BF02109483. S2CID 24650412.
^ Kosiol C, Goldman N (febrero de 2005). "Diferentes versiones de la matriz tarifaria de Dayhoff". Biología Molecular y Evolución . 22 (2): 193–199. doi : 10.1093/molbev/msi005 . PMID 15483331.
^ Keane TM, Creevey CJ, Pentony MM, Naughton TJ, Mclnerney JO (marzo de 2006). "La evaluación de los métodos para la selección de la matriz de aminoácidos y su uso en datos empíricos muestra que las suposiciones ad hoc para la elección de la matriz no están justificadas". Biología Evolutiva del BMC . 6 (1): 29. Código bibliográfico : 2006BMCEE...6...29K. doi : 10.1186/1471-2148-6-29 . PMC 1435933 . PMID 16563161.
^ Bigot T, Guglielmini J, Criscuolo A (agosto de 2019). "Datos de simulación para la estimación de constantes numéricas para aproximar distancias evolutivas por pares entre secuencias de aminoácidos". Datos en resumen . 25 : 104212. Código Bib : 2019DIB....2504212B. doi : 10.1016/j.dib.2019.104212 . PMC 6699465 . PMID 31440543.
^ Gonnet GH, Cohen MA, Benner SA (junio de 1992). "Emparejamiento exhaustivo de toda la base de datos de secuencias de proteínas". Ciencia . 256 (5062): 1443-1445. Código Bib : 1992 Ciencia... 256.1443G. doi : 10.1126/ciencia.1604319. PMID 1604319.
^ Jones DT, Taylor WR, Thornton JM (junio de 1992). "La rápida generación de matrices de datos de mutaciones a partir de secuencias de proteínas". Aplicaciones Informáticas en las Biociencias . 8 (3): 275–282. doi : 10.1093/bioinformática/8.3.275. PMID 1633570.
^ Le SQ, Gascuel O (julio de 2008). "Una matriz general mejorada de sustitución de aminoácidos". Biología Molecular y Evolución . 25 (7): 1307-1320. doi : 10.1093/molbev/msn067 . PMID 18367465.
^ Müller T, Vingron M (diciembre de 2000). "Modelado de reemplazo de aminoácidos". Revista de biología computacional . 7 (6): 761–776. doi :10.1089/10665270050514918. PMID 11382360.
^ Veerassamy S, Smith A, Tillier ER (diciembre de 2003). "Un modelo de probabilidad de transición para sustituciones de aminoácidos a partir de bloques". Revista de biología computacional . 10 (6): 997–1010. doi :10.1089/106652703322756195. PMID 14980022.
^ Minh, Bui Quang; Dang, Cuong Cao; Vinh, Le Sy; Lanfear, Robert (11 de agosto de 2021). "QMaker: método rápido y preciso para estimar modelos empíricos de evolución de proteínas". Biología Sistemática . 70 (5): 1046-1060. doi : 10.1093/sysbio/syab010 . PMC 8357343 . PMID 33616668.
^ Maldita sea, Cuong Cao; Minh, Bui Quang; McShea, Hanón; Masel, Joanna; James, Jennifer Leonor; Vinh, Le Sy; Lanfear, Robert (9 de febrero de 2022). "nQMaker: Estimación de modelos de sustitución de aminoácidos no reversibles en el tiempo". Biología Sistemática . 71 (5): 1110-1123. doi : 10.1093/sysbio/syac007 . PMC 9366462 . PMID 35139203.
^ Tuffley C, Steel M (mayo de 1997). "Vínculos entre máxima verosimilitud y máxima parsimonia bajo un modelo simple de sustitución de sitios". Boletín de Biología Matemática . 59 (3): 581–607. doi :10.1007/bf02459467. PMID 9172826. S2CID 189885872.
^ Titular MT, Lewis PO, Swofford DL (julio de 2010). "El criterio de información akaike no elegirá el modelo sin mecanismo común". Biología Sistemática . 59 (4): 477–485. doi : 10.1093/sysbio/syq028 . hdl : 1808/9209 . PMID 20547783. Un buen modelo para la inferencia filogenética debe ser lo suficientemente rico como para abordar las fuentes de ruido en los datos, pero la estimación de ML realizada utilizando modelos que están claramente sobreparametrizados puede llevar a conclusiones drásticamente erróneas. El modelo NCM ciertamente cae en el ámbito de ser demasiado rico en parámetros para servir como justificación del uso de la parsimonia basándose en que es un estimador ML bajo un modelo general.

Enlaces externos

Modelos empíricos de sustitución de aminoácidos

Notas

^ El enlace describe la controversia #ParsimonyGate, que proporciona un ejemplo concreto del debate sobre la naturaleza filosófica del criterio de máxima parsimonia. #ParsimonyGate fue la reacción en Twitter a un editorial de la revista Cladistics, publicado por la Willi Hennig Society. El editorial afirma que "...el paradigma epistemológico de esta revista es la parsimonia" y afirma que existen razones filosóficas para preferir la parsimonia a otros métodos de inferencia filogenética. Dado que otros métodos (es decir, máxima verosimilitud, inferencia bayesiana, invariantes filogenéticos y la mayoría de los métodos a distancia) de inferencia filogenética se basan en modelos, esta afirmación rechaza implícitamente la noción de que la parsimonia sea un modelo.