Matriz de sustitución

En bioinformática y biología evolutiva , una matriz de sustitución describe la frecuencia con la que un carácter en una secuencia de nucleótidos o una secuencia de proteínas cambia a otros estados de carácter a lo largo del tiempo evolutivo. La información suele presentarse en forma de probabilidades logarítmicas de encontrar dos estados de carácter específicos alineados y depende del número supuesto de cambios evolutivos o de la disimilitud de secuencia entre secuencias comparadas. Es una aplicación de una matriz estocástica . Las matrices de sustitución generalmente se ven en el contexto de alineamientos de secuencias de aminoácidos o de ADN , donde se utilizan para calcular puntuaciones de similitud entre las secuencias alineadas. ^[1]

Fondo

En el proceso de evolución , de una generación a otra las secuencias de aminoácidos de las proteínas de un organismo se van alterando gradualmente mediante la acción de mutaciones en el ADN. Por ejemplo, la secuencia

ALEI R YLRD

podría mutar en la secuencia

ALEI N YLRD

en un solo paso, y posiblemente

A Q EI N Y Q RD

durante un período más largo de tiempo evolutivo. Es más o menos probable que cada aminoácido mute en otros aminoácidos. Por ejemplo, es más probable que un residuo hidrofílico como la arginina sea reemplazado por otro residuo hidrofílico como la glutamina , que que mute en un residuo hidrofóbico como la leucina . (Aquí, un residuo se refiere a un aminoácido despojado de un hidrógeno y/o un grupo hidroxilo e insertado en la cadena polimérica de una proteína). Esto se debe principalmente a la redundancia en el código genético , que traduce codones similares en aminoácidos similares. . Además, mutar un aminoácido a un residuo con propiedades significativamente diferentes podría afectar el plegamiento y/o la actividad de la proteína. Es probable que este tipo de sustitución disruptiva se elimine de las poblaciones mediante la acción de la selección purificadora porque la sustitución tiene una mayor probabilidad de hacer que una proteína no sea funcional. ^[2]

Si tenemos dos secuencias de aminoácidos frente a nosotros, deberíamos poder decir algo sobre la probabilidad de que deriven de un ancestro común u homólogo . Si podemos alinear las dos secuencias usando un algoritmo de alineación de secuencias de modo que las mutaciones requeridas para transformar una secuencia ancestral hipotética en ambas secuencias actuales sean evolutivamente plausibles, entonces nos gustaría asignar una puntuación alta a la comparación de las dos secuencias. secuencias.

Para ello construiremos una matriz de 20x20 donde la enésima entrada es igual a la probabilidad de que el enésimo aminoácido se transforme en el enésimo aminoácido en un determinado tiempo evolutivo. Hay muchas formas diferentes de construir una matriz de este tipo, llamada matriz de sustitución . Estos son los más utilizados: $(i,j)$ $i$ $j$

Matriz de identidad

La matriz de sustitución más simple posible sería aquella en la que cada aminoácido se considerara máximamente similar a sí mismo, pero no capaz de transformarse en ningún otro aminoácido. Esta matriz se vería así

{\begin{bmatrix}1&0&\cdots &0&0\\0&1&&0&0\\\vdots &&\ddots &&\vdots \\0&0&&1&0\\0&0&\cdots &0&1\end{bmatrix}}

Esta matriz de identidad tendrá éxito en el alineamiento de secuencias de aminoácidos muy similares, pero será miserable al alinear dos secuencias lejanamente relacionadas. Necesitamos calcular todas las probabilidades de una manera más rigurosa. Resulta que un examen empírico de secuencias previamente alineadas funciona mejor.

Matrices de probabilidades logarítmicas

Expresamos las probabilidades de transformación en lo que se denominan puntuaciones de probabilidades logarítmicas . La matriz de puntuaciones S se define como

S_{i,j}=\log {\frac {p_{i}\cdot M_{i,j}}{p_{i}\cdot p_{j}}}=\log {\frac {M_{i,j}}{p_{j}}}=\log {\frac {\text{observed frequency}}{\text{expected frequency}}},

donde es la probabilidad de que un aminoácido se transforme en aminoácido , y , son las frecuencias de los aminoácidos i y j . La base del logaritmo no es importante y la misma matriz de sustitución a menudo se expresa en bases diferentes. $M_{i,j}$ $i$ $j$ $p_{i}$ $p_{j}$

Matrices de ejemplo

PAM

Una de las primeras matrices de sustitución de aminoácidos, la matriz PAM ( mutación puntual aceptada ), fue desarrollada por Margaret Dayhoff en la década de 1970. Esta matriz se calcula observando las diferencias en proteínas estrechamente relacionadas. Debido al uso de homólogos muy estrechamente relacionados, no se espera que las mutaciones observadas cambien significativamente las funciones comunes de las proteínas. Por tanto, las sustituciones observadas (por mutaciones puntuales) se consideran aceptadas por la selección natural.

Una unidad PAM se define como el 1% de las posiciones de aminoácidos que han sido cambiadas. Para crear una matriz de sustitución PAM1, se elige un grupo de secuencias muy relacionadas con frecuencias de mutación correspondientes a una unidad PAM. A partir de los datos mutacionales recopilados de este grupo de secuencias, se puede derivar una matriz de sustitución. Esta matriz PAM1 estima qué tasa de sustitución se esperaría si hubiera cambiado el 1% de los aminoácidos.

La matriz PAM1 se utiliza como base para calcular otras matrices asumiendo que las mutaciones repetidas seguirían el mismo patrón que las de la matriz PAM1 y que pueden ocurrir múltiples sustituciones en el mismo sitio. Con este supuesto, la matriz PAM2 se puede estimar elevando al cuadrado las probabilidades. Utilizando esta lógica, Dayhoff obtuvo matrices tan altas como PAM250. Normalmente se utilizan el PAM 30 y el PAM70.

FLOR

La metodología de Dayhoff de comparar especies estrechamente relacionadas resultó no funcionar muy bien para alinear secuencias evolutivamente divergentes. Los cambios de secuencia en escalas de tiempo evolutivas largas no se aproximan bien combinando pequeños cambios que ocurren en escalas de tiempo cortas. La serie de matrices BLOSUM (BLOck SUbstitution Matrix) rectifica este problema. Henikoff y Henikoff construyeron estas matrices utilizando múltiples alineamientos de proteínas evolutivamente divergentes. Las probabilidades utilizadas en el cálculo de la matriz se calculan observando "bloques" de secuencias conservadas que se encuentran en múltiples alineamientos de proteínas. Se supone que estas secuencias conservadas son de importancia funcional dentro de proteínas relacionadas y, por lo tanto, tendrán tasas de sustitución más bajas que las regiones menos conservadas. Para reducir el sesgo de secuencias estrechamente relacionadas en las tasas de sustitución, se agruparon segmentos en un bloque con una identidad de secuencia por encima de un cierto umbral, reduciendo el peso de cada uno de esos grupos (Henikoff y Henikoff). Para la matriz BLOSUM62, este umbral se fijó en 62%. Luego se contaron las frecuencias de los pares entre grupos, por lo que los pares solo se contaron entre segmentos con menos del 62% de identidad. Se usaría una matriz BLOSUM con un número más alto para alinear dos secuencias estrechamente relacionadas y un número más bajo para secuencias más divergentes.

Resulta que la matriz BLOSUM62 hace un excelente trabajo detectando similitudes en secuencias distantes, y esta es la matriz utilizada por defecto en las aplicaciones de alineación más recientes como BLAST .

Diferencias entre PAM y BLOSUM

Las matrices PAM se basan en un modelo evolutivo explícito (es decir, los reemplazos se cuentan en las ramas de un árbol filogenético: parismonía máxima), mientras que las matrices BLOSUM se basan en un modelo implícito de evolución.
Las matrices PAM se basan en mutaciones observadas a lo largo de un alineamiento global, esto incluye regiones altamente conservadas y altamente mutables. Las matrices BLOSUM se basan únicamente en regiones altamente conservadas en series de alineamientos a los que se les prohíbe contener espacios.
El método utilizado para contar los reemplazos es diferente: a diferencia de la matriz PAM, el procedimiento BLOSUM utiliza grupos de secuencias dentro de las cuales no todas las mutaciones se cuentan igual.
Los números más altos en el esquema de nomenclatura de la matriz PAM denotan una mayor distancia evolutiva, mientras que los números más grandes en el esquema de nomenclatura de la matriz BLOSUM denotan una mayor similitud de secuencia y, por lo tanto, una distancia evolutiva más pequeña. Ejemplo: PAM150 se utiliza para secuencias más distantes que PAM100; BLOSUM62 se utiliza para secuencias más cercanas que BLOSUM50.

Matrices más nuevas

Se han propuesto varias matrices de sustitución más nuevas para abordar las deficiencias de diseños anteriores.

JTT, publicado el mismo año que BLOSOM, también realiza agrupaciones y utiliza un modelo implícito. Esto puede ayudar a reducir el error sistemático de la parismía máxima (MP), pero también desperdicia información de secuencia. ^[3]
WAG (Wheelan And Goldman), publicado en 2001, utiliza un procedimiento de estimación de máxima verosimilitud en lugar de cualquier forma de MP. Las puntuaciones de sustitución se calculan en función de la probabilidad de un cambio considerando múltiples topologías de árbol derivadas mediante la unión de vecinos . Las puntuaciones corresponden a un modelo de sustitución que incluye también frecuencias estacionarias de aminoácidos y un factor de escala en la puntuación de similitud. Hay dos versiones de la matriz: matriz WAG basada en el supuesto de las mismas frecuencias estacionarias de aminoácidos en todas las proteínas comparadas y matriz WAG* con diferentes frecuencias para cada una de las familias de proteínas incluidas . ^[3]

Matrices de sustitución especializadas y sus extensiones.

Las tasas de sustitución reales en una proteína dependen no sólo de la identidad del aminoácido, sino también del contexto estructural o de secuencia específico en el que se encuentra. Se han desarrollado muchas matrices especializadas para estos contextos, como en las hélices alfa transmembrana, ^{[4 ]} para combinaciones de estados de estructura secundaria y estados de accesibilidad a solventes, ^[5]^[6]^[7] o para contextos de estructura de secuencia local. ^[8] Estas matrices de sustitución específicas del contexto conducen a una calidad de alineación generalmente mejorada a un costo de velocidad, pero aún no se utilizan ampliamente.

Recientemente, se han obtenido similitudes de aminoácidos específicas del contexto de secuencia que no necesitan matrices de sustitución, sino que se basan en una biblioteca de contextos de secuencia. Utilizando esta idea, se ha demostrado que una extensión específica del contexto del popular programa BLAST logra una mejora doble de la sensibilidad para secuencias relacionadas remotamente con respecto a BLAST a velocidades similares ( CS-BLAST ).

Terminología

Aunque " matriz de transición " se utiliza a menudo indistintamente con "matriz de sustitución" en campos distintos de la bioinformática, el primer término es problemático en bioinformática. Con respecto a las sustituciones de nucleótidos, " transición " también se utiliza para indicar aquellas sustituciones que son entre las purinas de dos anillos (A → G y G → A) o son entre las pirimidinas de un anillo (C → T y T → C) . Como estas sustituciones no requieren un cambio en el número de anillos, ocurren con más frecuencia que las otras sustituciones. " Transversión " es el término utilizado para indicar las sustituciones de velocidad más lenta que cambian una purina a una pirimidina o viceversa (A ↔ C, A ↔ T, G ↔ C y G ↔ T).

Ver también

Referencias

^ Zvelebil, Marketa J. (2008). Comprender la bioinformática . Nueva York: Garland Science. págs. 117-127, 747. ISBN 978-0-8153-4024-9.
^ Xiong, Jin (2006). Bioinformática esencial. Cambridge: Prensa de la Universidad de Cambridge. doi :10.1017/cbo9780511806087.004. ISBN 978-0-511-80608-7.
^ ab Whelan, Simón; Goldman, Nick (1 de mayo de 2001). "Un modelo empírico general de evolución de proteínas derivado de múltiples familias de proteínas utilizando un enfoque de máxima verosimilitud". Biología Molecular y Evolución . 18 (5): 691–699. doi : 10.1093/oxfordjournals.molbev.a003851 . ISSN 0737-4038. PMID 11319253.
^ Müller, T; Rahmann, S; Rehmsmeier, M (2001). "Matrices de puntuación no simétricas y detección de proteínas transmembrana homólogas". Bioinformática . 17 (Suplemento 1): S182–9. doi : 10.1093/bioinformatics/17.suppl_1.s182 . PMID 11473008.
^ Arroz, DW; Eisenberg, D (1997). "Una matriz de sustitución 3D-1D para el reconocimiento de pliegues de proteínas que incluye la estructura secundaria predicha de la secuencia". Revista de biología molecular . 267 (4): 1026–38. CiteSeerX 10.1.1.44.1143 . doi :10.1006/jmbi.1997.0924. PMID 9135128.
^ Gong, Sungsam; Blundell, Tom L. (2008). Levitt, Michael (ed.). "Descartar residuos funcionales de la tabla de sustitución mejora las predicciones de sitios activos dentro de estructuras tridimensionales". PLOS Biología Computacional . 4 (10): e1000179. Código Bib : 2008PLSCB...4E0179G. doi : 10.1371/journal.pcbi.1000179 . PMC 2527532 . PMID 18833291.
^ Goonesekere, Carolina del Norte; Lee, B (2008). "Matrices de sustitución de aminoácidos específicas del contexto y su uso en la detección de homólogos de proteínas". Proteínas . 71 (2): 910–9. doi :10.1002/prot.21775. PMID 18004781. S2CID 27443393.
^ Huang, YM; Bystroff, C (2006). "Alineaciones mejoradas por pares de proteínas en la Zona Crepuscular utilizando predicciones de estructuras locales". Bioinformática . 22 (4): 413–22. doi : 10.1093/bioinformática/bti828 . PMID 16352653.

Otras lecturas

Altschul, SF (1991). "Matrices de sustitución de aminoácidos desde una perspectiva de la teoría de la información". Revista de biología molecular . 219 (3): 555–65. doi :10.1016/0022-2836(91)90193-A. PMC 7130686 . PMID 2051488.
Dayhoff, Missouri; Schwartz, RM; Orcutt, antes de Cristo (1978). "Un modelo de cambio evolutivo en proteínas". Atlas de secuencia y estructura de proteínas . 5 (3): 345–352.
Eddy, SR (2004). "¿De dónde vino la matriz de puntuación de alineación BLOSUM62?". Biotecnología de la Naturaleza . 22 (8): 1035–6. doi :10.1038/nbt0804-1035. PMID 15286655. S2CID 205269887.
Henikoff, S; Henikoff, JG (1992). "Matrices de sustitución de aminoácidos a partir de bloques de proteínas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 89 (22): 10915–9. Código bibliográfico : 1992PNAS...8910915H. doi : 10.1073/pnas.89.22.10915 . PMC 50453 . PMID 1438297.

enlaces externos

Calculadora de matriz PAM