En bioinformática y biología evolutiva , una matriz de sustitución describe la frecuencia con la que un carácter en una secuencia de nucleótidos o una secuencia de proteínas cambia a otros estados de carácter a lo largo del tiempo evolutivo. La información suele presentarse en forma de probabilidades logarítmicas de encontrar dos estados de carácter específicos alineados y depende del número supuesto de cambios evolutivos o de la disimilitud de secuencia entre secuencias comparadas. Es una aplicación de una matriz estocástica . Las matrices de sustitución generalmente se ven en el contexto de alineamientos de secuencias de aminoácidos o de ADN , donde se utilizan para calcular puntuaciones de similitud entre las secuencias alineadas. [1]
En el proceso de evolución , de una generación a otra las secuencias de aminoácidos de las proteínas de un organismo se van alterando gradualmente mediante la acción de mutaciones en el ADN. Por ejemplo, la secuencia
ALEI R YLRD
podría mutar en la secuencia
ALEI N YLRD
en un solo paso, y posiblemente
A Q EI N Y Q RD
durante un período más largo de tiempo evolutivo. Es más o menos probable que cada aminoácido mute en otros aminoácidos. Por ejemplo, es más probable que un residuo hidrofílico como la arginina sea reemplazado por otro residuo hidrofílico como la glutamina , que que mute en un residuo hidrofóbico como la leucina . (Aquí, un residuo se refiere a un aminoácido despojado de un hidrógeno y/o un grupo hidroxilo e insertado en la cadena polimérica de una proteína). Esto se debe principalmente a la redundancia en el código genético , que traduce codones similares en aminoácidos similares. . Además, mutar un aminoácido a un residuo con propiedades significativamente diferentes podría afectar el plegamiento y/o la actividad de la proteína. Es probable que este tipo de sustitución disruptiva se elimine de las poblaciones mediante la acción de la selección purificadora porque la sustitución tiene una mayor probabilidad de hacer que una proteína no sea funcional. [2]
Si tenemos dos secuencias de aminoácidos frente a nosotros, deberíamos poder decir algo sobre la probabilidad de que deriven de un ancestro común u homólogo . Si podemos alinear las dos secuencias usando un algoritmo de alineación de secuencias de modo que las mutaciones requeridas para transformar una secuencia ancestral hipotética en ambas secuencias actuales sean evolutivamente plausibles, entonces nos gustaría asignar una puntuación alta a la comparación de las dos secuencias. secuencias.
Para ello construiremos una matriz de 20x20 donde la enésima entrada es igual a la probabilidad de que el enésimo aminoácido se transforme en el enésimo aminoácido en un determinado tiempo evolutivo. Hay muchas formas diferentes de construir una matriz de este tipo, llamada matriz de sustitución . Estos son los más utilizados:
La matriz de sustitución más simple posible sería aquella en la que cada aminoácido se considerara máximamente similar a sí mismo, pero no capaz de transformarse en ningún otro aminoácido. Esta matriz se vería así
Esta matriz de identidad tendrá éxito en el alineamiento de secuencias de aminoácidos muy similares, pero será miserable al alinear dos secuencias lejanamente relacionadas. Necesitamos calcular todas las probabilidades de una manera más rigurosa. Resulta que un examen empírico de secuencias previamente alineadas funciona mejor.
Expresamos las probabilidades de transformación en lo que se denominan puntuaciones de probabilidades logarítmicas . La matriz de puntuaciones S se define como
donde es la probabilidad de que un aminoácido se transforme en aminoácido , y , son las frecuencias de los aminoácidos i y j . La base del logaritmo no es importante y la misma matriz de sustitución a menudo se expresa en bases diferentes.
Una de las primeras matrices de sustitución de aminoácidos, la matriz PAM ( mutación puntual aceptada ), fue desarrollada por Margaret Dayhoff en la década de 1970. Esta matriz se calcula observando las diferencias en proteínas estrechamente relacionadas. Debido al uso de homólogos muy estrechamente relacionados, no se espera que las mutaciones observadas cambien significativamente las funciones comunes de las proteínas. Por tanto, las sustituciones observadas (por mutaciones puntuales) se consideran aceptadas por la selección natural.
Una unidad PAM se define como el 1% de las posiciones de aminoácidos que han sido cambiadas. Para crear una matriz de sustitución PAM1, se elige un grupo de secuencias muy relacionadas con frecuencias de mutación correspondientes a una unidad PAM. A partir de los datos mutacionales recopilados de este grupo de secuencias, se puede derivar una matriz de sustitución. Esta matriz PAM1 estima qué tasa de sustitución se esperaría si hubiera cambiado el 1% de los aminoácidos.
La matriz PAM1 se utiliza como base para calcular otras matrices asumiendo que las mutaciones repetidas seguirían el mismo patrón que las de la matriz PAM1 y que pueden ocurrir múltiples sustituciones en el mismo sitio. Con este supuesto, la matriz PAM2 se puede estimar elevando al cuadrado las probabilidades. Utilizando esta lógica, Dayhoff obtuvo matrices tan altas como PAM250. Normalmente se utilizan el PAM 30 y el PAM70.
La metodología de Dayhoff de comparar especies estrechamente relacionadas resultó no funcionar muy bien para alinear secuencias evolutivamente divergentes. Los cambios de secuencia en escalas de tiempo evolutivas largas no se aproximan bien combinando pequeños cambios que ocurren en escalas de tiempo cortas. La serie de matrices BLOSUM (BLOck SUbstitution Matrix) rectifica este problema. Henikoff y Henikoff construyeron estas matrices utilizando múltiples alineamientos de proteínas evolutivamente divergentes. Las probabilidades utilizadas en el cálculo de la matriz se calculan observando "bloques" de secuencias conservadas que se encuentran en múltiples alineamientos de proteínas. Se supone que estas secuencias conservadas son de importancia funcional dentro de proteínas relacionadas y, por lo tanto, tendrán tasas de sustitución más bajas que las regiones menos conservadas. Para reducir el sesgo de secuencias estrechamente relacionadas en las tasas de sustitución, se agruparon segmentos en un bloque con una identidad de secuencia por encima de un cierto umbral, reduciendo el peso de cada uno de esos grupos (Henikoff y Henikoff). Para la matriz BLOSUM62, este umbral se fijó en 62%. Luego se contaron las frecuencias de los pares entre grupos, por lo que los pares solo se contaron entre segmentos con menos del 62% de identidad. Se usaría una matriz BLOSUM con un número más alto para alinear dos secuencias estrechamente relacionadas y un número más bajo para secuencias más divergentes.
Resulta que la matriz BLOSUM62 hace un excelente trabajo detectando similitudes en secuencias distantes, y esta es la matriz utilizada por defecto en las aplicaciones de alineación más recientes como BLAST .
Se han propuesto varias matrices de sustitución más nuevas para abordar las deficiencias de diseños anteriores.
Las tasas de sustitución reales en una proteína dependen no sólo de la identidad del aminoácido, sino también del contexto estructural o de secuencia específico en el que se encuentra. Se han desarrollado muchas matrices especializadas para estos contextos, como en las hélices alfa transmembrana, [4 ] para combinaciones de estados de estructura secundaria y estados de accesibilidad a solventes, [5] [6] [7] o para contextos de estructura de secuencia local. [8] Estas matrices de sustitución específicas del contexto conducen a una calidad de alineación generalmente mejorada a un costo de velocidad, pero aún no se utilizan ampliamente.
Recientemente, se han obtenido similitudes de aminoácidos específicas del contexto de secuencia que no necesitan matrices de sustitución, sino que se basan en una biblioteca de contextos de secuencia. Utilizando esta idea, se ha demostrado que una extensión específica del contexto del popular programa BLAST logra una mejora doble de la sensibilidad para secuencias relacionadas remotamente con respecto a BLAST a velocidades similares ( CS-BLAST ).
Aunque " matriz de transición " se utiliza a menudo indistintamente con "matriz de sustitución" en campos distintos de la bioinformática, el primer término es problemático en bioinformática. Con respecto a las sustituciones de nucleótidos, " transición " también se utiliza para indicar aquellas sustituciones que son entre las purinas de dos anillos (A → G y G → A) o son entre las pirimidinas de un anillo (C → T y T → C) . Como estas sustituciones no requieren un cambio en el número de anillos, ocurren con más frecuencia que las otras sustituciones. " Transversión " es el término utilizado para indicar las sustituciones de velocidad más lenta que cambian una purina a una pirimidina o viceversa (A ↔ C, A ↔ T, G ↔ C y G ↔ T).