stringtranslate.com

Matriz de sustitución

En bioinformática y biología evolutiva , una matriz de sustitución describe la frecuencia con la que un carácter en una secuencia de nucleótidos o una secuencia de proteínas cambia a otros estados de carácter a lo largo del tiempo evolutivo . La información a menudo se presenta en forma de probabilidades logarítmicas de encontrar dos estados de carácter específicos alineados y depende del número supuesto de cambios evolutivos o de la disimilitud de secuencias entre secuencias comparadas. Es una aplicación de una matriz estocástica . Las matrices de sustitución se ven generalmente en el contexto de alineaciones de secuencias de aminoácidos o ADN , donde se utilizan para calcular puntuaciones de similitud entre las secuencias alineadas. [1]

Fondo

En el proceso de evolución , de una generación a la siguiente, las secuencias de aminoácidos de las proteínas de un organismo se van modificando gradualmente mediante la acción de mutaciones del ADN. Por ejemplo, la secuencia

ALEI R YLRD

Podría mutar en la secuencia

ALEI N YLRD

en un solo paso, y posiblemente

Una Q EI N Y Q RD

a lo largo de un período más largo de tiempo evolutivo. Cada aminoácido tiene más o menos probabilidades de mutar en varios otros aminoácidos. Por ejemplo, es más probable que un residuo hidrófilo como la arginina sea reemplazado por otro residuo hidrófilo como la glutamina , que que mute en un residuo hidrófobo como la leucina . (Aquí, un residuo se refiere a un aminoácido despojado de un hidrógeno y/o un grupo hidroxilo e insertado en la cadena polimérica de una proteína). Esto se debe principalmente a la redundancia en el código genético , que traduce codones similares en aminoácidos similares. Además, mutar un aminoácido a un residuo con propiedades significativamente diferentes podría afectar el plegamiento y/o la actividad de la proteína. Es probable que este tipo de sustitución disruptiva se elimine de las poblaciones mediante la acción de la selección purificadora porque la sustitución tiene una mayor probabilidad de hacer que una proteína no sea funcional. [2]

Si tenemos dos secuencias de aminoácidos frente a nosotros, deberíamos poder decir algo sobre la probabilidad de que se deriven de un ancestro común o de que sean homólogas . Si podemos alinear las dos secuencias utilizando un algoritmo de alineamiento de secuencias de modo que las mutaciones necesarias para transformar una secuencia de ancestro hipotético en ambas secuencias actuales sean evolutivamente plausibles, entonces nos gustaría asignar una puntuación alta a la comparación de las secuencias.

Para ello, construiremos una matriz de 20x20 donde la entrada n es igual a la probabilidad de que el aminoácido n se transforme en el aminoácido n en un tiempo evolutivo determinado. Existen muchas formas distintas de construir una matriz de este tipo, llamada matriz de sustitución . A continuación, se indican las más utilizadas:

Matriz de identidad

La matriz de sustitución más simple posible sería aquella en la que cada aminoácido se considera lo más similar posible a sí mismo, pero no es capaz de transformarse en ningún otro aminoácido. Esta matriz se vería así:

Esta matriz de identidad funcionará bien en la alineación de secuencias de aminoácidos muy similares, pero no será eficaz en la alineación de dos secuencias distantemente relacionadas. Necesitamos calcular todas las probabilidades de una manera más rigurosa. Resulta que un examen empírico de secuencias alineadas previamente funciona mejor.

Matrices de probabilidades logarítmicas

Expresamos las probabilidades de transformación en lo que se denominan puntuaciones de probabilidades logarítmicas . La matriz de puntuaciones S se define como

donde es la probabilidad de que un aminoácido se transforme en un aminoácido , y son las frecuencias de los aminoácidos i y j . La base del logaritmo no es importante y la misma matriz de sustitución a menudo se expresa en bases diferentes.

Matrices de ejemplo

PAM

Una de las primeras matrices de sustitución de aminoácidos, la matriz PAM ( Point Accepted Mutation ), fue desarrollada por Margaret Dayhoff en la década de 1970. Esta matriz se calcula observando las diferencias en proteínas estrechamente relacionadas. Debido al uso de homólogos muy estrechamente relacionados, no se espera que las mutaciones observadas cambien significativamente las funciones comunes de las proteínas. Por lo tanto, las sustituciones observadas (por mutaciones puntuales) se consideran aceptadas por la selección natural.

Una unidad PAM se define como el 1% de las posiciones de aminoácidos que han sido modificadas. Para crear una matriz de sustitución PAM1, se elige un grupo de secuencias muy relacionadas con frecuencias de mutación correspondientes a una unidad PAM. En función de los datos mutacionales recopilados de este grupo de secuencias, se puede derivar una matriz de sustitución. Esta matriz PAM1 estima qué tasa de sustitución se esperaría si el 1% de los aminoácidos hubiera cambiado.

La matriz PAM1 se utiliza como base para calcular otras matrices suponiendo que las mutaciones repetidas seguirían el mismo patrón que las de la matriz PAM1 y que pueden producirse múltiples sustituciones en el mismo sitio. Con esta suposición, la matriz PAM2 se puede estimar elevando al cuadrado las probabilidades. Utilizando esta lógica, Dayhoff derivó matrices tan altas como PAM250. Normalmente se utilizan PAM 30 y PAM70.

FLOR

La metodología de Dayhoff para comparar especies estrechamente relacionadas resultó no funcionar muy bien para alinear secuencias evolutivamente divergentes. Los cambios de secuencia en escalas evolutivas largas no se aproximan bien mediante la combinación de pequeños cambios que ocurren en escalas de tiempo cortas. La serie de matrices BLOSUM (BLOck SUbstitution Matrix) corrige este problema. Henikoff y Henikoff construyeron estas matrices utilizando múltiples alineaciones de proteínas evolutivamente divergentes. Las probabilidades utilizadas en el cálculo de la matriz se calculan observando "bloques" de secuencias conservadas que se encuentran en múltiples alineaciones de proteínas. Se supone que estas secuencias conservadas tienen importancia funcional dentro de las proteínas relacionadas y, por lo tanto, tendrán tasas de sustitución más bajas que las regiones menos conservadas. Para reducir el sesgo de las secuencias estrechamente relacionadas en las tasas de sustitución, se agruparon los segmentos de un bloque con una identidad de secuencia por encima de un cierto umbral, lo que redujo el peso de cada uno de esos grupos (Henikoff y Henikoff). Para la matriz BLOSUM62, este umbral se estableció en el 62%. Luego se contaron las frecuencias de pares entre los grupos, por lo que los pares solo se contaron entre segmentos con una identidad inferior al 62 %. Se utilizaría una matriz BLOSUM con un número más alto para alinear dos secuencias estrechamente relacionadas y un número más bajo para secuencias más divergentes.

Resulta que la matriz BLOSUM62 hace un excelente trabajo al detectar similitudes en secuencias distantes, y esta es la matriz utilizada por defecto en las aplicaciones de alineación más recientes como BLAST .

Diferencias entre PAM y BLOSUM

  1. Las matrices PAM se basan en un modelo evolutivo explícito (es decir, los reemplazos se cuentan en las ramas de un árbol filogenético: parismonía máxima), mientras que las matrices BLOSUM se basan en un modelo implícito de evolución.
  2. Las matrices PAM se basan en mutaciones observadas a lo largo de un alineamiento global, que incluye tanto regiones altamente conservadas como altamente mutables. Las matrices BLOSUM se basan únicamente en regiones altamente conservadas en series de alineamientos en las que está prohibido contener espacios vacíos.
  3. El método utilizado para contar los reemplazos es diferente: a diferencia de la matriz PAM, el procedimiento BLOSUM utiliza grupos de secuencias dentro de las cuales no todas las mutaciones se cuentan de la misma manera.
  4. Los números más altos en el esquema de nombres de la matriz PAM indican una mayor distancia evolutiva, mientras que los números más altos en el esquema de nombres de la matriz BLOSUM indican una mayor similitud de secuencias y, por lo tanto, una menor distancia evolutiva. Ejemplo: PAM150 se utiliza para secuencias más distantes que PAM100; BLOSUM62 se utiliza para secuencias más cercanas que BLOSUM50.

Matrices más nuevas

Se han propuesto varias matrices de sustitución más nuevas para abordar las deficiencias de los diseños anteriores.

Matrices de sustitución especializadas y sus extensiones

Las tasas de sustitución reales en una proteína dependen no solo de la identidad del aminoácido, sino también del contexto estructural o de secuencia específico en el que se encuentra. Se han desarrollado muchas matrices especializadas para estos contextos, como en hélices alfa transmembrana, [4] para combinaciones de estados de estructura secundaria y estados de accesibilidad al solvente, [5] [6] [7] o para contextos de estructura de secuencia local. [8] Estas matrices de sustitución específicas del contexto conducen a una calidad de alineación generalmente mejorada a cierto costo de velocidad, pero aún no se usan ampliamente.

Recientemente, se han derivado similitudes de aminoácidos específicas del contexto de secuencia que no necesitan matrices de sustitución, sino que se basan en una biblioteca de contextos de secuencia. Utilizando esta idea, se ha demostrado que una extensión específica del contexto del popular programa BLAST logra una mejora de la sensibilidad dos veces mayor para secuencias relacionadas de forma remota en comparación con BLAST a velocidades similares ( CS-BLAST ).

Terminología

Aunque " matriz de transición " se utiliza a menudo indistintamente con "matriz de sustitución" en campos distintos a la bioinformática, el primer término es problemático en bioinformática. Con respecto a las sustituciones de nucleótidos, " transición " también se utiliza para indicar aquellas sustituciones que se producen entre las purinas de dos anillos (A → G y G → A) o entre las pirimidinas de un anillo (C → T y T → C). Debido a que estas sustituciones no requieren un cambio en el número de anillos, ocurren con mayor frecuencia que las otras sustituciones. " Transversión " es el término utilizado para indicar las sustituciones de velocidad más lenta que cambian una purina a una pirimidina o viceversa (A ↔ C, A ↔ T, G ↔ C y G ↔ T).

Véase también

Referencias

  1. ^ Zvelebil, Marketa J. (2008). Entendiendo la bioinformática . Nueva York: Garland Science. pp. 117–127, 747. ISBN 978-0-8153-4024-9.
  2. ^ Xiong, Jin (2006). Bioinformática esencial. Cambridge: Cambridge University Press. doi :10.1017/cbo9780511806087.004. ISBN 978-0-511-80608-7.
  3. ^ ab Whelan, Simon; Goldman, Nick (1 de mayo de 2001). "Un modelo empírico general de evolución de proteínas derivado de múltiples familias de proteínas utilizando un enfoque de máxima verosimilitud". Biología molecular y evolución . 18 (5): 691–699. doi : 10.1093/oxfordjournals.molbev.a003851 . ISSN  0737-4038. PMID  11319253.
  4. ^ Müller, T; Rahmann, S; Rehmsmeier, M (2001). "Matrices de puntuación no simétricas y la detección de proteínas transmembrana homólogas". Bioinformática . 17 (Supl 1): S182–9. doi : 10.1093/bioinformatics/17.suppl_1.s182 . PMID  11473008.
  5. ^ Rice, DW; Eisenberg, D (1997). "Una matriz de sustitución 3D-1D para el reconocimiento de plegamientos de proteínas que incluye la estructura secundaria predicha de la secuencia". Journal of Molecular Biology . 267 (4): 1026–38. CiteSeerX 10.1.1.44.1143 . doi :10.1006/jmbi.1997.0924. PMID  9135128. 
  6. ^ Gong, Sungsam; Blundell, Tom L. (2008). Levitt, Michael (ed.). "El descarte de residuos funcionales de la tabla de sustitución mejora las predicciones de sitios activos dentro de estructuras tridimensionales". PLOS Computational Biology . 4 (10): e1000179. Bibcode :2008PLSCB...4E0179G. doi : 10.1371/journal.pcbi.1000179 . PMC 2527532 . PMID  18833291. 
  7. ^ Goonesekere, NC; Lee, B (2008). "Matrices de sustitución de aminoácidos específicas del contexto y su uso en la detección de homólogos de proteínas". Proteins . 71 (2): 910–9. doi :10.1002/prot.21775. PMID  18004781. S2CID  27443393.
  8. ^ Huang, YM; Bystroff, C (2006). "Alineamientos mejorados por pares de proteínas en la Zona Crepuscular utilizando predicciones de estructura local". Bioinformática . 22 (4): 413–22. doi : 10.1093/bioinformatics/bti828 . PMID  16352653.

Lectura adicional

Enlaces externos