En biología evolutiva una matriz de sustitución, o de puntuación, describe el ritmo al que un carácter en una secuencia cambia a otro carácter con el tiempo.Este tipo de matrices son más usuales en los alineamientos de secuencias de aminoácidos (proteínas) que en los de nucleótidos (ADN), ya que en este último caso suele utilizarse un sistema de puntuación mucho más simple para los emparejamientos entre los cuatro diferentes nucleótidos y que asigna, normalmente, una puntuación positiva para la coincidencia en el emparejamiento, una puntuación nula o negativa para la no coincidencia, y una puntuación negativa para los huecos o gaps.Por ejemplo, la secuencia podría mutar a la secuencia en una generación, y posiblemente a bajo un largo periodo de tiempo evolutivo.Por ejemplo, en caso de mutación de un residuo hidrófobo como la valina es más probable que el nuevo residuo permanezca hidrófobo a que cambie, dado que su reemplazo por uno hidrófilo podría afectar al plegamiento o a la actividad de la proteína.A este fin, construiremos una matriz cuadrada de, generalmente, 20x20 elementos (por los veinte aminoácidos usualmente contemplados, aunque nada impide contemplar los restantes y ampliar, en consecuencia, el orden de la matriz), donde laserá la misma que la probabilidad de sustitución del aminoácido, lo que nos resultará en matrices simétricas; no obstante, pueden contemplarse asimetrías si se toman en consideración las direcciones de cambio en un determinado árbol filogenético).La matriz de sustitución más simple posible sería una en la que cada aminoácido se considera máximamente similar a sí mismo, pero no es capaz de transformarse en cualquier otro aminoácido.Esta matriz identidad tendrá éxito en el alineamiento de secuencias de aminoácidos muy similares, pero fracasará al alinear dos secuencias lejanamente relacionadas.Necesitamos contar con todas las probabilidades de una forma más rigurosa, y es cierto que, como veremos a continuación, un examen empírico de secuencias previamente alineadas trabaja mejor.[4] De esta forma, el denominador pi·pj es la probabilidad de que ambos aminoácidos queden alineados por casualidad (matemáticamente, corresponde al producto de las probabilidades individuales de aparición); y el cociente entre ambas probabilidades puede resultar: Aplicando de forma básica la teoría de la información, según la cual la cantidad de información H (p), en bits, que encontramos asociada a una probabilidad corresponde al logaritmo en base 2 de tal probabilidad (concretamente, H (p)=-log2p), tomamos el logaritmo del cociente para obtener, en definitiva, la similitud entre los aminoácidos en cuestión, representada por un número real que será positivo si el cociente visto es mayor que 1, negativo si es menor que 1, y nulo si el cociente es la unidad.La base del logaritmo no es especialmente importante, y puede verse con cierta frecuencia la misma matriz de sustitución expresada en bases logarítmicas diferentes, aunque computacionalmente puede interesarnos utilizar base 2 (para, como hemos visto, expresar la cantidad de información en bits) o base e (en cuyo caso la cantidad de información se mide en nats).Para su mejor tratamiento (tanto humano como informático), es aconsejable multiplicar cada elemento de la matriz por un factor de escala (lo que permite mantener la precisión) y redondear seguidamente al valor entero más próximo.Sin embargo, y puesto que el factor de escala es arbitrario, encontraremos diferencias entre matrices calculadas desde una misma matriz inicial, por lo que una puntuación normalizada nos resultaría mucho más útil.Para esto último es necesario una constante específica para cada matriz, que se denomina lambda (λ), y que viene a resultar el equivalente al inverso del factor de escala.u r l a r c h i v o = h t t p :a r c h i v e .Sustituyendo en esta última ecuación las "p" por las probabilidades conocidas, y las "a" por los resultados originalmente obtenidos, podremos resolverla para λ.Como es apreciable, cada matriz, con sus propias frecuencias o probabilidades para los aminoácidos, y sus propios resultados iniciales, tendrá una constante lambda diferente, pero que se aplicará como factor de escala a estos resultados iniciales de forma no arbitraria para conseguir la matriz de sustitución definitiva.Una de las primeras matrices de sustitución, la PAM (Point accepted mutation, o mutación puntual aceptada), fue desarrollada por Margaret Dayhoff en los años 70 del pasado siglo.Esta matriz se calcula observando las diferencias en proteínas cercanamente relacionadas (con un mínimo del 85% de similitud).[4] La matriz PAM1 estima qué ritmo de sustitución debería esperarse si el 1% de los aminoácidos han cambiado, y se usa como base para el cálculo de otras matrices asumiendo que mutaciones repetidas seguirían el mismo patrón que las reflejadas en la matriz PAM1, así como que múltiples sustituciones pueden darse en el mismo sitio.Usando esta lógica, Dayhoff derivó matrices tan altas como PAM250, aunque normalmente se utilizan PAM30 y PAM70.En resumen, Dayhoff realizó un trabajo con un fuerte componente teórico al asumir que se puede calcular una matriz para secuencias divergentes desde una matriz para secuencias cercanamente relacionadas elevando esta segunda matriz a una potencia.[4] Por ejemplo, podemos aproximar la matriz WIKI2 a partir de la WIKI1 expresandoEste modelo es el adecuado para seguir los orígenes evolutivos de las proteínas.Para la matriz BLOSUM 62, este umbral se fijó en el 62%.Se usarán matrices BLOSUM de numeración alta para alinear dos secuencias cercanamente relacionadas, mientras que se utilizarán números más bajos para secuencias más divergentes.Se ha comprobado que la matriz BLOSUM 62 hace un excelente trabajo detectando similitudes en secuencias distantes, y esta es la matriz usada por defecto en las más recientes aplicaciones de alineamiento, como BLAST.En resumen, este modelo es adecuado para encontrar dominios conservados.