Medida de similitud

Aun así, en términos generales, una función de semejanza también puede satisfacer axiomas métricos.

[4]​[5]​ La matriz +1/−3 de ADN utilizada por BLASTN es más conveniente para encontrar coincidencias entre secuencias que son 99 % idénticas; una matriz +1/−1 (o +4/−4) es mucho más conveniente para secuencias con aproximadamente 70 % de similitud.

Por lo tanto, la matriz de semejanza para aminoácidos contiene 400 entradas (aunque es normalmente simétrica).

La primera aproximación puntuaba todos los cambios de aminoácido igualmente.

Los mejores modelos tuvieron en cuenta las propiedades químicas de los aminoácidos.

Este método ha dado lugar a la serie de matrices PAM.

Las matrices PAM son etiquetadas basándose en cuántos cambios de nucleótido han ocurrido, por 100 aminoácidos.

En distancias evolutivas largas, por ejemplo PAM250 o 20 % de identidad, se ha demostrado que las matrices BLOSUM son mucho más eficaces.

Las series BLOSUM fueron generadas comparando un número de sucesiones divergentes.

Las series BLOSUM son etiquetadas basándose en cuánta entropía queda sin cambios entre todas las secuencias, así que un número de BLOSUM más bajo corresponde a un número PAM más alto.