Matriz de distancias

Dependiendo de su aplicación, la distancia usada para definir esta matriz puede o no ser una métrica.

puntos en el Espacio euclídeo) conteniendo números reales no negativos como elementos.

Las matrices de distancias están relacionadas con las matrices de adyacencia, diferenciándose en que las últimas sólo informan sobre qué vértices están conectados, pero no especifican costes o distancias entre los vértices; además, cada elemento de una matriz de distancias es más pequeño cuanto más cercanos se encuentren los puntos, mientras que vértices cercanos (conectados) producen elementos mayores en una matriz de adyacencia.

Esta función de distancia, aunque bien definida, no es una métrica.

No es necesario que haya restricciones en los pesos, aparte de la necesidad de poder combinarlos y compararlos, por lo que los pesos negativos se utilizan en algunas aplicaciones.

Dado que los caminos están dirigidos, la simetría no se puede garantizar, y si los ciclos existen, la matriz de distancia puede no ser hueca.

Un cero en estas ubicaciones será interpretado incorrectamente como una arista sin distancia, costo, etc.

se dice que es aditiva si y sólo si existe una filogenia

A veces es más conveniente expresar los datos como una matriz de similitud.

También se utiliza para definir la correlación de la distancia.

El método se utiliza para llenar la matriz de distancia y luego obtener la alineación.

En el uso típico, para la alineación de secuencias se utiliza una matriz para asignar puntuaciones a las coincidencias de aminoácidos o desajustes, y una penalización por hueco por emparejar un aminoácido en una secuencia con un hueco en la otra.

El algoritmo de Smith-Waterman también está basado en programación dinámica que consiste también en obtener la matriz de distancias y luego obtener la alineación local.

Hay otros métodos que tienen su propio programa debido a su popularidad: La Alineación Múltiple usando la Transformada Rápida de Fourier (MAFFT) es un programa con un algoritmo basado en la alineación progresiva, y ofrece varias estrategias de alineación múltiple.

Segundo, construye el árbol de guía basado en la matriz anterior.

A partir de esto se construye un árbol filogenético que coloca secuencias estrechamente relacionadas bajo el mismo nodo interior y cuyas longitudes de rama reproducen estrechamente las distancias observadas entre secuencias.

Los métodos de matrices de distancia pueden producir árboles enraizados o no enraizados, dependiendo del algoritmo utilizado para calcularlos.

Los siguientes son métodos basados en la distancia para la reconstrucción filogenética: La reconstrucción del árbol aditivo se basa en matrices de distancia aditivas y ultramétricas.

Podemos observar esta propiedad para el árbol de abajo, que consiste en la especie

Y luego agrega una especie más cada vez, basado en la matriz de distancia combinada con la propiedad mencionada anteriormente.

Si aplicamos la propiedad, identificamos que d debe estar unido a una sola arista específica.

El algoritmo comienza con un árbol completamente sin resolver, cuya topología corresponde a la de una red en estrella, e itera sobre los siguientes pasos hasta que el árbol se resuelve por completo y se conocen todas las longitudes de las ramas: El método de Fitch-Margoliash utiliza un método de mínimos cuadrados ponderados para el agrupamiento basado en la distancia genética.

Una mejora adicional que corrige las correlaciones entre distancias que surgen de muchas secuencias estrechamente relacionadas en el conjunto de datos también se puede aplicar a un costo computacional mayor.

Las matrices de distancia se volvieron muy dependientes en estos análisis, ya que la similitud puede ser medida con una métrica.

Una matriz de distancia es necesaria para los algoritmos de agrupamiento jerárquico tradicionales, que a menudo son métodos heurísticos empleados en ciencias biológicas, como la reconstrucción filogenética.

La distancia de mezcla gaussiana es usada para realizar una búsqueda precisa del vecino más cercano para la recuperación de información.

Para los datos que pueden ser tanto negativos como positivos, la distribución nula para la similitud del coseno es la distribución del producto escalar de dos vectores unitarios aleatorios independientes.

Mientras que la distancia euclidiana será invariable a esta corrección.

[4]​ La matriz de distancia se usa en química tanto en forma explícita como implícita.

Las matrices de distancias han sido usadas como el enfoque principal al representar y revelar la secuencia en ruta más corta necesaria para determinar la reorganización entre los dos isómeros permutacionales.

Matriz de distancia aditiva (izquierda) y su árbol filogenético (derecha).
Ejemplo de un árbol ultramétrico de filogenética
Matriz de distancia usada para seleccionar K muestras de entrenamiento para KNN.
Modelo de aprendizaje automático que predice el valor objetivo con K-NN.
Representación del árbol etiquetado de la fórmula esqueletal de basada en su matriz de distancias.
Matriz de distancia geométrica del
Datos en bruto.
Vista gráfica.