En matemáticas , una matriz de distancia euclidiana es una matriz n × n que representa el espaciamiento de un conjunto de n puntos en el espacio euclidiano . Para los puntos en el espacio k -dimensional ℝ k , los elementos de su matriz de distancia euclidiana A están dados por los cuadrados de las distancias entre ellos. Es decir
donde denota la norma euclidiana en ℝ k .
En el contexto de matrices de distancias (no necesariamente euclidianas) , las entradas se suelen definir directamente como distancias, no como sus cuadrados. Sin embargo, en el caso euclidiano, se utilizan los cuadrados de las distancias para evitar el cálculo de raíces cuadradas y simplificar los teoremas y algoritmos pertinentes.
Las matrices de distancias euclidianas están estrechamente relacionadas con las matrices de Gram (matrices de productos escalares , que describen normas de vectores y ángulos entre ellos). Estas últimas se analizan fácilmente utilizando métodos de álgebra lineal . Esto permite caracterizar las matrices de distancias euclidianas y recuperar los puntos que las realizan. Una realización, si existe, es única hasta las transformaciones rígidas , es decir, las transformaciones que preservan la distancia del espacio euclidiano ( rotaciones , reflexiones , traslaciones ).
En aplicaciones prácticas, las distancias son mediciones ruidosas o provienen de estimaciones de disimilitud arbitrarias (no necesariamente métricas ). El objetivo puede ser visualizar dichos datos mediante puntos en el espacio euclidiano cuya matriz de distancia se aproxime a una matriz de disimilitud dada lo mejor posible; esto se conoce como escalamiento multidimensional . Alternativamente, dados dos conjuntos de datos ya representados por puntos en el espacio euclidiano, uno puede preguntarse qué tan similares son en forma, es decir, qué tan estrechamente pueden estar relacionados por una transformación que preserve la distancia ; esto es el análisis de Procrustes . Algunas de las distancias también pueden faltar o venir sin etiquetar (como un conjunto desordenado o multiconjunto en lugar de una matriz), lo que lleva a tareas algorítmicas más complejas, como el problema de realización de grafos o el problema de la autopista de peaje (para puntos en una línea). [1] [2]
Por el hecho de que la distancia euclidiana es una métrica , la matriz A tiene las siguientes propiedades.
En dimensión k , una matriz de distancia euclidiana tiene un rango menor o igual a k +2 . Si los puntos están en la posición general , el rango es exactamente min( n , k +2).
Las distancias se pueden reducir en cualquier potencia para obtener otra matriz de distancias euclidianas. Es decir, si es una matriz de distancias euclidianas, entonces es una matriz de distancias euclidianas para cada 0< s <1 . [3]
La matriz de Gram de una secuencia de puntos en un espacio k -dimensional ℝ k es la matriz n × n de sus productos puntuales (aquí se piensa que un punto es un vector desde 0 hasta ese punto):
En particular
Así, la matriz de Gram describe normas y ángulos de vectores (de 0 a) .
Sea la matriz k × n que contiene como columnas. Entonces
Las matrices que se pueden descomponer como , es decir, matrices de Gram de alguna secuencia de vectores (columnas de ), son bien entendidas: son precisamente matrices semidefinidas positivas .
Para relacionar la matriz de distancia euclidiana con la matriz de Gram, observe que
Es decir, las normas y los ángulos determinan las distancias. Nótese que la matriz de Gram contiene información adicional: distancias desde 0 .
Por el contrario, las distancias entre pares de n +1 puntos determinan productos escalares entre n vectores ( 1≤ i ≤ n ):
(esto se conoce como identidad de polarización ).
Para una matriz A de n × n , una secuencia de puntos en un espacio euclidiano de dimensión k ℝ k se denomina realización de A en ℝ k si A es su matriz de distancias euclidianas. Se puede suponer sin pérdida de generalidad que (porque la traducción por preserva las distancias).
Teorema [4] ( criterio de Schoenberg , [5] demostrado independientemente por Young y Householder [6] ) : Una matriz hueca simétrica n × n A con entradas reales admite una realización en ℝ k si y solo si la matriz ( n -1) × ( n -1) definida por
es semidefinida positiva y tiene rango como máximo k .
Esto se desprende de la discusión anterior porque G es semidefinida positiva de rango como máximo k si y solo si se puede descomponer como donde X es una matriz k × n . [7] Además, las columnas de X dan una realización en ℝ k . Por lo tanto, cualquier método para descomponer G permite encontrar una realización. Los dos enfoques principales son variantes de la descomposición de Cholesky o el uso de descomposiciones espectrales para encontrar la raíz cuadrada principal de G , consulte Matriz definida#Descomposición .
El enunciado del teorema distingue el primer punto . Una variante más simétrica del mismo teorema es la siguiente:
Corolario [8] — Una matriz hueca simétrica n × n A con entradas reales admite una realización si y sólo si A es semidefinida negativa en el hiperplano , es decir
Otras caracterizaciones involucran determinantes de Cayley-Menger . En particular, estos permiten mostrar que una matriz hueca simétrica n × n es realizable en ℝ k si y solo si cada submatriz principal ( k + 3) × ( k + 3) es. En otras palabras, una semimétrica en un número finito de puntos es encajable isométricamente en ℝ k si y solo si cada k + 3 puntos son. [9]
En la práctica, las condiciones de precisión o rango pueden fallar debido a errores numéricos, ruido en las mediciones o debido a que los datos no provienen de distancias euclidianas reales. Los puntos que alcanzan distancias óptimamente similares se pueden encontrar mediante una aproximación semidefinida (y una aproximación de bajo rango, si se desea) utilizando herramientas algebraicas lineales como la descomposición en valores singulares o la programación semidefinida . Esto se conoce como escalamiento multidimensional . Las variantes de estos métodos también pueden tratar con datos de distancia incompletos.
Los datos no etiquetados, es decir, un conjunto o multiconjunto de distancias no asignadas a pares particulares, son mucho más difíciles de manejar. Tales datos surgen, por ejemplo, en la secuenciación de ADN (específicamente, la recuperación del genoma a partir de una digestión parcial ) o la recuperación de fase . Dos conjuntos de puntos se denominan homométricos si tienen el mismo multiconjunto de distancias (pero no están necesariamente relacionados por una transformación rígida). Decidir si un multiconjunto dado de n ( n -1)/2 distancias se puede realizar en una dimensión dada k es fuertemente NP-hard . En una dimensión esto se conoce como el problema de la autopista; es una pregunta abierta si se puede resolver en tiempo polinomial. Cuando el multiconjunto de distancias se da con barras de error, incluso el caso unidimensional es NP-hard . Sin embargo, existen algoritmos prácticos para muchos casos, por ejemplo, puntos aleatorios. [10] [11] [12]
Dada una matriz de distancias euclidianas, la secuencia de puntos que la realizan es única hasta las transformaciones rígidas – estas son isometrías del espacio euclidiano: rotaciones , reflexiones , traslaciones y sus composiciones. [1]
Teorema — Sean y dos secuencias de puntos en el espacio euclidiano k -dimensional ℝ k . Las distancias y son iguales (para todo 1≤ i , j ≤ n ) si y solo si existe una transformación rígida de ℝ k que se asigne a (para todo 1≤ i ≤ n ).
En las aplicaciones, cuando las distancias no coinciden exactamente, el análisis de Procrustes tiene como objetivo relacionar dos conjuntos de puntos lo más cercanos posible a través de transformaciones rígidas, generalmente utilizando la descomposición en valores singulares . El caso euclidiano ordinario se conoce como el problema de Procrustes ortogonal o el problema de Wahba (cuando las observaciones se ponderan para tener en cuenta las incertidumbres variables). Los ejemplos de aplicaciones incluyen la determinación de las orientaciones de los satélites, la comparación de la estructura de las moléculas (en quimioinformática ), la estructura de las proteínas ( alineación estructural en bioinformática ) o la estructura ósea ( análisis estadístico de la forma en biología).