En estadística , el análisis de Procrustes es una forma de análisis estadístico de formas que se utiliza para analizar la distribución de un conjunto de formas . El nombre Procrustes ( griego : Προκρούστης ) hace referencia a un bandido de la mitología griega que obligaba a sus víctimas a caber en su cama, ya sea estirando sus extremidades o cortándolas.
En matemáticas:
Cuando se compara una forma con otra, o se compara un conjunto de formas con una forma de referencia seleccionada arbitrariamente, el análisis de Procrustes a veces se califica además como clásico u ordinario , a diferencia del análisis de Procrustes generalizado (GPA), que compara tres o más formas con una "forma media" determinada de manera óptima.
Para comparar las formas de dos o más objetos, primero se deben "superponer" los objetos de manera óptima. La superposición de Procrustes (PS) se realiza trasladando , rotando y escalando de manera óptima los objetos. En otras palabras, tanto la ubicación en el espacio como el tamaño de los objetos se ajustan libremente. El objetivo es obtener una ubicación y un tamaño similares, minimizando una medida de diferencia de forma llamada distancia de Procrustes entre los objetos. Esto a veces se llama PS completa , en contraposición a PS parcial , en la que no se realiza el escalado (es decir, se conserva el tamaño de los objetos). Tenga en cuenta que, después de la PS completa, los objetos coincidirán exactamente si su forma es idéntica. Por ejemplo, con PS completa, dos esferas con diferentes radios siempre coincidirán, porque tienen exactamente la misma forma. Por el contrario, con PS parcial nunca coincidirán. Esto implica que, según la definición estricta del término forma en geometría , el análisis de la forma debe realizarse utilizando PS completa. Un análisis estadístico basado en PS parcial no es un análisis de forma puro, ya que no solo es sensible a las diferencias de forma, sino también a las diferencias de tamaño. Tanto la PS completa como la parcial nunca conseguirán unir perfectamente dos objetos con formas diferentes, como un cubo y una esfera, o una mano derecha y una mano izquierda.
En algunos casos, tanto la PS completa como la parcial también pueden incluir reflexión . La reflexión permite, por ejemplo, una superposición exitosa (posiblemente perfecta) de una mano derecha con una mano izquierda. Por lo tanto, la PS parcial con reflexión habilitada conserva el tamaño pero permite la traslación, la rotación y la reflexión, mientras que la PS completa con reflexión habilitada permite la traslación, la rotación, el escalado y la reflexión.
La traducción y el escalamiento óptimos se determinan con operaciones mucho más simples (ver a continuación).
Aquí sólo consideramos objetos formados por un número finito k de puntos en n dimensiones. A menudo, estos puntos se seleccionan en la superficie continua de objetos complejos, como un hueso humano, y en este caso se denominan puntos de referencia .
La forma de un objeto puede considerarse como un miembro de una clase de equivalencia formada al eliminar los componentes de traslación , rotación y escala uniforme .
Por ejemplo, los componentes traslacionales se pueden eliminar de un objeto traduciendo el objeto de modo que la media de todos los puntos del objeto (es decir, su centroide ) se encuentre en el origen.
Matemáticamente: tome puntos en dos dimensiones, digamos
La media de estos puntos es donde
Ahora traslada estos puntos de modo que su media se traslade al origen , obteniendo el punto .
De la misma manera, el componente de escala se puede eliminar escalando el objeto de modo que la distancia cuadrática media ( RMSD ) desde los puntos hasta el origen trasladado sea 1. Esta RMSD es una medida estadística de la escala o tamaño del objeto :
La escala se convierte en 1 cuando las coordenadas del punto se dividen por la escala inicial del objeto:
Tenga en cuenta que en la literatura a veces se utilizan otros métodos para definir y eliminar la escala.
Eliminar el componente rotacional es más complejo, ya que no siempre se dispone de una orientación de referencia estándar. Consideremos dos objetos compuestos por el mismo número de puntos con escala y traslación eliminadas. Sean los puntos de estos , . Uno de estos objetos se puede utilizar para proporcionar una orientación de referencia. Fije el objeto de referencia y gire el otro alrededor del origen, hasta que encuentre un ángulo de rotación óptimo tal que la suma de las distancias al cuadrado ( SSD ) entre los puntos correspondientes se minimice (un ejemplo de la técnica de mínimos cuadrados ).
Una rotación por ángulo da
donde (u,v) son las coordenadas de un punto rotado. Tomando la derivada de con respecto a y resolviendo para cuando la derivada es cero se obtiene
Cuando el objeto es tridimensional, la rotación óptima se representa mediante una matriz de rotación de 3 por 3 R , en lugar de un ángulo simple, y en este caso se puede utilizar la descomposición en valores singulares para encontrar el valor óptimo para R (véase la solución para el problema de Procrustes ortogonal restringido , sujeto a det ( R ) = 1).
La diferencia entre la forma de dos objetos se puede evaluar solo después de "superponer" los dos objetos trasladándolos, escalándolos y rotándolos de manera óptima como se explicó anteriormente. La raíz cuadrada del SSD mencionado anteriormente entre los puntos correspondientes se puede utilizar como una medida estadística de esta diferencia de forma:
Esta medida se suele denominar distancia de Procrustes . Observe que en la literatura se utilizan a veces otras definiciones más complejas de la distancia de Procrustes y otras medidas de "diferencia de forma".
Mostramos cómo superponer dos formas. El mismo método se puede aplicar para superponer un conjunto de tres o más formas, siempre que se utilice la orientación de referencia mencionada anteriormente para todas ellas. Sin embargo, el análisis de Procrustes generalizado proporciona un mejor método para lograr este objetivo.
GPA aplica el método de análisis Procrustes para superponer de forma óptima un conjunto de objetos, en lugar de superponerlos a una forma seleccionada arbitrariamente.
El análisis generalizado y el análisis ordinario de Procrustes difieren únicamente en la determinación de una orientación de referencia para los objetos, que en la primera técnica se determina de forma óptima y en la segunda se selecciona de forma arbitraria. El escalado y la traslación se realizan de la misma manera en ambas técnicas. Cuando solo se comparan dos formas, el GPA es equivalente al análisis ordinario de Procrustes.
El esquema del algoritmo es el siguiente:
Existen muchas formas de representar la forma de un objeto. La forma de un objeto puede considerarse como un miembro de una clase de equivalencia formada tomando el conjunto de todos los conjuntos de k puntos en n dimensiones, es decir, R kn y factorizando el conjunto de todas las traslaciones, rotaciones y escalas. Una representación particular de la forma se encuentra eligiendo una representación particular de la clase de equivalencia. Esto dará una variedad de dimensión kn -4. Procrustes es un método para hacer esto con una justificación estadística particular.
Bookstein obtiene una representación de la forma fijando la posición de dos puntos llamados línea base. Un punto se fijará en el origen y el otro en (1,0). Los puntos restantes forman las coordenadas de Bookstein .
También es común considerar la forma y la escala, es decir, sin los componentes traslacionales y rotacionales.
El análisis de forma se utiliza en datos biológicos para identificar las variaciones de las características anatómicas caracterizadas por datos de referencia, por ejemplo, al considerar la forma de los huesos de la mandíbula. [1]
Un estudio de David George Kendall examinó los triángulos formados por menhires para deducir si estos solían estar dispuestos en líneas rectas. La forma de un triángulo puede representarse como un punto en la esfera, y la distribución de todas las formas puede considerarse como una distribución sobre la esfera. La distribución de la muestra de menhires se comparó con la distribución teórica para demostrar que la aparición de líneas rectas no era superior a la media. [2]