stringtranslate.com

Escalamiento multidimensional

Un ejemplo de escalamiento multidimensional clásico aplicado a los patrones de votación en la Cámara de Representantes de los Estados Unidos . Cada punto azul representa a un miembro demócrata de la Cámara y cada punto rojo a un republicano.

El escalamiento multidimensional ( MDS ) es un método para visualizar el nivel de similitud de casos individuales de un conjunto de datos. El MDS se utiliza para traducir las distancias entre cada par de objetos de un conjunto en una configuración de puntos mapeados en un espacio cartesiano abstracto . [1]

En términos más técnicos, MDS se refiere a un conjunto de técnicas de ordenación relacionadas que se utilizan en la visualización de información , en particular para mostrar la información contenida en una matriz de distancia . Es una forma de reducción de dimensionalidad no lineal .

Dada una matriz de distancias con las distancias entre cada par de objetos en un conjunto y un número elegido de dimensiones, N , un algoritmo MDS coloca cada objeto en un espacio de N dimensiones (una representación de menor dimensión) de modo que las distancias entre objetos se conserven lo mejor posible. Para N = 1, 2 y 3, los puntos resultantes se pueden visualizar en un diagrama de dispersión . [2]

James O. Ramsay de la Universidad McGill , considerado también el fundador del análisis funcional de datos , realizó importantes contribuciones teóricas al MDS. [3]

Tipos

Los algoritmos MDS se dividen en una taxonomía , dependiendo del significado de la matriz de entrada:

Escalamiento multidimensional clásico

También se conoce como Análisis de coordenadas principales (PCoA), Escalamiento de Torgerson o Escalamiento de Torgerson–Gower. Toma una matriz de entrada que proporciona disimilitudes entre pares de elementos y genera una matriz de coordenadas cuya configuración minimiza una función de pérdida llamada deformación , [2] que se da por donde denotan vectores en un espacio N -dimensional, denota el producto escalar entre y , y son los elementos de la matriz definida en el paso 2 del siguiente algoritmo, que se calculan a partir de las distancias.

Pasos de un algoritmo MDS clásico:
La MDS clásica utiliza el hecho de que la matriz de coordenadas se puede derivar mediante la descomposición en valores propios de . Y la matriz se puede calcular a partir de la matriz de proximidad utilizando el doble centrado. [4]
  1. Configurar la matriz de proximidad al cuadrado
  2. Aplicar doble centrado: utilizando la matriz de centrado , donde es el número de objetos, es la matriz identidad y es una matriz de todos los unos.
  3. Determine los valores propios más grandes y los vectores propios correspondientes de (donde es el número de dimensiones deseadas para la salida).
  4. Ahora, , donde es la matriz de vectores propios y es la matriz diagonal de valores propios de .
El modelo MDS clásico asume distancias métricas, por lo que no es aplicable para clasificaciones de disimilitud directa.

Escalamiento multidimensional métrico (mMDS)

Es un superconjunto de MDS clásico que generaliza el procedimiento de optimización a una variedad de funciones de pérdida y matrices de entrada de distancias conocidas con pesos, etc. Una función de pérdida útil en este contexto se denomina estrés , que a menudo se minimiza utilizando un procedimiento llamado mayorización de estrés . El MDS métrico minimiza la función de costo llamada “estrés”, que es una suma residual de cuadrados:

El escalamiento métrico utiliza una transformación de potencia con un exponente controlado por el usuario : y para la distancia. En el escalamiento clásico, el escalamiento no métrico se define mediante el uso de regresión isotónica para estimar de manera no paramétrica una transformación de las disimilitudes.

Escalamiento multidimensional no métrico (NMDS)

A diferencia del MDS métrico, el MDS no métrico encuentra una relación monótona no paramétrica entre las diferencias en la matriz ítem-ítem y las distancias euclidianas entre ítems, y la ubicación de cada ítem en el espacio de baja dimensión.

Sea la disimilitud entre puntos . Sea la distancia euclidiana entre puntos encajados .

Ahora, para cada elección de los puntos incrustados y es una función monótonamente creciente , defina la función de "estrés":

El factor de en el denominador es necesario para evitar un "colapso". Supongamos que definimos en cambio , entonces se puede minimizar de manera trivial estableciendo , luego colapsamos cada punto al mismo punto.

Existen algunas variantes de esta función de costo. Los programas MDS minimizan automáticamente el estrés para obtener la solución MDS.

El núcleo de un algoritmo MDS no métrico es un proceso de optimización doble. En primer lugar, se debe encontrar la transformación monótona óptima de las proximidades. En segundo lugar, los puntos de una configuración deben estar dispuestos de forma óptima, de modo que sus distancias coincidan lo más posible con las proximidades escaladas.

El NMDS necesita optimizar dos objetivos simultáneamente. Esto se hace normalmente de forma iterativa:

  1. Inicializar aleatoriamente, por ejemplo mediante muestreo de una distribución normal.
  2. Hacer hasta que se alcance un criterio de detención (por ejemplo, )
    1. Resolver por regresión isotónica .
    2. Resolver mediante descenso de gradiente u otros métodos.
  3. Regresar y

El análisis del espacio más pequeño (SSA) de Louis Guttman es un ejemplo de un procedimiento MDS no métrico.

Escalamiento multidimensional generalizado (GMD)

Una extensión del escalamiento multidimensional métrico, en el que el espacio objetivo es un espacio no euclidiano suave y arbitrario. En los casos en los que las diferencias son distancias en una superficie y el espacio objetivo es otra superficie, GMDS permite encontrar la incrustación con mínima distorsión de una superficie en otra. [5]

Detalles

Los datos a analizar son una colección de objetos (colores, caras, acciones, . . .) sobre los que se define una función de distancia ,

distancia entre los objetos -ésimo y -ésimo.

Estas distancias son las entradas de la matriz de disimilitud.

El objetivo de MDS es, dado , encontrar vectores tales que

Para todos ,

donde es una norma vectorial . En la MDS clásica, esta norma es la distancia euclidiana , pero, en un sentido más amplio, puede ser una función de distancia métrica o arbitraria. [6] Por ejemplo, cuando se trabaja con datos de tipo mixto que contienen descriptores numéricos y categóricos, la distancia de Gower es una alternativa común. [ cita requerida ]

En otras palabras, MDS intenta encontrar una correspondencia entre los objetos y de tal manera que se conserven las distancias. Si se elige que la dimensión sea 2 o 3, podemos trazar los vectores para obtener una visualización de las similitudes entre los objetos. Tenga en cuenta que los vectores no son únicos: con la distancia euclidiana, se pueden trasladar, rotar y reflejar arbitrariamente, ya que estas transformaciones no cambian las distancias por pares .

(Nota: El símbolo indica el conjunto de números reales , y la notación se refiere al producto cartesiano de copias de , que es un espacio vectorial -dimensional sobre el campo de los números reales).

Existen varios enfoques para determinar los vectores . Por lo general, MDS se formula como un problema de optimización , donde se encuentra como minimizador de alguna función de costo, por ejemplo,

Se puede encontrar una solución mediante técnicas de optimización numérica. Para algunas funciones de costo elegidas en particular, los minimizadores se pueden expresar analíticamente en términos de descomposiciones matriciales propias . [2]

Procedimiento

Hay varios pasos para realizar una investigación sobre SMD:

  1. Formulación del problema : ¿Qué variables desea comparar? ¿Cuántas variables desea comparar? ¿Para qué propósito se utilizará el estudio?
  2. Obtención de datos de entrada : por ejemplo, a los encuestados se les hace una serie de preguntas. Para cada par de productos, se les pide que califiquen la similitud (generalmente en una escala Likert de 7 puntos desde muy similar a muy diferente). La primera pregunta podría ser para Coca-Cola/Pepsi, por ejemplo, la siguiente para Coca-Cola/cerveza de raíz Hires, la siguiente para Pepsi/Dr Pepper, la siguiente para Dr Pepper/cerveza de raíz Hires, etc. El número de preguntas es una función del número de marcas y se puede calcular como donde Q es el número de preguntas y N es el número de marcas. Este enfoque se conoce como "Datos de percepción: enfoque directo". Hay otros dos enfoques. Está el "Datos de percepción: enfoque derivado" en el que los productos se descomponen en atributos que se califican en una escala diferencial semántica . El otro es el "enfoque de datos de preferencia" en el que a los encuestados se les pregunta su preferencia en lugar de la similitud.
  3. Ejecución del programa estadístico MDS : el software para ejecutar el procedimiento está disponible en muchos paquetes de software estadístico. A menudo, se puede elegir entre MDS métrico (que se ocupa de datos de intervalo o de nivel de razón) y MDS no métrico [7] (que se ocupa de datos ordinales).
  4. Decidir el número de dimensiones : el investigador debe decidir el número de dimensiones que desea que la computadora cree. La interpretabilidad de la solución MDS suele ser importante y las soluciones de menor dimensión suelen ser más fáciles de interpretar y visualizar. Sin embargo, la selección de la dimensión también es una cuestión de equilibrio entre el subajuste y el sobreajuste. Las soluciones de menor dimensión pueden subajustarse al dejar fuera dimensiones importantes de los datos de disimilitud. Las soluciones de mayor dimensión pueden sobreajustarse al ruido en las mediciones de disimilitud. Por lo tanto, las herramientas de selección de modelos como AIC , BIC , factores de Bayes o validación cruzada pueden ser útiles para seleccionar la dimensionalidad que equilibre el subajuste y el sobreajuste.
  5. Mapeo de los resultados y definición de las dimensiones : el programa estadístico (o un módulo relacionado) mapeará los resultados. El mapa representará gráficamente cada producto (normalmente en un espacio bidimensional). La proximidad de los productos entre sí indicará su similitud o preferencia, según el enfoque utilizado. Sin embargo, no es necesariamente obvio cómo las dimensiones de la incrustación corresponden realmente a las dimensiones del comportamiento del sistema. En este caso, se puede hacer un juicio subjetivo sobre la correspondencia (véase mapeo perceptual ).
  6. Pruebe la fiabilidad y validez de los resultados : calcule el R cuadrado para determinar qué proporción de la varianza de los datos escalados se puede explicar mediante el procedimiento MDS. Un R cuadrado de 0,6 se considera el nivel mínimo aceptable. [ cita requerida ] Un R cuadrado de 0,8 se considera bueno para el escalamiento métrico y 0,9 se considera bueno para el escalamiento no métrico. Otras pruebas posibles son la prueba de estrés de Kruskal, las pruebas de datos divididos, las pruebas de estabilidad de los datos (es decir, eliminar una marca) y la fiabilidad de la prueba-reprueba.
  7. Informe los resultados de forma completa : junto con el mapeo, se debe proporcionar al menos la medida de la distancia (por ejemplo, el índice de Sorenson , el índice de Jaccard ) y la confiabilidad (por ejemplo, el valor de la tensión). También es muy recomendable proporcionar el algoritmo (por ejemplo, Kruskal, Mather), que a menudo está definido por el programa utilizado (a veces reemplazando el informe del algoritmo), si ha proporcionado una configuración de inicio o ha tenido una elección aleatoria, el número de ejecuciones, la evaluación de la dimensionalidad, los resultados del método de Monte Carlo , el número de iteraciones, la evaluación de la estabilidad y la varianza proporcional de cada eje (r-cuadrado).

Implementaciones

Véase también

Referencias

  1. ^ Mead, A (1992). "Revisión del desarrollo de métodos de escalamiento multidimensional". Revista de la Royal Statistical Society. Serie D (The Statistician) . 41 (1): 27–39. JSTOR  2348634. Resumen. Los métodos de escalamiento multidimensional son ahora una herramienta estadística común en la psicofísica y el análisis sensorial. Se traza el desarrollo de estos métodos, desde la investigación original de Torgerson (escalamiento métrico), Shepard y Kruskal (escalamiento no métrico) hasta el escalamiento de diferencias individuales y los métodos de máxima verosimilitud propuestos por Ramsay.
  2. ^ abc Borg, I.; Groenen, P. (2005). Escalamiento multidimensional moderno: teoría y aplicaciones (2.ª ed.). Nueva York: Springer-Verlag. pp. 207–212. ISBN 978-0-387-94845-4.
  3. ^ Genest, Christian; Nešlehová, Johanna G.; Ramsay, James O. (2014). "Una conversación con James O. Ramsay". Revista Internacional de Estadística / Revue Internationale de Statistique . 82 (2): 161–183. JSTOR  43299752 . Consultado el 30 de junio de 2021 .
  4. ^ Wickelmaier, Florian. "Una introducción a MDS". Unidad de investigación de calidad del sonido, Universidad de Aalborg, Dinamarca (2003): 46
  5. ^ Bronstein AM, Bronstein MM, Kimmel R (enero de 2006). "Escalamiento multidimensional generalizado: un marco para la correspondencia de superficies parciales invariante con isometría". Proc. Natl. Sci. USA . 103 (5): 1168–72. Bibcode :2006PNAS..103.1168B. doi : 10.1073/pnas.0508601103 . PMC 1360551 . PMID  16432211. 
  6. ^ Kruskal, JB y Wish, M. (1978), Multidimensional Scaling , serie de artículos de la Universidad Sage sobre aplicaciones cuantitativas en las ciencias sociales, 07-011. Beverly Hills y Londres: Sage Publications.
  7. ^ Kruskal, JB (1964). "Escalamiento multidimensional mediante la optimización del ajuste a una hipótesis no métrica". Psychometrika . 29 (1): 1–27. doi :10.1007/BF02289565. S2CID  48165675.
  8. ^ Leeuw, Jan de; Mair, Patrick (2009). "Escalamiento multidimensional mediante mayorización: SMACOF en R". Revista de software estadístico . 31 (3). doi : 10.18637/jss.v031.i03 . ISSN  1548-7660.

Bibliografía