stringtranslate.com

Escalamiento multidimensional

Un ejemplo de escalamiento multidimensional clásico aplicado a los patrones de votación en la Cámara de Representantes de Estados Unidos . Cada punto rojo representa un miembro republicano de la Cámara y cada punto azul, un demócrata.

El escalado multidimensional ( MDS ) es un medio para visualizar el nivel de similitud de casos individuales de un conjunto de datos. MDS se utiliza para traducir distancias entre cada par de objetos en un conjunto en una configuración de puntos mapeados en un espacio cartesiano abstracto . [1]

Más técnicamente, MDS se refiere a un conjunto de técnicas de ordenación relacionadas utilizadas en la visualización de información , en particular para mostrar la información contenida en una matriz de distancias . Es una forma de reducción de dimensionalidad no lineal .

Dada una matriz de distancias con las distancias entre cada par de objetos en un conjunto, y un número elegido de dimensiones, N , un algoritmo MDS coloca cada objeto en un espacio de N dimensiones (una representación de dimensiones inferiores) de modo que las distancias entre objetos se conservan lo mejor posible. Para N = 1, 2 y 3, los puntos resultantes se pueden visualizar en un diagrama de dispersión . [2]

James O. Ramsay , de la Universidad McGill , quien también es considerado el fundador del análisis de datos funcionales , realizó contribuciones teóricas fundamentales al MDS. [3]

Tipos

Los algoritmos MDS se clasifican en una taxonomía , según el significado de la matriz de entrada:

Escalado multidimensional clásico

También se conoce como análisis de coordenadas principales (PCoA), escala de Torgerson o escala de Torgerson-Gower. Toma una matriz de entrada que proporciona diferencias entre pares de elementos y genera una matriz de coordenadas cuya configuración minimiza una función de pérdida llamada tensión , [2] que viene dada por

N
Pasos de un algoritmo MDS clásico:
El MDS clásico utiliza el hecho de que la matriz de coordenadas se puede derivar mediante descomposición de valores propios de . Y la matriz se puede calcular a partir de la matriz de proximidad mediante el uso de doble centrado. [4]
  1. Configurar la matriz de proximidad al cuadrado
  2. Aplicar doble centrado: utilizando la matriz de centrado , donde es el número de objetos, es la matriz identidad y es una matriz de todos los unos.
  3. Determine los valores propios más grandes y los vectores propios correspondientes de (donde está el número de dimensiones deseadas para la salida).
  4. Ahora, , donde está la matriz de vectores propios y es la matriz diagonal de valores propios de .
El MDS clásico asume distancias métricas. Por lo tanto, esto no es aplicable a las calificaciones de disimilitud directa.

Escalamiento multidimensional métrico (mMDS)

Es un superconjunto de MDS clásico que generaliza el procedimiento de optimización a una variedad de funciones de pérdida y matrices de entrada de distancias conocidas con pesos, etc. Una función de pérdida útil en este contexto se llama tensión , que a menudo se minimiza mediante un procedimiento llamado mayorización de tensión . Metric MDS minimiza la función de costo llamada “estrés” que es una suma residual de cuadrados:

El escalado métrico utiliza una transformación de potencia con un exponente controlado por el usuario : y para la distancia. En el escalamiento clásico, el escalamiento no métrico se define mediante el uso de regresión isotónica para estimar de forma no paramétrica una transformación de las disimilitudes.

Escalado multidimensional no métrico (NMDS)

A diferencia del MDS métrico, el MDS no métrico encuentra una relación monótona no paramétrica entre las diferencias en la matriz ítem-ítem y las distancias euclidianas entre ítems, y la ubicación de cada ítem en el espacio de baja dimensión.

Sea la disimilitud entre puntos . Sea la distancia euclidiana entre puntos incrustados .

Ahora, para cada elección de los puntos incrustados y es una función monótonamente creciente , defina la función "estrés":

El factor de en el denominador es necesario para evitar un "colapso". Supongamos que definimos en su lugar , entonces se puede minimizar trivialmente configurando y luego colapsar cada punto al mismo punto.

Existen algunas variantes de esta función de costos. Los programas MDS minimizan automáticamente el estrés para obtener la solución MDS.

El núcleo de un algoritmo MDS no métrico es un proceso de optimización doble. Primero hay que encontrar la transformación monótona óptima de las proximidades. En segundo lugar, los puntos de una configuración deben estar dispuestos de forma óptima, de modo que sus distancias coincidan lo más posible con las proximidades escaladas.

NMDS necesita optimizar dos objetivos simultáneamente. Generalmente esto se hace de forma iterativa:

  1. Inicialice aleatoriamente, por ejemplo, tomando muestras de una distribución normal.
  2. Hacer hasta un criterio de parada (por ejemplo, )
    1. Resuelva por regresión isotónica .
    2. Resuelva mediante descenso de gradiente u otros métodos.
  3. Regreso y

El análisis del espacio más pequeño (SSA) de Louis Guttman es un ejemplo de un procedimiento MDS no métrico.

Escalado multidimensional generalizado (GMD)

Una extensión del escalamiento multidimensional métrico, en el que el espacio objetivo es un espacio no euclidiano suave y arbitrario. En los casos en los que las diferencias son distancias en una superficie y el espacio objetivo es otra superficie, GMDS permite encontrar la incrustación de mínima distorsión de una superficie en otra. [5]

Detalles

Los datos a analizar son una colección de objetos (colores, caras, valores,...) sobre los que se define una función de distancia ,

distancia entre -ésimo y -ésimo objeto.

Estas distancias son las entradas de la matriz de disimilitud.

El objetivo de MDS es, dado , encontrar vectores tales que

para todos ,

donde es una norma vectorial . En MDS clásico, esta norma es la distancia euclidiana , pero, en un sentido más amplio, puede ser una función de distancia métrica o arbitraria. [6]

En otras palabras, MDS intenta encontrar un mapeo de los objetos de tal manera que se mantengan las distancias. Si se elige que la dimensión sea 2 o 3, podemos trazar los vectores para obtener una visualización de las similitudes entre los objetos. Tenga en cuenta que los vectores no son únicos: con la distancia euclidiana, se pueden trasladar, rotar y reflejar arbitrariamente, ya que estas transformaciones no cambian las distancias por pares .

(Nota: el símbolo indica el conjunto de números reales y la notación se refiere al producto cartesiano de copias de , que es un espacio vectorial de dimensiones sobre el campo de los números reales).

Existen varios enfoques para determinar los vectores . Por lo general, MDS se formula como un problema de optimización , donde se encuentra como un minimizador de alguna función de costos, por ejemplo,

Luego se puede encontrar una solución mediante técnicas de optimización numérica. Para algunas funciones de costos particularmente elegidas, los minimizadores se pueden expresar analíticamente en términos de descomposiciones propias de matrices . [2]

Procedimiento

Hay varios pasos para realizar una investigación sobre MDS:

  1. Formulando el problema – ¿Qué variables quieres comparar? ¿Cuántas variables quieres comparar? ¿Para qué se utilizará el estudio?
  2. Obtención de datos de entrada – Por ejemplo: – A los encuestados se les hace una serie de preguntas. Para cada par de productos, se les pide que califiquen la similitud (generalmente en una escala Likert de 7 puntos , desde muy similar hasta muy diferente). La primera pregunta podría ser para Coke/Pepsi, por ejemplo, la siguiente para Coke/Hires rootbeer, la siguiente para Pepsi/Dr Pepper, la siguiente para Dr Pepper/Hires rootbeer, etc. El número de preguntas es función del número de marcas y se puede calcular como donde Q es el número de preguntas y N es el número de marcas. Este enfoque se conoce como “datos de percepción: enfoque directo”. Hay otros dos enfoques. Existe el “datos de percepción: enfoque derivado” en el que los productos se descomponen en atributos que se califican en una escala diferencial semántica . El otro es el “enfoque de datos de preferencia” en el que a los encuestados se les pregunta su preferencia en lugar de similitud.
  3. Ejecución del programa estadístico MDS : el software para ejecutar el procedimiento está disponible en muchos paquetes de software estadístico. A menudo se puede elegir entre MDS métrico (que trata con datos de nivel de intervalo o razón) y MDS no métrico [7] (que trata con datos ordinales).
  4. Decidir el número de dimensiones : el investigador debe decidir el número de dimensiones que quiere que cree la computadora. La interpretabilidad de la solución MDS suele ser importante y las soluciones de dimensiones inferiores normalmente serán más fáciles de interpretar y visualizar. Sin embargo, la selección de dimensiones también es una cuestión de equilibrar el subajuste y el sobreajuste. Las soluciones de dimensiones inferiores pueden no ser adecuadas al omitir dimensiones importantes de los datos de disimilitud. Las soluciones de dimensiones más altas pueden sobreajustarse al ruido en las mediciones de disimilitud. Por lo tanto , las herramientas de selección de modelos como AIC , BIC , factores Bayes o validación cruzada pueden ser útiles para seleccionar la dimensionalidad que equilibra el subajuste y el sobreajuste.
  5. Mapeo de los resultados y definición de las dimensiones : el programa estadístico (o un módulo relacionado) mapeará los resultados. El mapa trazará cada producto (normalmente en un espacio bidimensional). La proximidad de los productos entre sí indica qué tan similares son o qué tan preferidos son, dependiendo del enfoque utilizado. Sin embargo, no es necesariamente obvio cómo las dimensiones de la incrustación corresponden realmente a las dimensiones del comportamiento del sistema. Aquí se puede hacer un juicio subjetivo sobre la correspondencia (ver mapeo perceptual ).
  6. Pruebe la confiabilidad y validez de los resultados : calcule R-cuadrado para determinar qué proporción de varianza de los datos escalados puede ser explicada por el procedimiento MDS. Un R-cuadrado de 0,6 se considera el nivel mínimo aceptable. [ cita necesaria ] Un R cuadrado de 0,8 se considera bueno para la escala métrica y 0,9 se considera bueno para la escala no métrica. Otras pruebas posibles son la prueba de estrés de Kruskal, las pruebas de datos divididos, las pruebas de estabilidad de datos (es decir, eliminar una marca) y la confiabilidad de prueba y repetición.
  7. Informe los resultados de manera integral : junto con el mapeo, se deben proporcionar al menos medidas de distancia (p. ej., índice de Sorenson , índice de Jaccard ) y confiabilidad (p. ej., valor de estrés). También es muy recomendable proporcionar el algoritmo (por ejemplo, Kruskal, Mather), que a menudo está definido por el programa utilizado (a veces reemplazando el informe del algoritmo), si ha dado una configuración de inicio o ha tenido una elección aleatoria, el número de ejecuciones. , la evaluación de la dimensionalidad, los resultados del método de Monte Carlo , el número de iteraciones, la evaluación de la estabilidad y la varianza proporcional de cada eje (r-cuadrado).

Implementaciones

Ver también

Referencias

  1. ^ Hidromiel, A (1992). "Revisión del desarrollo de métodos de escalamiento multidimensional". Revista de la Real Sociedad de Estadística. Serie D (El Estadístico) . 41 (1): 27–39. JSTOR  2348634. Resumen. Los métodos de escalamiento multidimensional son ahora una herramienta estadística común en psicofísica y análisis sensorial. Se traza el desarrollo de estos métodos, desde la investigación original de Torgerson (escalamiento métrico), Shepard y Kruskal (escalamiento no métrico) hasta el escalamiento de diferencias individuales y los métodos de máxima verosimilitud propuestos por Ramsay.
  2. ^ abc Borg, yo; Groenen, P. (2005). Escalamiento multidimensional moderno: teoría y aplicaciones (2ª ed.). Nueva York: Springer-Verlag. págs. 207–212. ISBN 978-0-387-94845-4.
  3. ^ Genest, cristiano; Nešlehová, Johanna G.; Ramsay, James O. (2014). "Una conversación con James O. Ramsay". Revista estadística internacional/Revue Internationale de Statistique . 82 (2): 161–183. JSTOR  43299752 . Consultado el 30 de junio de 2021 .
  4. ^ Wickelmaier, Florian. "Una introducción a los SMD". Unidad de Investigación de Calidad del Sonido, Universidad de Aalborg, Dinamarca (2003): 46
  5. ^ Bronstein AM, Bronstein MM, Kimmel R (enero de 2006). "Escalado multidimensional generalizado: un marco para la coincidencia de superficies parciales invariantes de isometría". Proc. Nacional. Acad. Ciencia. EE.UU . 103 (5): 1168–72. Código Bib : 2006PNAS..103.1168B. doi : 10.1073/pnas.0508601103 . PMC 1360551 . PMID  16432211. 
  6. ^ Kruskal, JB y Wish, M. (1978), Escalamiento multidimensional , Serie de artículos de Sage University sobre aplicaciones cuantitativas en las ciencias sociales, 07-011. Beverly Hills y Londres: Publicaciones Sage.
  7. ^ Kruskal, JB (1964). "Escalado multidimensional optimizando la bondad de ajuste a una hipótesis no métrica". Psicometrika . 29 (1): 1–27. doi :10.1007/BF02289565. S2CID  48165675.
  8. ^ Leeuw, Jan de; Mair, Patricio (2009). "Escalamiento multidimensional mediante mayorización: SMACOF en R". Revista de software estadístico . 31 (3). doi : 10.18637/jss.v031.i03 . ISSN  1548-7660.

Bibliografía