stringtranslate.com

Mapa elástico

PCA lineal versus colectores principales no lineales [1] para la visualización de datos de microarrays de cáncer de mama : a) Configuración de nodos y superficie principal 2D en el colector lineal PCA 3D. El conjunto de datos es curvo y no se puede mapear adecuadamente en un plano principal 2D; b) La distribución en las coordenadas internas de la superficie principal no lineal 2D (ELMap2D) junto con una estimación de la densidad de puntos; c) Lo mismo que b), pero para el colector PCA 2D lineal (PCA2D). El subtipo de cáncer de mama “basal” se visualiza de manera más adecuada con ELMap2D y algunas características de la distribución se resuelven mejor en comparación con PCA2D. Los colectores principales se producen mediante el algoritmo de mapas elásticos . Los datos están disponibles para competencia pública. [2] El software está disponible para uso no comercial gratuito. [3] [4]

Los mapas elásticos proporcionan una herramienta para la reducción de dimensionalidad no lineal . Por su construcción, son un sistema de resortes elásticos incrustados en el espacio de datos. [1] Este sistema se aproxima a una variedad de baja dimensión. Los coeficientes elásticos de este sistema permiten el cambio de la agrupación de k-medias completamente no estructurada (elasticidad cero) a los estimadores ubicados cerca de las variedades PCA lineales (para módulos de alta flexión y bajo estiramiento). Con algunos valores intermedios de los coeficientes de elasticidad , este sistema se aproxima de manera efectiva a las variedades principales no lineales. Este enfoque se basa en una analogía mecánica entre las variedades principales, que pasan por "el medio" de la distribución de datos, y las membranas y placas elásticas. El método fue desarrollado por AN Gorban , AY Zinovyev y AA Pitenko en 1996-1998.

Mapa de energía elástica

Sea un conjunto de datos en un espacio euclidiano de dimensión finita . El mapa elástico está representado por un conjunto de nodos en el mismo espacio. Cada punto de datos tiene un nodo anfitrión , es decir, el nodo más cercano (si hay varios nodos más cercanos, se toma el nodo con el número más pequeño). El conjunto de datos se divide en clases .

La energía de aproximación D es la distorsión

,

que es la energía de los resortes con elasticidad unitaria que conectan cada punto de datos con su nodo anfitrión. Es posible aplicar factores de ponderación a los términos de esta suma, por ejemplo para reflejar la desviación estándar de la función de densidad de probabilidad de cualquier subconjunto de puntos de datos .

En el conjunto de nodos se define una estructura adicional. Algunos pares de nodos, , están conectados por aristas elásticas . Llamemos a este conjunto de pares . Algunos tripletes de nodos, , forman nervaduras de flexión . Llamemos a este conjunto de tripletes .

La energía de estiramiento es ,
La energía de flexión es ,

donde y son los módulos de estiramiento y flexión respectivamente. La energía de estiramiento a veces se denomina término de membrana , mientras que la energía de flexión se denomina término de placa delgada . [5]

Por ejemplo, en la cuadrícula rectangular 2D, los bordes elásticos son simplemente bordes verticales y horizontales (pares de vértices más cercanos) y las nervaduras de flexión son los tripletes verticales u horizontales de vértices consecutivos (más cercanos).

La energía total del mapa elástico es entonces

La posición de los nodos está determinada por el equilibrio mecánico del mapa elástico, es decir, su ubicación es tal que minimiza la energía total .

Algoritmo de maximización de expectativas

Para una determinada división del conjunto de datos en clases , la minimización de la función cuadrática es un problema lineal con la matriz dispersa de coeficientes. Por lo tanto, de manera similar al análisis de componentes principales o k-medias , se utiliza un método de división:

Este algoritmo de maximización de expectativas garantiza un mínimo local de . Para mejorar la aproximación se proponen varios métodos adicionales. Por ejemplo, se utiliza la estrategia de suavizado . Esta estrategia comienza con una cuadrícula rígida (longitud pequeña, curvatura pequeña y módulos y coeficientes de elasticidad grandes) y termina con cuadrículas suaves ( y pequeñas ). El entrenamiento se realiza en varias épocas, cada una con su propia rigidez de cuadrícula. Otra estrategia adaptativa es la red creciente : se comienza con un número pequeño de nodos y se agregan gradualmente nuevos nodos. Cada época tiene su propio número de nodos.

Aplicaciones

Aplicación de curvas principales construidas por el método de mapas elásticos: Índice de calidad de vida no lineal. [6] Los puntos representan datos de los 171 países de la ONU en un espacio de 4 dimensiones formado por los valores de 4 indicadores: producto bruto per cápita , esperanza de vida , mortalidad infantil , incidencia de tuberculosis . Diferentes formas y colores corresponden a varias ubicaciones geográficas y años. La línea roja en negrita representa la curva principal , que aproxima el conjunto de datos.

Las aplicaciones más importantes del método y del software libre [3] son ​​en bioinformática [7] [8] para el análisis exploratorio de datos y la visualización de datos multidimensionales, para la visualización de datos en economía, ciencias sociales y políticas, [9] como herramienta auxiliar para el mapeo de datos en sistemas de información geográfica y para la visualización de datos de diversa naturaleza.

El método se aplica en biología cuantitativa para reconstruir la superficie curva de una hoja de árbol a partir de una pila de imágenes de microscopía óptica. [10] Esta reconstrucción se utiliza para cuantificar las distancias geodésicas entre los tricomas y su patrón, que es un marcador de la capacidad de una planta para resistir a los patógenos.

Recientemente, el método se ha adaptado como herramienta de apoyo en el proceso de decisión subyacente a la selección, optimización y gestión de carteras financieras . [11]

El método de mapas elásticos se ha probado y comparado sistemáticamente con varios métodos de aprendizaje automático en el problema aplicado de identificación del régimen de flujo de un flujo de gas-líquido en una tubería. [12] Hay varios regímenes: flujo de agua o aire monofásico, flujo burbujeante, flujo burbujeante-slug, flujo slug, flujo slug-churn, flujo churn, flujo churn-anular y flujo anular. El método más simple y común utilizado para identificar el régimen de flujo es la observación visual. Sin embargo, este enfoque es subjetivo e inadecuado para caudales de gas y líquido relativamente altos. Por lo tanto, muchos autores proponen métodos de aprendizaje automático. Los métodos se aplican a datos de presión diferencial recopilados durante un proceso de calibración. El método de mapas elásticos proporcionó un mapa 2D, donde se representa el área de cada régimen. La comparación con algunos otros métodos de aprendizaje automático se presenta en la Tabla 1 para varios diámetros de tubería y presión.

Aquí, ANN significa redes neuronales artificiales de retropropagación , SVM significa máquina de vectores de soporte , SOM significa mapas autoorganizados . La tecnología híbrida fue desarrollada para aplicaciones de ingeniería. [13] En esta tecnología, los mapas elásticos se utilizan en combinación con el análisis de componentes principales (PCA), el análisis de componentes independientes (ICA) y la ANN de retropropagación.

El libro de texto [14] proporciona una comparación sistemática de mapas elásticos y mapas autoorganizados (SOM) en aplicaciones a la toma de decisiones económicas y financieras.

Referencias

  1. ^ ab AN Gorban, AY Zinovyev, Principal Graphs and Manifolds, En: Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods and Techniques, Olivas ES et al. Eds. Referencia de Ciencias de la Información, IGI Global: Hershey, PA, EE. UU., 2009. 28–59.
  2. ^ Wang, Y., Klijn, JG, Zhang, Y., Sieuwerts, AM, Look, MP, Yang, F., Talantov, D., Timmermans, M., Meijer-van Gelder, ME, Yu, J. et al.: Perfiles de expresión genética para predecir metástasis a distancia de cáncer de mama primario con ganglios linfáticos negativos. Lanceta 365, 671–679 (2005); Datos en línea
  3. ^ ab A. Zinovyev, ViDaExpert - Herramienta de visualización de datos multidimensionales (gratuita para uso no comercial). Instituto Curie , París.
  4. ^ A. Zinovyev, descripción general de ViDaExpert, IHES ( Institut des Hautes Études Scientifiques ), Bures-Sur-Yvette, Île-de-France.
  5. ^ Michael Kass, Andrew Witkin, Demetri Terzopoulos, Serpientes: modelos de contorno activos, Int.J. Computer Vision, 1988 vol 1-4 pp.321-331
  6. ^ AN Gorban, A. Zinovyev, Variedades principales y gráficos en la práctica: de la biología molecular a los sistemas dinámicos, International Journal of Neural Systems , Vol. 20, No. 3 (2010) 219–232.
  7. ^ AN Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principales colectores para visualización de datos y reducción de dimensiones, LNCSE 58, Springer: Berlín - Heidelberg - Nueva York, 2007. ISBN  978-3-540- 73749-0
  8. ^ M. Chacón, M. Lévano, H. Allende, H. Nowak, Detección de expresiones genéticas en microarreglos mediante la aplicación de redes neuronales iterativamente elásticas, en: B. Beliczynski et al. (Eds.), Lecture Notes in Computer Sciences, vol. 4432, Springer: Berlín – Heidelberg 2007, 355–363.
  9. ^ A. Zinovyev, Visualización de datos en ciencias políticas y sociales, En: SAGE "Enciclopedia Internacional de Ciencias Políticas", Badie, B., Berg-Schlosser, D., Morlino, LA (Eds.), 2011.
  10. ^ H. Failmezger, B. Jaegle, A. Schrader, M. Hülskamp, ​​A. Tresch., Reconstrucción foliar tridimensional semiautomatizada y análisis de patrones de tricomas a partir de imágenes de microscopio óptico, PLoS Computational Biology, 2013, 9(4):e1003029.
  11. ^ M. Resta, Optimización de cartera a través de mapas elásticos: algunas evidencias de la bolsa de valores italiana, Knowledge-Based Intelligent Information and Engineering Systems, B. Apolloni, RJ Howlett y L. Jain (eds.), Lecture Notes in Computer Science, Vol. 4693, Springer: Berlín – Heidelberg, 2010, 635-641.
  12. ^ H. Shaban, S. Tavoularis, Identificación del régimen de flujo en flujo vertical ascendente de aire y agua en tuberías utilizando señales de presión diferencial y mapas elásticos, International Journal of Multiphase Flow 61 (2014) 62-72.
  13. ^ H. Shaban, S. Tavoularis, Medición de caudales de gas y líquido en flujos de tuberías bifásicos mediante la aplicación de técnicas de aprendizaje automático a señales de presión diferencial, International Journal of Multiphase Flow 67(2014), 106-117
  14. ^ M. Resta, Paradigmas de inteligencia computacional en la toma de decisiones económicas y financieras, Serie Intelligent Systems Reference Library, Volumen 99, Springer International Publishing, Suiza 2016.