stringtranslate.com

mapa elástico

PCA lineal versus colectores principales no lineales [1] para la visualización de datos de microarrays de cáncer de mama : a) Configuración de nodos y superficie principal 2D en el colector lineal PCA 3D. El conjunto de datos es curvo y no se puede mapear adecuadamente en un plano principal 2D; b) La distribución en las coordenadas internas de la superficie principal no lineal 2D (ELMap2D) junto con una estimación de la densidad de puntos; c) Lo mismo que b), pero para el colector PCA lineal 2D (PCA2D). El subtipo de cáncer de mama "basal" se visualiza más adecuadamente con ELMap2D y algunas características de la distribución se resuelven mejor en comparación con PCA2D. Las variedades principales son producidas por el algoritmo del mapa elástico . Los datos están disponibles para concurso público. [2] El software está disponible para uso no comercial gratuito. [3] [4]

Los mapas elásticos proporcionan una herramienta para la reducción de dimensionalidad no lineal . Por su construcción, son un sistema de resortes elásticos incrustados en el espacio de datos. [1] Este sistema se aproxima a una variedad de baja dimensión. Los coeficientes elásticos de este sistema permiten el cambio de un agrupamiento de k-medias completamente desestructurado (elasticidad cero) a estimadores ubicados cerca de colectores PCA lineales (para módulos de alta flexión y bajo estiramiento). Con algunos valores intermedios de los coeficientes de elasticidad , este sistema se aproxima efectivamente a variedades principales no lineales. Este enfoque se basa en una analogía mecánica entre colectores principales, que pasan por "el medio" de la distribución de datos, y membranas y placas elásticas. El método fue desarrollado por AN Gorban , AY Zinovyev y AA Pitenko en 1996-1998.

Energía del mapa elástico.

Sea un conjunto de datos en un espacio euclidiano de dimensión finita . El mapa elástico está representado por un conjunto de nodos en el mismo espacio. Cada punto de datos tiene un nodo anfitrión , es decir, el nodo más cercano (si hay varios nodos más cercanos, se toma el nodo con el número más pequeño). El conjunto de datos se divide en clases .

La energía de aproximación D es la distorsión.

,

que es la energía de los resortes con elasticidad unitaria que conectan cada punto de datos con su nodo anfitrión. Es posible aplicar factores de ponderación a los términos de esta suma, por ejemplo, para reflejar la desviación estándar de la función de densidad de probabilidad de cualquier subconjunto de puntos de datos .

Sobre el conjunto de nodos se define una estructura adicional. Algunos pares de nodos, están conectados por bordes elásticos . Llame a este conjunto de pares . Algunos tripletes de nodos, forman costillas dobladas . Llame a este conjunto de trillizos .

La energía de estiramiento es ,
La energía de flexión es ,

donde y son los módulos de estiramiento y flexión respectivamente. La energía de estiramiento a veces se denomina membrana , mientras que la energía de flexión se denomina término de placa delgada . [5]

Por ejemplo, en la cuadrícula rectangular 2D, los bordes elásticos son solo bordes verticales y horizontales (pares de vértices más cercanos) y las nervaduras de flexión son los tripletes verticales u horizontales de vértices consecutivos (más cercanos).

La energía total del mapa elástico es entonces

La posición de los nodos está determinada por el equilibrio mecánico del mapa elástico, es decir, su ubicación es tal que minimiza la energía total .

Algoritmo de maximización de expectativas

Para una división dada del conjunto de datos en clases , la minimización del funcional cuadrático es un problema lineal con la matriz dispersa de coeficientes. Por lo tanto, de manera similar al análisis de componentes principales o k-medias , se utiliza un método de división:

Este algoritmo de maximización de expectativas garantiza un mínimo local de . Para mejorar la aproximación se proponen varios métodos adicionales. Por ejemplo, se utiliza la estrategia de ablandamiento . Esta estrategia comienza con rejillas rígidas (pequeña longitud, pequeña flexión y grandes módulos y coeficientes de elasticidad) y termina con rejillas suaves (pequeñas y ). El entrenamiento se desarrolla en varias épocas, cada época con su propia rigidez de cuadrícula. Otra estrategia adaptativa es el crecimiento neto : se parte de un pequeño número de nodos y se van añadiendo gradualmente nuevos nodos. Cada época tiene su propio número de nodos.

Aplicaciones

Aplicación de curvas principales construidas por el método de mapas elásticos: Índice de calidad de vida no lineal. [6] Los puntos representan datos de los 171 países de la ONU en un espacio de 4 dimensiones formado por los valores de 4 indicadores: producto bruto per cápita , esperanza de vida , mortalidad infantil , incidencia de tuberculosis . Diferentes formas y colores corresponden a diversas ubicaciones geográficas y años. La línea roja en negrita representa la curva principal , que se aproxima al conjunto de datos.

Las aplicaciones más importantes del método y del software libre [3] se encuentran en la bioinformática [7] [8] para el análisis exploratorio de datos y la visualización de datos multidimensionales, para la visualización de datos en economía, ciencias sociales y políticas, [9] como herramienta auxiliar para mapeo de datos en sistemas de información geográfica y para visualización de datos de diversa naturaleza.

El método se aplica en biología cuantitativa para reconstruir la superficie curva de una hoja de árbol a partir de una pila de imágenes de microscopía óptica. [10] Esta reconstrucción se utiliza para cuantificar las distancias geodésicas entre los tricomas y su patrón, que es un marcador de la capacidad de una planta para resistir a los patógenos.

Recientemente, el método se adapta como herramienta de apoyo en el proceso de decisión que subyace a la selección, optimización y gestión de carteras financieras . [11]

El método de mapas elásticos ha sido probado sistemáticamente y comparado con varios métodos de aprendizaje automático en el problema aplicado de identificación del régimen de flujo de un flujo gas-líquido en una tubería. [12] Existen varios regímenes: flujo monofásico de agua o aire, flujo burbujeante, flujo burbujeante, flujo slug, flujo slug-churn, flujo churn, flujo churn-anular y flujo anular. El método más simple y común utilizado para identificar el régimen de flujo es la observación visual. Sin embargo, este enfoque es subjetivo e inadecuado para caudales de gas y líquido relativamente altos. Por lo tanto, muchos autores proponen métodos de aprendizaje automático. Los métodos se aplican a los datos de presión diferencial recopilados durante un proceso de calibración. El método de mapas elásticos proporcionó un mapa 2D, donde se representa el área de cada régimen. La comparación con algunos otros métodos de aprendizaje automático se presenta en la Tabla 1 para varios diámetros y presiones de tubería.

Aquí, ANN significa redes neuronales artificiales de retropropagación , SVM significa máquina de vectores de soporte , SOM significa mapas autoorganizados . La tecnología híbrida fue desarrollada para aplicaciones de ingeniería. [13] En esta tecnología, los mapas elásticos se utilizan en combinación con el Análisis de Componentes Principales (PCA), el Análisis de Componentes Independientes (ICA) y la ANN de retropropagación.

El libro de texto [14] proporciona una comparación sistemática de mapas elásticos y mapas autoorganizados (SOM) en aplicaciones a la toma de decisiones económicas y financieras.

Referencias

  1. ^ ab AN Gorban, AY Zinovyev, Gráficos y colectores principales, en: Manual de investigación sobre aplicaciones y tendencias del aprendizaje automático: algoritmos, métodos y técnicas, Olivas ES et al. Editores. Referencia de ciencias de la información, IGI Global: Hershey, PA, EE. UU., 2009. 28–59.
  2. ^ Wang, Y., Klijn, JG, Zhang, Y., Sieuwerts, AM, Look, MP, Yang, F., Talantov, D., Timmermans, M., Meijer-van Gelder, ME, Yu, J. et al.: Perfiles de expresión genética para predecir metástasis a distancia de cáncer de mama primario con ganglios linfáticos negativos. Lanceta 365, 671–679 (2005); Datos en línea
  3. ^ ab A. Zinovyev, ViDaExpert: herramienta de visualización de datos multidimensionales (gratuita para uso no comercial). Instituto Curie , París.
  4. ^ A. Zinovyev, descripción general de ViDaExpert, IHES ( Institut des Hautes Études Scientifiques ), Bures-Sur-Yvette, Île-de-France.
  5. ^ Michael Kass, Andrew Witkin, Demetri Terzopoulos, Serpientes: modelos de contorno activos, Int.J. Visión por computadora, 1988 vol 1-4 págs.321-331
  6. ^ AN Gorban, A. Zinovyev, Principales variedades y gráficos en la práctica: de la biología molecular a los sistemas dinámicos, Revista internacional de sistemas neuronales , vol. 20, núm. 3 (2010) 219–232.
  7. ^ AN Gorban, B. Kegl, D. Wunsch, A. Zinovyev (Eds.), Principales colectores para visualización de datos y reducción de dimensiones, LNCSE 58, Springer: Berlín - Heidelberg - Nueva York, 2007. ISBN  978-3-540- 73749-0
  8. ^ M. Chacón, M. Lévano, H. Allende, H. Nowak, Detección de expresiones genéticas en microarrays mediante la aplicación de una red neuronal iterativamente elástica, en: B. Beliczynski et al. (Eds.), Apuntes de conferencias sobre ciencias de la computación, vol. 4432, Springer: Berlín – Heidelberg 2007, 355–363.
  9. ^ A. Zinovyev, Visualización de datos en ciencias políticas y sociales, en: SAGE "Enciclopedia internacional de ciencias políticas", Badie, B., Berg-Schlosser, D., Morlino, LA (Eds.), 2011.
  10. ^ H. Failmezger, B. Jaegle, A. Schrader, M. Hülskamp, ​​A. Tresch., Reconstrucción de hojas en 3D semiautomática y análisis de patrones de tricomas a partir de imágenes de microscopio óptico, PLoS Computational Biology, 2013, 9 (4): e1003029 .
  11. ^ M. Resta, Optimización de cartera mediante mapas elásticos: alguna evidencia de la bolsa de valores italiana, Sistemas de ingeniería e información inteligentes basados ​​en el conocimiento, B. Apolloni, RJ Howlett y L. Jain (eds.), Lecture Notes in Computer Science, vol. . 4693, Springer: Berlín – Heidelberg, 2010, 635-641.
  12. ^ H. Shaban, S. Tavoularis, Identificación del régimen de flujo en el flujo vertical ascendente de tuberías de aire-agua utilizando señales de presión diferencial y mapas elásticos, International Journal of Multiphase Flow 61 (2014) 62-72.
  13. ^ H. Shaban, S. Tavoularis, Medición de caudales de gas y líquido en flujos de tuberías de dos fases mediante la aplicación de técnicas de aprendizaje automático a señales de presión diferencial, International Journal of Multiphase Flow 67 (2014), 106-117
  14. ^ M. Resta, Paradigmas de inteligencia computacional en la toma de decisiones económicas y financieras, Serie Biblioteca de referencia de sistemas inteligentes, volumen 99, Springer International Publishing, Suiza 2016.