stringtranslate.com

Mapa autoorganizado

Un mapa autoorganizado ( SOM ) o un mapa de características autoorganizado ( SOFM ) es una técnica de aprendizaje automático no supervisado que se utiliza para producir una representación de baja dimensión (normalmente bidimensional) de un conjunto de datos de mayor dimensión preservando al mismo tiempo la estructura topológica de los datos. Por ejemplo, un conjunto de datos con variables medidas en observaciones podría representarse como grupos de observaciones con valores similares para las variables. Luego, estos grupos podrían visualizarse como un "mapa" bidimensional, de modo que las observaciones en los grupos proximales tengan valores más similares que las observaciones en los grupos distales. Esto puede hacer que los datos de alta dimensión sean más fáciles de visualizar y analizar.

Un SOM es un tipo de red neuronal artificial , pero se entrena mediante aprendizaje competitivo en lugar del aprendizaje de corrección de errores (por ejemplo, retropropagación con descenso de gradiente ) utilizado por otras redes neuronales artificiales. El SOM fue introducido por el profesor finlandés Teuvo Kohonen en la década de 1980 y, por lo tanto, a veces se le llama mapa de Kohonen o red de Kohonen . [1] [2] El mapa o red de Kohonen es una abstracción computacionalmente conveniente que se basa en modelos biológicos de sistemas neuronales de la década de 1970 [3] y modelos de morfogénesis que se remontan a Alan Turing en la década de 1950. [4] Los SOM crean representaciones internas que recuerdan al homúnculo cortical , [5] una representación distorsionada del cuerpo humano , basada en un "mapa" neurológico de las áreas y proporciones del cerebro humano dedicadas al procesamiento de funciones sensoriales , para diferentes partes de el cuerpo.

Un mapa autoorganizado que muestra los patrones de votación del Congreso de Estados Unidos . Los datos de entrada fueron una tabla con una fila para cada miembro del Congreso y columnas para ciertos votos que contenían el voto de sí/no/abstención de cada miembro. El algoritmo SOM dispuso estos miembros en una cuadrícula bidimensional colocando miembros similares más cerca unos de otros. El primer gráfico muestra la agrupación cuando los datos se dividen en dos grupos. El segundo gráfico muestra la distancia promedio a los vecinos: las distancias mayores son más oscuras. El tercer gráfico predice la membresía en el partido Republicano (rojo) o Demócrata (azul). Los otros gráficos superponen el mapa resultante con valores pronosticados en una dimensión de entrada: el rojo significa un voto pronosticado "sí" a ese proyecto de ley, el azul significa un voto "no". La trama fue creada en Synapse .

Descripción general

Los mapas autoorganizados, como la mayoría de las redes neuronales artificiales, funcionan de dos modos: entrenamiento y mapeo. Primero, el entrenamiento utiliza un conjunto de datos de entrada (el "espacio de entrada") para generar una representación de dimensiones inferiores de los datos de entrada (el "espacio de mapa"). En segundo lugar, el mapeo clasifica datos de entrada adicionales utilizando el mapa generado.

En la mayoría de los casos, el objetivo del entrenamiento es representar un espacio de entrada con p dimensiones como un espacio de mapa con dos dimensiones. Específicamente, se dice que un espacio de entrada con p variables tiene p dimensiones. Un espacio de mapa consta de componentes llamados "nodos" o "neuronas", que están dispuestos como una cuadrícula hexagonal o rectangular con dos dimensiones. [6] El número de nodos y su disposición se especifican de antemano en función de los objetivos más amplios del análisis y exploración de los datos .

Cada nodo en el espacio del mapa está asociado con un vector de "peso", que es la posición del nodo en el espacio de entrada. Mientras los nodos en el espacio del mapa permanecen fijos, el entrenamiento consiste en mover vectores de peso hacia los datos de entrada (reduciendo una métrica de distancia como la distancia euclidiana ) sin estropear la topología inducida desde el espacio del mapa. Después del entrenamiento, el mapa se puede utilizar para clasificar observaciones adicionales para el espacio de entrada encontrando el nodo con el vector de peso más cercano (métrica de distancia más pequeña) al vector del espacio de entrada.

Algoritmo de aprendizaje

El objetivo del aprendizaje en el mapa autoorganizado es hacer que diferentes partes de la red respondan de manera similar a ciertos patrones de entrada. Esto está motivado en parte por cómo se maneja la información visual, auditiva u otro tipo de información sensorial en partes separadas de la corteza cerebral en el cerebro humano . [7]

Una ilustración del entrenamiento de un mapa autoorganizado. La mancha azul es la distribución de los datos de entrenamiento y el pequeño disco blanco es el dato de entrenamiento actual extraído de esa distribución. Al principio (izquierda), los nodos SOM están ubicados arbitrariamente en el espacio de datos. Se selecciona el nodo (resaltado en amarillo) más cercano al dato de entrenamiento. Se mueve hacia el dato de entrenamiento, al igual que (en menor medida) sus vecinos en la red. Después de muchas iteraciones, la cuadrícula tiende a aproximarse a la distribución de datos (derecha).

Los pesos de las neuronas se inicializan a valores aleatorios pequeños o se muestrean uniformemente del subespacio abarcado por los dos vectores propios de componentes principales más grandes . Con la última alternativa, el aprendizaje es mucho más rápido porque los pesos iniciales ya dan una buena aproximación de los pesos de SOM. [8]

La red debe recibir una gran cantidad de vectores de ejemplo que representen, lo más cerca posible, los tipos de vectores esperados durante el mapeo. Los ejemplos suelen administrarse varias veces como iteraciones.

La formación utiliza el aprendizaje competitivo . Cuando se introduce un ejemplo de entrenamiento en la red, se calcula su distancia euclidiana a todos los vectores de peso. La neurona cuyo vector de peso es más similar a la entrada se denomina unidad de mejor coincidencia (BMU). Los pesos de la BMU y las neuronas cercanas a ella en la cuadrícula SOM se ajustan hacia el vector de entrada. La magnitud del cambio disminuye con el tiempo y con la distancia de la cuadrícula desde la BMU. La fórmula de actualización para una neurona v con vector de peso W v (s) es

,

donde s es el índice de paso, t es un índice en la muestra de entrenamiento, u es el índice de la BMU para el vector de entrada D ( t ), α ( s ) es un coeficiente de aprendizaje monótonamente decreciente ; θ ( u , v , s ) es la función de vecindad que da la distancia entre la neurona u y la neurona v en el paso s . [9] Dependiendo de las implementaciones, t puede escanear el conjunto de datos de entrenamiento sistemáticamente ( t es 0, 1, 2... T -1, luego repetir, siendo T el tamaño de la muestra de entrenamiento), extraerse aleatoriamente del conjunto de datos ( muestreo de arranque ), o implementar algún otro método de muestreo (como jackknifing ).

La función de vecindad θ ( u , v , s ) (también llamada función de interacción lateral ) depende de la distancia de la cuadrícula entre la BMU (neurona u ) y la neurona v . En la forma más simple, es 1 para todas las neuronas lo suficientemente cercanas a BMU y 0 para otras, pero las funciones gaussiana y de sombrero mexicano [10] también son opciones comunes. Independientemente de la forma funcional, la función de vecindad se reduce con el tiempo. [7] Al principio, cuando el vecindario es amplio, la autoorganización tiene lugar a escala global. Cuando la vecindad se ha reducido a sólo un par de neuronas, los pesos convergen con las estimaciones locales. En algunas implementaciones, el coeficiente de aprendizaje α y la función de vecindad θ disminuyen constantemente al aumentar s , en otras (en particular aquellas donde t escanea el conjunto de datos de entrenamiento) disminuyen paso a paso, una vez cada T pasos.

Proceso de entrenamiento de SOM en un conjunto de datos bidimensionales.

Este proceso se repite para cada vector de entrada durante un número (generalmente grande) de ciclos λ . La red termina asociando nodos de salida con grupos o patrones en el conjunto de datos de entrada. Si se pueden nombrar estos patrones, los nombres se pueden adjuntar a los nodos asociados en la red entrenada.

Durante el mapeo, habrá una única neurona ganadora : la neurona cuyo vector de peso se encuentre más cercano al vector de entrada. Esto se puede determinar simplemente calculando la distancia euclidiana entre el vector de entrada y el vector de peso.

Si bien en este artículo se ha enfatizado la representación de los datos de entrada como vectores, cualquier tipo de objeto que pueda representarse digitalmente, que tenga una medida de distancia adecuada asociada y en el que sean posibles las operaciones necesarias para el entrenamiento, se puede utilizar para construir un auto. -mapa organizador. Esto incluye matrices, funciones continuas o incluso otros mapas autoorganizados.

Algoritmo

  1. Aleatorizar los vectores de peso de nodos en un mapa.
  2. Para
    1. Elija aleatoriamente un vector de entrada
    2. Encuentre el nodo en el mapa más cercano al vector de entrada. Este nodo es la unidad de mejor coincidencia (BMU). Denotarlo por
    3. Para cada nodo , actualice su vector acercándose al vector de entrada:

Los nombres de las variables significan lo siguiente, con los vectores en negrita,

Las opciones de diseño clave son la forma del SOM, la función de vecindad y el programa de tasa de aprendizaje. La idea de la función de vecindad es hacer que la BMU se actualice más, sus vecinos inmediatos se actualicen un poco menos, y así sucesivamente. La idea del programa de tasa de aprendizaje es lograr que las actualizaciones del mapa sean grandes al principio y dejen de actualizarse gradualmente.

Por ejemplo, si queremos aprender un SOM usando una cuadrícula, podemos indexarlo usando donde ambos . La función de vecindad puede hacer que la BMU se actualice por completo, los vecinos más cercanos se actualicen a la mitad y sus vecinos se actualicen a la mitad nuevamente, etc. Y podemos usar un programa de tasa de aprendizaje lineal simple .

Observe en particular que la tasa de actualización no depende de dónde se encuentra el punto en el espacio euclidiano, sólo de dónde se encuentra en el propio SOM. Por ejemplo, los puntos están cerca en el SOM, por lo que siempre se actualizarán de manera similar, incluso cuando estén muy separados en el espacio euclidiano. Por el contrario, incluso si los puntos terminan superponiéndose entre sí (como si el SOM parece una toalla doblada), todavía no se actualizan de manera similar.

Algoritmo alternativo

  1. Aleatorizar los vectores de peso de los nodos del mapa.
  2. Recorre cada vector de entrada en el conjunto de datos de entrada
    1. Atraviesa cada nodo en el mapa.
      1. Utilice la fórmula de distancia euclidiana para encontrar la similitud entre el vector de entrada y el vector de peso del nodo del mapa.
      2. Realice un seguimiento del nodo que produce la distancia más pequeña (este nodo es la unidad que mejor coincide, BMU)
    2. Actualice los nodos en las proximidades de la BMU (incluida la propia BMU) acercándolos al vector de entrada
  3. Aumente y repita desde el paso 2 mientras

Opciones de inicialización

La selección de pesos iniciales como buenas aproximaciones de los pesos finales es un problema bien conocido para todos los métodos iterativos de redes neuronales artificiales, incluidos los mapas autoorganizados. Kohonen propuso originalmente la iniciación aleatoria de pesas. [11] (Este enfoque se refleja en los algoritmos descritos anteriormente). Más recientemente, la inicialización de componentes principales, en la que los pesos iniciales del mapa se eligen del espacio de los primeros componentes principales, se ha vuelto popular debido a la reproducibilidad exacta de los resultados. [12]

Representación cartográfica de un mapa autoorganizado ( U-Matrix ) basado en datos de artículos destacados de Wikipedia (frecuencia de palabras). La distancia es inversamente proporcional a la similitud. Las "montañas" son bordes entre grupos. Las líneas rojas son enlaces entre artículos.

Sin embargo, una comparación cuidadosa de la inicialización aleatoria con la inicialización del componente principal para un mapa unidimensional encontró que las ventajas de la inicialización del componente principal no son universales. El mejor método de inicialización depende de la geometría del conjunto de datos específico. La inicialización del componente principal era preferible (para un mapa unidimensional) cuando la curva principal que se aproximaba al conjunto de datos podía proyectarse de manera univalente y lineal en el primer componente principal (conjuntos cuasilineales). Sin embargo, para conjuntos de datos no lineales, el inicio aleatorio funcionó mejor. [13]

Interpretación

SOM unidimensional versus análisis de componentes principales (PCA) para la aproximación de datos. SOM es una línea roja discontinua con cuadrados, 20 nodos. El primer componente principal se presenta mediante una línea azul. Los puntos de datos son los pequeños círculos grises. Para PCA, la fracción de varianza no explicada en este ejemplo es 23,23%, para SOM es 6,86%. [14]

Hay dos formas de interpretar un SOM. Debido a que en la fase de entrenamiento los pesos de todo el vecindario se mueven en la misma dirección, elementos similares tienden a excitar las neuronas adyacentes. Por lo tanto, SOM forma un mapa semántico donde las muestras similares se asignan muy juntas y las diferentes separadas. Esto puede visualizarse mediante una matriz U (distancia euclidiana entre vectores de peso de células vecinas) del SOM. [15] [16] [17]

La otra forma es pensar en los pesos neuronales como punteros al espacio de entrada. Forman una aproximación discreta de la distribución de muestras de entrenamiento. Más neuronas apuntan a regiones con alta concentración de muestras de entrenamiento y menos donde las muestras son escasas.

SOM puede considerarse una generalización no lineal del análisis de componentes principales (PCA). [18] Se ha demostrado, utilizando datos geofísicos tanto artificiales como reales, que SOM tiene muchas ventajas [19] [20] sobre los métodos convencionales de extracción de características , como las funciones ortogonales empíricas (EOF) o PCA.

Originalmente, SOM no se formuló como una solución a un problema de optimización. Sin embargo, ha habido varios intentos de modificar la definición de SOM y formular un problema de optimización que dé resultados similares. [21] Por ejemplo, los mapas elásticos utilizan la metáfora mecánica de la elasticidad para aproximar variedades principales : [22] la analogía es una membrana y una placa elásticas.

Ejemplos

Enfoques alternativos

Ver también

Lectura adicional

Referencias

  1. ^ Kohonen, Teuvo; Honkela, Timo (2007). "Red Kohonen". Scholarpedia . 2 (1): 1568. Código bibliográfico : 2007SchpJ...2.1568K. doi : 10.4249/scholarpedia.1568 .
  2. ^ Kohonen, Teuvo (1982). "Formación autoorganizada de mapas de características topológicamente correctos". Cibernética biológica . 43 (1): 59–69. doi :10.1007/bf00337288. S2CID  206775459.
  3. ^ Von der Malsburg, C (1973). "Autoorganización de células sensibles a la orientación en la corteza estriada". Kybernetik . 14 (2): 85-100. doi :10.1007/bf00288907. PMID  4786750. S2CID  3351573.
  4. ^ Turing, Alan (1952). "La base química de la morfogénesis". Fil. Trans. R. Soc . 237 (641): 37–72. Código Bib : 1952RSPTB.237...37T. doi :10.1098/rstb.1952.0012.
  5. ^ "Homúnculo | Significado y definición en inglés del Reino Unido | Lexico.com". Diccionarios Léxico | Inglés . Archivado desde el original el 18 de mayo de 2021 . Consultado el 6 de febrero de 2022 .
  6. ^ Jaakko Hollmen (9 de marzo de 1996). "Mapa autoorganizado (SOM)". Universidad Aalto .
  7. ^ ab Haykin, Simon (1999). "9. Mapas autoorganizados". Redes neuronales: una base integral (2ª ed.). Prentice-Hall. ISBN 978-0-13-908385-3.
  8. ^ Kohonen, Teuvo (2005). "Introducción a SOM". Caja de herramientas SOM . Consultado el 18 de junio de 2006 .
  9. ^ Kohonen, Teuvo; Honkela, Timo (2011). "Red Kohonen". Scholarpedia . 2 (1): 1568. Código bibliográfico : 2007SchpJ...2.1568K. doi : 10.4249/scholarpedia.1568 .
  10. ^ Vrieze, DO (1995). "Red Kohonen" (PDF) . Redes neuronales artificiales . Apuntes de conferencias sobre informática. vol. 931. Universidad de Limburgo, Maastricht. págs. 83-100. doi :10.1007/BFb0027024. ISBN 978-3-540-59488-8. Consultado el 1 de julio de 2020 . {{cite book}}: |website=ignorado ( ayuda )
  11. ^ Kohonen, T. (2012) [1988]. Autoorganización y memoria asociativa (2ª ed.). Saltador. ISBN 978-3-662-00784-6.
  12. ^ Ciampi, A.; Lechevallier, Y. (2000). "Agrupación de grandes conjuntos de datos de varios niveles: un enfoque basado en mapas autoorganizados de Kohonen". En Zighed, DA; Komorowski, J.; Zytkow, J. (eds.). Principios de minería de datos y descubrimiento de conocimientos: cuarta conferencia europea, PKDD 2000 Lyon, Francia, 13 al 16 de septiembre de 2000 Actas . Apuntes de conferencias sobre informática. vol. 1910. Saltador. págs. 353–358. doi : 10.1007/3-540-45372-5_36 . ISBN 3-540-45372-5.
  13. ^ Akinduko, AA; Mirkes, EM; Gorban, AN (2016). "SOM: inicialización estocástica versus componentes principales". Ciencias de la Información . 364–365: 213–221. doi :10.1016/j.ins.2015.10.013.
  14. ^ La ilustración se prepara con software gratuito: Mirkes, Evgeny M.; Análisis de componentes principales y mapas autoorganizados: subprograma, Universidad de Leicester, 2011
  15. ^ Ultsch, Alfred; Siemon, H. Peter (1990). "Mapas de funciones autoorganizadas de Kohonen para análisis de datos exploratorios". En Viuda, Bernard; Angeniol, Bernard (eds.). Actas de la Conferencia Internacional sobre Redes Neuronales (INNC-90), París, Francia, 9 al 13 de julio de 1990. Vol. 1. Dordrecht, Países Bajos: Kluwer. págs. 305–308. ISBN 978-0-7923-0831-7.
  16. ^ Ultsch, Alfred (2003). U*-Matrix: una herramienta para visualizar clusters en datos de alta dimensión (Reporte técnico). Departamento de Informática, Universidad de Marburg. págs. 1–12. 36.
  17. ^ Saadatdoost, Robab; Sim, Alex Tze Hiang; Jafarkarimi, Hosein (2011). "Aplicación de mapa autoorganizado para el descubrimiento de conocimiento basado en datos de educación superior". Investigación e Innovación en Sistemas de Información (ICRIIS), Conferencia Internacional 2011 sobre . IEEE. doi :10.1109/ICRIIS.2011.6125693. ISBN 978-1-61284-294-3.
  18. ^ Yin, Hujun. "Aprendizaje de variedades principales no lineales mediante mapas autoorganizados". Gorban et al. 2008 .
  19. ^ Liu, Yonggang; Weisberg, Robert H (2005). "Patrones de variabilidad de las corrientes oceánicas en la plataforma occidental de Florida utilizando el mapa autoorganizado". Revista de investigaciones geofísicas . 110 (C6): C06003. Código Bib : 2005JGRC..110.6003L. doi : 10.1029/2004JC002786 .
  20. ^ Liu, Yonggang; Weisberg, Robert H.; Mooers, Christopher NK (2006). "Evaluación del rendimiento del mapa autoorganizado para la extracción de funciones". Revista de investigaciones geofísicas . 111 (C5): C05018. Código Bib : 2006JGRC..111.5018L. doi : 10.1029/2005jc003117 .
  21. ^ Heskes, Tom (1999). "Funciones energéticas para mapas autoorganizados". En Oja, Erkki; Kaski, Samuel (eds.). Mapas de Kohonen . Elsevier. págs. 303–315. doi :10.1016/B978-044450270-4/50024-3. ISBN 978-044450270-4.
  22. ^ Gorban, Alexander N .; Kégl, Balázs; Wunsch, Donald C.; Zinoviev, Andrei, eds. (2008). Manifolds principales para visualización de datos y reducción de dimensiones. Apuntes de conferencias sobre informática e ingeniería. vol. 58. Saltador. ISBN 978-3-540-73749-0.
  23. ^ Zheng, G.; Vaishnavi, V. (2011). "Un enfoque de mapa perceptual multidimensional para la priorización y selección de proyectos". Transacciones AIS sobre la interacción persona-computadora . 3 (2): 82-103. doi : 10.17705/1thci.00028 .
  24. ^ Taner, MT; Paredes, JD; Smith, M.; Taylor, G.; Carr, MB; Dumas, D. (2001). "Caracterización de yacimientos mediante calibración de grupos de mapas autoorganizados". Resúmenes Ampliados del Programa Técnico de la SEG 2001 . vol. 2001. págs. 1552-1555. doi :10.1190/1.1816406. S2CID  59155082.
  25. ^ Chang, Wui Lee; Pang, mentira Meng; Tay, Kai Meng (marzo de 2017). "Aplicación del mapa autoorganizado a la metodología de análisis de efectos y modos de falla" (PDF) . Neurocomputación . 249 : 314–320. doi :10.1016/j.neucom.2016.04.073.
  26. ^ Parque, Young-Seuk; Tison, Julieta; Lek, Sovan; Giraudel, Jean-Luc; Coste, Michel; Delmas, François (1 de noviembre de 2006). "Aplicación de un mapa autoorganizado para seleccionar especies representativas en análisis multivariado: un estudio de caso que determina los patrones de distribución de diatomeas en Francia". Informática Ecológica . IV Congreso Internacional de Informática Ecológica. 1 (3): 247–257. Código Bib : 2006EcInf...1..247P. doi :10.1016/j.ecoinf.2006.03.005. ISSN  1574-9541.
  27. ^ Yilmaz, Hasan Ümitcan; Fouché, Eduardo; Dengiz, Thomas; Krauß, Lucas; Keles, Dogan; Fichtner, Lobo (1 de abril de 2019). "Reducción de series temporales de energía para modelos de sistemas energéticos mediante mapas autoorganizados". It - Tecnología de la información . 61 (2–3): 125–133. doi :10.1515/itit-2019-0025. ISSN  2196-7032. S2CID  203160544.
  28. ^ Kaski, Samuel (1997). "Exploración de datos mediante mapas autoorganizados". Acta Politécnica Escandinavica . Serie Matemáticas, Computación y Gestión en Ingeniería. 82 . Espoo, Finlandia: Academia Finlandesa de Tecnología. ISBN 978-952-5148-13-8.
  29. ^ Alahakoon, D.; Halgamuge, SK; Sirinivasan, B. (2000). "Mapas dinámicos autoorganizados con crecimiento controlado para el descubrimiento de conocimientos". Transacciones IEEE en redes neuronales . 11 (3): 601–614. doi : 10.1109/72.846732. PMID  18249788.
  30. ^ Liou, CY; Tai, W.-P. (2000). "Conformidad en la red de autoorganización". Inteligencia artificial . 116 (1–2): 265–286. doi :10.1016/S0004-3702(99)00093-4.
  31. ^ Liou, CY; Kuo, Y.-T. (2005). "Mapa autoorganizado conforme para una variedad de género cero". La computadora visual . 21 (5): 340–353. doi :10.1007/s00371-005-0290-6. S2CID  8677589.
  32. ^ Shah-Hosseini, Hamed; Safabakhsh, Reza (abril de 2003). "TASOM: un nuevo mapa autoorganizado adaptable al tiempo". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 33 (2): 271–282. doi :10.1109/tsmcb.2003.810442. PMID  18238177.
  33. ^ Shah-Hosseini, Hamed (mayo de 2011). "Mapa autoorganizado adaptativo del tiempo del árbol binario". Neurocomputación . 74 (11): 1823–1839. doi : 10.1016/j.neucom.2010.07.037.
  34. ^ Gorban, AN; Zinóviev, A. (2010). "Principales variedades y gráficos en la práctica: de la biología molecular a los sistemas dinámicos]". Revista internacional de sistemas neuronales . 20 (3): 219–232. arXiv : 1001.1122 . doi :10.1142/S0129065710002383. PMID  20556849. S2CID  2170982.
  35. ^ Hua, H (2016). "Procesamiento de imágenes y geometría con Mapa Orientado y Escalable". Redes Neuronales . 77 : 1–6. doi :10.1016/j.neunet.2016.01.009. PMID  26897100.

Enlaces externos