El mapa topográfico generativo ( GTM ) es un método de aprendizaje automático que es una contraparte probabilística del mapa autoorganizado (SOM), es probablemente convergente y no requiere un vecindario que se encoge o un tamaño de paso decreciente. Es un modelo generativo : se supone que los datos surgen primero eligiendo probabilísticamente un punto en un espacio de baja dimensión, mapeando el punto al espacio de entrada de alta dimensión observado (a través de una función suave) y luego agregando ruido en ese espacio. Los parámetros de la distribución de probabilidad de baja dimensión, el mapa suave y el ruido se aprenden de los datos de entrenamiento utilizando el algoritmo de expectativa-maximización (EM) . GTM fue introducido en 1996 en un artículo de Christopher Bishop , Markus Svensen y Christopher KI Williams.
El enfoque está fuertemente relacionado con las redes de densidad que utilizan muestreo de importancia y un perceptrón multicapa para formar un modelo de variable latente no lineal . En el GTM, el espacio latente es una cuadrícula discreta de puntos que se supone que se proyecta de manera no lineal en el espacio de datos. Luego, se realiza una suposición de ruido gaussiano en el espacio de datos para que el modelo se convierta en una mezcla restringida de gaussianas . Luego, la probabilidad del modelo se puede maximizar mediante EM.
En teoría, se podría utilizar una deformación paramétrica no lineal arbitraria. Los parámetros óptimos se podrían encontrar mediante el descenso de gradientes, etc.
El enfoque sugerido para el mapeo no lineal es utilizar una red de función de base radial (RBF) para crear un mapeo no lineal entre el espacio latente y el espacio de datos. Los nodos de la red RBF forman entonces un espacio de características y el mapeo no lineal puede tomarse como una transformación lineal de este espacio de características. Este enfoque tiene la ventaja sobre el enfoque de red de densidad sugerido de que puede optimizarse analíticamente.
En el análisis de datos, los GTM son como una versión no lineal del análisis de componentes principales , que permite modelar datos de alta dimensión como resultado de ruido gaussiano agregado a fuentes en un espacio latente de menor dimensión. Por ejemplo, para ubicar acciones en un espacio 2D trazable en función de sus formas de series temporales de alta dimensión. Otras aplicaciones pueden querer tener menos fuentes que puntos de datos, por ejemplo, modelos de mezcla.
En el modelado deformacional generativo, los espacios latentes y de datos tienen las mismas dimensiones, por ejemplo, imágenes 2D u ondas sonoras de audio. Se añaden dimensiones "vacías" adicionales a la fuente (conocidas como la "plantilla" en esta forma de modelado), por ejemplo, ubicando la onda sonora 1D en el espacio 2D. Luego se añaden dimensiones no lineales adicionales, producidas al combinar las dimensiones originales. Luego, el espacio latente ampliado se proyecta nuevamente en el espacio de datos 1D. La probabilidad de una proyección dada está dada, como antes, por el producto de la probabilidad de los datos bajo el modelo de ruido gaussiano con el previo en el parámetro de deformación. A diferencia del modelado de deformación convencional basado en resortes, esto tiene la ventaja de ser analíticamente optimizable. La desventaja es que es un enfoque de "minería de datos", es decir, es poco probable que la forma del previo de deformación sea significativa como explicación de las posibles deformaciones, ya que se basa en un espacio latente no lineal muy alto, construido artificialmente y arbitrariamente. Por este motivo, el prior se aprende a partir de los datos en lugar de ser creado por un experto humano, como es posible con los modelos basados en resortes.
Mientras que los nodos del mapa autoorganizado (SOM) pueden moverse libremente, los nodos del GTM están limitados por las transformaciones permitidas y sus probabilidades. Si las deformaciones se comportan correctamente, se conserva la topología del espacio latente.
El SOM fue creado como un modelo biológico de neuronas y es un algoritmo heurístico. Por el contrario, el GTM no tiene nada que ver con la neurociencia o la cognición y es un modelo basado en principios probabilísticos. Por lo tanto, tiene una serie de ventajas sobre el SOM, a saber:
GTM fue introducido por Bishop, Svensen y Williams en su Informe Técnico de 1997 (Informe Técnico NCRG/96/015, Universidad de Aston, Reino Unido), publicado posteriormente en Neural Computation. También fue descrito en la tesis doctoral de Markus Svensen (Aston, 1998).