La reducción de dimensionalidad , o reducción de dimensión , es la transformación de datos de un espacio de alta dimensión a un espacio de baja dimensión de modo que la representación de baja dimensión conserve algunas propiedades significativas de los datos originales, idealmente cercanas a su dimensión intrínseca . Trabajar en espacios de alta dimensión puede ser indeseable por muchas razones; los datos sin procesar suelen ser escasos como consecuencia de la maldición de la dimensionalidad , y el análisis de los datos suele ser computacionalmente intratable . La reducción de dimensionalidad es común en campos que tratan con grandes cantidades de observaciones y/o grandes cantidades de variables, como el procesamiento de señales , el reconocimiento de voz , la neuroinformática y la bioinformática . [1]
Los métodos se dividen comúnmente en enfoques lineales y no lineales. [1] Los enfoques también se pueden dividir en selección de características y extracción de características . [2] La reducción de dimensionalidad se puede utilizar para la reducción de ruido , la visualización de datos , el análisis de clústeres o como un paso intermedio para facilitar otros análisis.
El proceso de selección de características tiene como objetivo encontrar un subconjunto adecuado de las variables de entrada ( características o atributos ) para la tarea en cuestión. Las tres estrategias son: la estrategia de filtro (por ejemplo, ganancia de información ), la estrategia de envoltura (por ejemplo, búsqueda guiada por precisión) y la estrategia integrada (las características se agregan o eliminan mientras se construye el modelo en función de los errores de predicción).
El análisis de datos, como la regresión o la clasificación, se puede realizar en el espacio reducido con mayor precisión que en el espacio original. [3]
La proyección de características (también llamada extracción de características) transforma los datos del espacio de alta dimensión a un espacio de menos dimensiones. La transformación de datos puede ser lineal, como en el análisis de componentes principales (PCA), pero también existen muchas técnicas de reducción de dimensionalidad no lineal . [4] [5] Para datos multidimensionales, la representación tensorial se puede utilizar en la reducción de dimensionalidad a través del aprendizaje de subespacios multilineales . [6]
La principal técnica lineal para la reducción de dimensionalidad, el análisis de componentes principales, realiza un mapeo lineal de los datos a un espacio de menor dimensión de tal manera que se maximiza la varianza de los datos en la representación de baja dimensión. En la práctica, se construye la matriz de covarianza (y a veces la de correlación ) de los datos y se calculan los vectores propios en esta matriz. Los vectores propios que corresponden a los valores propios más grandes (los componentes principales) ahora se pueden utilizar para reconstruir una gran fracción de la varianza de los datos originales. Además, los primeros vectores propios a menudo se pueden interpretar en términos del comportamiento físico a gran escala del sistema, porque a menudo contribuyen con la gran mayoría de la energía del sistema, especialmente en sistemas de baja dimensión. Aún así, esto debe probarse caso por caso, ya que no todos los sistemas exhiben este comportamiento. El espacio original (con dimensión del número de puntos) se ha reducido (con pérdida de datos, pero con suerte conservando la varianza más importante) al espacio abarcado por unos pocos vectores propios. [ cita requerida ]
La NMF descompone una matriz no negativa en el producto de dos no negativas, lo que ha sido una herramienta prometedora en campos donde solo existen señales no negativas, [7] [8] como la astronomía. [9] [10] La NMF es bien conocida desde la regla de actualización multiplicativa de Lee y Seung, [7] que se ha desarrollado continuamente: la inclusión de incertidumbres, [9] la consideración de datos faltantes y computación paralela, [11] construcción secuencial [11] que conduce a la estabilidad y linealidad de la NMF, [10] así como otras actualizaciones que incluyen el manejo de datos faltantes en el procesamiento de imágenes digitales . [12]
Con una base de componentes estable durante la construcción y un proceso de modelado lineal, el NMF secuencial [11] es capaz de preservar el flujo en la obtención de imágenes directas de estructuras circunestelares en astronomía, [10] como uno de los métodos de detección de exoplanetas , especialmente para la obtención de imágenes directas de discos circunestelares . En comparación con el PCA, el NMF no elimina la media de las matrices, lo que conduce a flujos físicos no negativos; por lo tanto, el NMF es capaz de preservar más información que el PCA, como lo demostraron Ren et al. [10].
El análisis de componentes principales se puede emplear de forma no lineal mediante el truco del núcleo . La técnica resultante es capaz de construir mapeos no lineales que maximizan la varianza en los datos. La técnica resultante se denomina PCA del núcleo .
Otras técnicas no lineales destacadas incluyen técnicas de aprendizaje múltiple como Isomap , incrustación lineal local (LLE), [13] LLE hessiana, mapas propios laplacianos y métodos basados en el análisis del espacio tangente. [14] Estas técnicas construyen una representación de datos de baja dimensión utilizando una función de costo que conserva las propiedades locales de los datos y pueden considerarse como la definición de un núcleo basado en gráficos para Kernel PCA.
Más recientemente, se han propuesto técnicas que, en lugar de definir un núcleo fijo, intentan aprender el núcleo utilizando programación semidefinida . El ejemplo más destacado de una técnica de este tipo es el despliegue de varianza máxima (MVU). La idea central del MVU es preservar exactamente todas las distancias por pares entre los vecinos más cercanos (en el espacio del producto interno) mientras se maximizan las distancias entre los puntos que no son los vecinos más cercanos.
Un enfoque alternativo para la conservación de vecindarios es mediante la minimización de una función de costo que mide las diferencias entre las distancias en los espacios de entrada y salida. Algunos ejemplos importantes de tales técnicas incluyen: escalamiento multidimensional clásico , que es idéntico al PCA; Isomap , que utiliza distancias geodésicas en el espacio de datos; mapas de difusión , que utilizan distancias de difusión en el espacio de datos; incrustación de vecinos estocásticos con distribución t (t-SNE), que minimiza la divergencia entre distribuciones sobre pares de puntos; y análisis de componentes curvilíneos.
Un enfoque diferente para la reducción de la dimensionalidad no lineal es mediante el uso de autocodificadores , un tipo especial de redes neuronales de propagación hacia adelante con una capa oculta de cuello de botella. [15] El entrenamiento de codificadores profundos se realiza típicamente utilizando un preentrenamiento codicioso por capas (por ejemplo, utilizando una pila de máquinas de Boltzmann restringidas ) que es seguido por una etapa de ajuste fino basada en retropropagación .
El análisis discriminante lineal (LDA) es una generalización del discriminante lineal de Fisher, un método utilizado en estadística, reconocimiento de patrones y aprendizaje automático para encontrar una combinación lineal de características que caracterice o separe dos o más clases de objetos o eventos.
El GDA se ocupa del análisis discriminante no lineal utilizando el operador de función kernel. La teoría subyacente es similar a las máquinas de vectores de soporte (SVM) en la medida en que el método GDA proporciona una proyección de los vectores de entrada en un espacio de características de alta dimensión. [16] [17] De manera similar al LDA, el objetivo del GDA es encontrar una proyección para las características en un espacio de menor dimensión maximizando la relación entre la dispersión entre clases y la dispersión dentro de las clases.
Los autocodificadores se pueden utilizar para aprender funciones de reducción de dimensión no lineal y codificaciones junto con una función inversa de la codificación a la representación original.
La incrustación estocástica de vecinos distribuida en t (t-SNE) es una técnica de reducción de dimensionalidad no lineal útil para la visualización de conjuntos de datos de alta dimensión. No se recomienda su uso en análisis como la agrupación o la detección de valores atípicos, ya que no necesariamente conserva bien las densidades o las distancias. [18]
La aproximación y proyección de variedades uniformes (UMAP) es una técnica de reducción de dimensionalidad no lineal. Visualmente, es similar a la t-SNE, pero supone que los datos se distribuyen uniformemente en una variedad de Riemann localmente conectada y que la métrica de Riemann es localmente constante o aproximadamente localmente constante.
En el caso de conjuntos de datos de alta dimensión, la reducción de dimensión generalmente se realiza antes de aplicar un algoritmo de k vecinos más cercanos ( k -NN) para evitar los efectos de la maldición de la dimensionalidad . [19]
La extracción de características y la reducción de dimensión se pueden combinar en un solo paso, utilizando técnicas de análisis de componentes principales (PCA), análisis discriminante lineal (LDA), análisis de correlación canónica (CCA) o factorización matricial no negativa (NMF) para preprocesar los datos, seguido de la agrupación mediante k -NN en vectores de características en un espacio de dimensión reducida. En el aprendizaje automático , este proceso también se denomina incrustación de baja dimensión . [20]
Para conjuntos de datos de alta dimensión (por ejemplo, cuando se realiza una búsqueda de similitud en transmisiones de video en vivo, datos de ADN o series de tiempo de alta dimensión ), ejecutar una búsqueda rápida aproximada de k -NN utilizando hash sensible a la localidad , proyección aleatoria , [21] "bocetos", [22] u otras técnicas de búsqueda de similitud de alta dimensión de la caja de herramientas de la conferencia VLDB puede ser la única opción factible.
Una técnica de reducción de dimensionalidad que a veces se utiliza en neurociencia son las dimensiones máximamente informativas , [ cita requerida ] que encuentran una representación de menor dimensión de un conjunto de datos de modo que se conserve la mayor cantidad de información posible sobre los datos originales.