stringtranslate.com

Reducción de dimensionalidad

La reducción de dimensionalidad , o reducción de dimensiones , es la transformación de datos de un espacio de alta dimensión a un espacio de baja dimensión para que la representación de baja dimensión conserve algunas propiedades significativas de los datos originales, idealmente cercanas a su dimensión intrínseca . Trabajar en espacios de grandes dimensiones puede resultar indeseable por muchas razones; Los datos sin procesar suelen ser escasos como consecuencia de la maldición de la dimensionalidad , y el análisis de los datos suele ser computacionalmente intratable (difícil de controlar o tratar). La reducción de dimensionalidad es común en campos que tratan con una gran cantidad de observaciones y/o una gran cantidad de variables, como el procesamiento de señales , el reconocimiento de voz , la neuroinformática y la bioinformática . [1]

Los métodos se dividen comúnmente en enfoques lineales y no lineales. [1] Los enfoques también se pueden dividir en selección de características y extracción de características . [2] La reducción de dimensionalidad se puede utilizar para la reducción de ruido , la visualización de datos , el análisis de conglomerados o como un paso intermedio para facilitar otros análisis.

Selección de características

Los enfoques de selección de características intentan encontrar un subconjunto de las variables de entrada (también llamadas características o atributos). Las tres estrategias son: la estrategia de filtro (por ejemplo, ganancia de información ), la estrategia de envoltura (por ejemplo, búsqueda guiada por precisión) y la estrategia integrada (las características seleccionadas se agregan o eliminan mientras se construye el modelo en función de los errores de predicción).

El análisis de datos , como la regresión o la clasificación, se puede realizar en el espacio reducido con mayor precisión que en el espacio original. [3]

Proyección de características

La proyección de características (también llamada extracción de características) transforma los datos del espacio de alta dimensión a un espacio de menos dimensiones. La transformación de datos puede ser lineal, como en el análisis de componentes principales (PCA), pero también existen muchas técnicas de reducción de dimensionalidad no lineal . [4] [5] Para datos multidimensionales, la representación tensorial se puede utilizar en la reducción de dimensionalidad mediante el aprendizaje de subespacio multilineal . [6]

Un diagrama de dispersión que muestra dos grupos de puntos. Un eje recorre los grupos. Pasan a un histograma que muestra dónde aterriza cada punto en la proyección PCA.
Una representación visual de la proyección PCA resultante para un conjunto de puntos 2D.

Análisis de componentes principales (PCA)

La principal técnica lineal para la reducción de dimensionalidad, el análisis de componentes principales, realiza un mapeo lineal de los datos a un espacio de dimensiones inferiores de tal manera que se maximiza la varianza de los datos en la representación de dimensiones bajas. En la práctica, se construye la matriz de covarianza (y a veces la de correlación ) de los datos y se calculan los vectores propios de esta matriz. Los vectores propios que corresponden a los valores propios más grandes (los componentes principales) ahora se pueden utilizar para reconstruir una gran fracción de la varianza de los datos originales. Además, los primeros vectores propios a menudo pueden interpretarse en términos del comportamiento físico a gran escala del sistema, porque a menudo contribuyen con la gran mayoría de la energía del sistema, especialmente en sistemas de baja dimensión. Aun así, esto debe comprobarse caso por caso, ya que no todos los sistemas presentan este comportamiento. El espacio original (con la dimensión del número de puntos) se ha reducido (con pérdida de datos, pero con suerte conservando la variación más importante) al espacio abarcado por unos pocos vectores propios. [ cita necesaria ]

Factorización matricial no negativa (NMF)

NMF descompone una matriz no negativa en el producto de dos no negativas, lo que ha sido una herramienta prometedora en campos donde sólo existen señales no negativas, [7] [8] como la astronomía. [9] [10] NMF es bien conocido desde la regla de actualización multiplicativa de Lee & Seung, [7] que se ha desarrollado continuamente: la inclusión de incertidumbres, [9] la consideración de datos faltantes y el cálculo paralelo, [11] secuencial construcción [11] que conduce a la estabilidad y linealidad de NMF, [10] así como otras actualizaciones , incluido el manejo de datos faltantes en el procesamiento de imágenes digitales . [12]

Con una base de componentes estable durante la construcción y un proceso de modelado lineal, el NMF secuencial [11] es capaz de preservar el flujo en imágenes directas de estructuras circunestelares en astronomía, [10] como uno de los métodos de detección de exoplanetas , especialmente para el directo. Imágenes de discos circunestelares . En comparación con PCA, NMF no elimina la media de las matrices, lo que conduce a flujos físicos no negativos; por lo tanto, NMF es capaz de preservar más información que PCA, como lo demuestran Ren et al. [10]

PCA del núcleo

El análisis de componentes principales se puede emplear de forma no lineal mediante el truco del núcleo . La técnica resultante es capaz de construir mapeos no lineales que maximizan la varianza de los datos. La técnica resultante se llama kernel PCA .

PCA del núcleo basado en gráficos

Otras técnicas no lineales destacadas incluyen múltiples técnicas de aprendizaje como Isomap , incrustación localmente lineal (LLE), [13] LLE de Hesse, mapas propios laplacianos y métodos basados ​​en análisis de espacio tangente. [14] Estas técnicas construyen una representación de datos de baja dimensión utilizando una función de costo que retiene las propiedades locales de los datos y puede verse como la definición de un núcleo basado en gráficos para Kernel PCA.

Más recientemente, se han propuesto técnicas que, en lugar de definir un núcleo fijo, intentan aprender el núcleo mediante programación semidefinida . El ejemplo más destacado de esta técnica es el despliegue de varianza máxima (MVU). La idea central de MVU es preservar exactamente todas las distancias por pares entre los vecinos más cercanos (en el espacio del producto interno), mientras se maximizan las distancias entre puntos que no son vecinos más cercanos.

Un enfoque alternativo para la preservación de vecindarios es mediante la minimización de una función de costos que mide las diferencias entre distancias en los espacios de entrada y salida. Ejemplos importantes de tales técnicas incluyen: escalamiento multidimensional clásico , que es idéntico al PCA; Isomap , que utiliza distancias geodésicas en el espacio de datos; mapas de difusión , que utilizan distancias de difusión en el espacio de datos; incrustación de vecinos estocásticos distribuidos en t (t-SNE), que minimiza la divergencia entre distribuciones sobre pares de puntos; y análisis de componentes curvilíneos.

Un enfoque diferente para la reducción de dimensionalidad no lineal es mediante el uso de codificadores automáticos , un tipo especial de redes neuronales de avance con una capa oculta de cuello de botella. [15] El entrenamiento de codificadores profundos generalmente se realiza mediante un preentrenamiento codicioso por capas (por ejemplo, usando una pila de máquinas Boltzmann restringidas ) seguido de una etapa de ajuste fino basada en retropropagación .

Una representación visual de la proyección LDA resultante para un conjunto de puntos 2D.

Análisis discriminante lineal (LDA)

El análisis discriminante lineal (LDA) es una generalización del discriminante lineal de Fisher, un método utilizado en estadística, reconocimiento de patrones y aprendizaje automático para encontrar una combinación lineal de características que caracteriza o separa dos o más clases de objetos o eventos.

Análisis discriminante generalizado (GDA)

GDA se ocupa del análisis discriminante no lineal utilizando el operador de función del núcleo. La teoría subyacente es cercana a las máquinas de vectores de soporte (SVM) en la medida en que el método GDA proporciona un mapeo de los vectores de entrada en un espacio de características de alta dimensión. [16] [17] Similar a LDA, el objetivo de GDA es encontrar una proyección para las características en un espacio de dimensiones inferiores maximizando la relación entre la dispersión entre clases y la dispersión dentro de la clase.

codificador automático

Los codificadores automáticos se pueden utilizar para aprender codificaciones y funciones de reducción de dimensiones no lineales junto con una función inversa desde la codificación hasta la representación original.

t-SNE

La incrustación de vecinos estocásticos distribuidos en T (t-SNE) es una técnica de reducción de dimensionalidad no lineal útil para la visualización de conjuntos de datos de alta dimensión. No se recomienda su uso en análisis como agrupación o detección de valores atípicos, ya que no necesariamente preserva bien las densidades o distancias. [18]

UMAP

La aproximación y proyección de variedades uniformes (UMAP) es una técnica de reducción de dimensionalidad no lineal. Visualmente, es similar a t-SNE, pero supone que los datos están distribuidos uniformemente en una variedad de Riemann conectada localmente y que la métrica de Riemann es localmente constante o aproximadamente localmente constante.

Reducción de dimensiones

Para conjuntos de datos de alta dimensión (es decir, con un número de dimensiones superior a 10), la reducción de dimensiones generalmente se realiza antes de aplicar un algoritmo de K vecinos más cercanos (k-NN) para evitar los efectos de la maldición de la dimensionalidad . [19]

La extracción de características y la reducción de dimensiones se pueden combinar en un solo paso utilizando técnicas de análisis de componentes principales (PCA), análisis discriminante lineal (LDA), análisis de correlación canónica (CCA) o factorización matricial no negativa (NMF) como paso previo al procesamiento. agrupando por K-NN en vectores de características en un espacio de dimensión reducida. En el aprendizaje automático, este proceso también se denomina incrustación de baja dimensión . [20]

Para conjuntos de datos de muy altas dimensiones (por ejemplo, cuando se realiza una búsqueda de similitud en secuencias de video en vivo, datos de ADN o series temporales de alta dimensión ), ejecute una búsqueda K-NN rápida y aproximada utilizando hash sensible a la localidad , proyección aleatoria , [21] "bocetos" , [22] u otras técnicas de búsqueda de similitudes de alta dimensión de la caja de herramientas de la conferencia VLDB podrían ser la única opción factible.

Aplicaciones

Una técnica de reducción de dimensionalidad que a veces se utiliza en neurociencia son las dimensiones informativas máximas , [ cita necesaria ] que encuentra una representación de dimensiones inferiores de un conjunto de datos de modo que se conserve la mayor cantidad de información posible sobre los datos originales.

Ver también

Notas

  1. ^ ab van der Maaten, Laurens; Postma, Eric; van den Herik, Jaap (26 de octubre de 2009). "Reducción de dimensionalidad: una revisión comparativa" (PDF) . J Mach Aprender Res . 10 : 66–71.
  2. ^ Pudil, P.; Novovičová, J. (1998). "Métodos novedosos para la selección de subconjuntos de funciones con respecto al conocimiento del problema". En Liu, Huan; Motoda, Hiroshi (eds.). Extracción, construcción y selección de características . pag. 101. doi :10.1007/978-1-4615-5725-8_7. ISBN 978-1-4613-7622-4.
  3. ^ Rico-Sulayes, Antonio (2017). "Reducción de la dimensionalidad del espacio vectorial en la clasificación automática para la atribución de autoría". Revista Ingeniería Electrónica, Automática y Comunicaciones . 38 (3): 26–35. ISSN  1815-5928.
  4. ^ Samet, H. (2006) Fundamentos de estructuras de datos métricos y multidimensionales . Morgan Kaufman. ISBN 0-12-369446-9 
  5. ^ C. Ding, X. He, H. Zha, HD Simon, Reducción adaptativa de dimensiones para agrupar datos de alta dimensión, Actas de la conferencia internacional sobre minería de datos, 2002
  6. ^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Un estudio sobre el aprendizaje subespacial multilineal para datos tensoriales" (PDF) . Reconocimiento de patrones . 44 (7): 1540-1551. Código Bib : 2011PatRe..44.1540L. doi :10.1016/j.patcog.2011.01.004.
  7. ^ ab Daniel D. Lee y H. Sebastian Seung (1999). "Aprendizaje de las partes de objetos mediante factorización matricial no negativa". Naturaleza . 401 (6755): 788–791. Código Bib :1999Natur.401..788L. doi :10.1038/44565. PMID  10548103. S2CID  4428232.
  8. ^ Daniel D. Lee y H. Sebastian Seung (2001). Algoritmos de factorización de matrices no negativas (PDF) . Avances en sistemas de procesamiento de información neuronal 13: Actas de la conferencia de 2000. Prensa del MIT . págs. 556–562.
  9. ^ ab Blanton, Michael R.; Roweis, Sam (2007). "Correcciones K y transformaciones de filtros en ultravioleta, óptico e infrarrojo cercano". La Revista Astronómica . 133 (2): 734–754. arXiv : astro-ph/0606170 . Código Bib : 2007AJ....133..734B. doi :10.1086/510127. S2CID  18561804.
  10. ^ abcd Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). "Factorización de matrices no negativas: extracción robusta de estructuras extendidas". La revista astrofísica . 852 (2): 104. arXiv : 1712.10317 . Código Bib : 2018ApJ...852..104R. doi : 10.3847/1538-4357/aaa1f2 . S2CID  3966513.
  11. ^ abc Zhu, Guangtun B. (19 de diciembre de 2016). "Factorización matricial no negativa (NMF) con incertidumbres heterocedásticas y datos faltantes". arXiv : 1612.06037 [astro-ph.IM].
  12. ^ Ren, contenedor; Pueyo, Laurent; Chen, Cristina; Choquet, Elodie; Debes, John H.; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). "Uso de la imputación de datos para la separación de señales en imágenes de alto contraste". La revista astrofísica . 892 (2): 74. arXiv : 2001.00563 . Código Bib : 2020ApJ...892...74R. doi : 10.3847/1538-4357/ab7024 . S2CID  209531731.
  13. ^ Roweis, ST; Saúl, LK (2000). "Reducción de dimensionalidad no lineal mediante incrustación localmente lineal". Ciencia . 290 (5500): 2323–2326. Código Bib : 2000 Ciencia... 290.2323R. CiteSeerX 10.1.1.111.3313 . doi : 10.1126/ciencia.290.5500.2323. PMID  11125150. S2CID  5987139. 
  14. ^ Zhang, Zhenyue; Zha, Hongyuan (2004). "Múltiples principales y reducción de dimensionalidad no lineal mediante alineación espacial tangente". Revista SIAM de Computación Científica . 26 (1): 313–338. Código Bib : 2004SJSC...26..313Z. doi :10.1137/s1064827502419154.
  15. ^ Hongbing Hu, Stephen A. Zahorian, (2010) "Métodos de reducción de dimensionalidad para el reconocimiento fonético HMM", ICASSP 2010, Dallas, TX
  16. ^ Baudat, G.; Anouar, F. (2000). "Análisis discriminante generalizado mediante un enfoque kernel". Computación neuronal . 12 (10): 2385–2404. CiteSeerX 10.1.1.412.760 . doi :10.1162/089976600300014980. PMID  11032039. S2CID  7036341. 
  17. ^ Haghighat, Mohammad; Zonouz, Saman; Abdel-Mottaleb, Mohamed (2015). "CloudID: identificación biométrica confiable basada en la nube y entre empresas". Sistemas Expertos con Aplicaciones . 42 (21): 7905–7916. doi :10.1016/j.eswa.2015.06.025.
  18. ^ Schubert, Erich; Gertz, Michael (2017). "Incrustación de vecinos t-estocásticos intrínsecos para visualización y detección de valores atípicos". En Beecks, cristiano; Borutta, Félix; Kröger, Peer; Seidl, Thomas (eds.). Búsqueda y aplicaciones de similitud . Apuntes de conferencias sobre informática. vol. 10609. Cham: Editorial Internacional Springer. págs. 188-203. doi :10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1.
  19. ^ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "¿Cuándo tiene significado" vecino más cercano "?". Teoría de bases de datos: ICDT99 , 217–235
  20. ^ Shaw, B.; Jebara, T. (2009). «Estructura preservando el empotramiento» (PDF) . Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático - ICML '09 . pag. 1. CiteSeerX 10.1.1.161.451 . doi :10.1145/1553374.1553494. ISBN  9781605585161. S2CID  8522279.
  21. ^ Bingham, E.; Mannila, H. (2001). "Proyección aleatoria en reducción de dimensionalidad". Actas de la séptima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '01 . pag. 245. doi : 10.1145/502512.502546. ISBN 978-1581133912. S2CID  1854295.
  22. ^ Shasha, D High (2004) Descubrimiento de rendimiento en Time Series Berlín: Springer. ISBN 0-387-00857-8 

Referencias

enlaces externos