La maldición de la dimensionalidad

La maldición de la dimensionalidad se refiere a varios fenómenos que surgen al analizar y organizar datos en espacios de alta dimensión que no ocurren en entornos de baja dimensión, como el espacio físico tridimensional de la experiencia cotidiana. La expresión fue acuñada por Richard E. Bellman al considerar problemas en programación dinámica . ^[1]^[2] La maldición generalmente se refiere a problemas que surgen cuando el número de puntos de datos es pequeño (en un sentido adecuadamente definido) en relación con la dimensión intrínseca de los datos.

Los fenómenos malditos por las dimensiones ocurren en dominios como el análisis numérico , el muestreo , la combinatoria , el aprendizaje automático , la minería de datos y las bases de datos . El tema común de estos problemas es que cuando la dimensionalidad aumenta, el volumen del espacio aumenta tan rápido que los datos disponibles se vuelven escasos. Para obtener un resultado confiable, la cantidad de datos necesarios a menudo crece exponencialmente con la dimensionalidad. Además, la organización y la búsqueda de datos a menudo se basan en la detección de áreas donde los objetos forman grupos con propiedades similares; sin embargo, en datos de alta dimensión, todos los objetos parecen ser dispersos y diferentes en muchos sentidos, lo que impide que las estrategias comunes de organización de datos sean eficientes.

Dominios

Combinatoria

En algunos problemas, cada variable puede tomar uno de varios valores discretos, o el rango de valores posibles se divide para dar un número finito de posibilidades. Al tomar las variables en conjunto, se debe considerar una enorme cantidad de combinaciones de valores. Este efecto también se conoce como explosión combinatoria . Incluso en el caso más simple de variables binarias , el número de combinaciones posibles ya es exponencial en la dimensionalidad. Ingenuamente, cada dimensión adicional duplica el esfuerzo necesario para probar todas las combinaciones. $d$ $2^{d}$

Muestreo

Existe un aumento exponencial en el volumen asociado con la adición de dimensiones adicionales a un espacio matemático . Por ejemplo, 10 ² = 100 puntos de muestra espaciados uniformemente son suficientes para muestrear un intervalo unitario (intente visualizar un cubo "unidimensional") con no más de 10 ^{−2 = 0,01 de distancia entre puntos; un muestreo equivalente de un}hipercubo unitario de 10 dimensiones con una red que tiene un espaciado de 10 ⁻² = 0,01 entre puntos adyacentes requeriría 10 ²⁰ = [(10 ² ) ¹⁰ ] puntos de muestra. En general, con una distancia de espaciado de 10 ^{− n,} el hipercubo de 10 dimensiones parece ser un factor de 10 ^{n (10−1)} = [(10 ⁿ ) ¹⁰ /(10 ⁿ )] "más grande" que el hipercubo unidimensional, que es el intervalo unitario. En el ejemplo anterior, n = 2: al utilizar una distancia de muestreo de 0,01, el hipercubo de 10 dimensiones parece ser 10 ¹⁸ "más grande" que el intervalo unitario. Este efecto es una combinación de los problemas combinatorios anteriores y los problemas de función de distancia que se explican a continuación.

Mejoramiento

Al resolver problemas de optimización dinámica mediante inducción numérica hacia atrás , es necesario calcular la función objetivo para cada combinación de valores. Esto supone un obstáculo importante cuando la dimensión de la "variable de estado" es grande. ^[3]

Aprendizaje automático

En los problemas de aprendizaje automático que implican aprender un "estado de la naturaleza" a partir de una cantidad finita de muestras de datos en un espacio de características de alta dimensión , donde cada característica tiene un rango de valores posibles, normalmente se requiere una enorme cantidad de datos de entrenamiento para garantizar que haya varias muestras con cada combinación de valores. En un sentido abstracto, a medida que aumenta la cantidad de características o dimensiones, la cantidad de datos que necesitamos para generalizar con precisión crece exponencialmente. ^[4]

Una regla general es que debe haber al menos 5 ejemplos de entrenamiento para cada dimensión en la representación. ^[5] En el aprendizaje automático y en lo que respecta al rendimiento predictivo, la maldición de la dimensionalidad se usa indistintamente con el fenómeno de pico , ^[5] que también se conoce como fenómeno de Hughes . ^[6] Este fenómeno establece que con un número fijo de muestras de entrenamiento, el poder predictivo promedio (esperado) de un clasificador o regresor primero aumenta a medida que aumenta el número de dimensiones o características utilizadas, pero más allá de cierta dimensionalidad comienza a deteriorarse en lugar de mejorar de manera constante. ^[7]^[8]^[9]

Sin embargo, en el contexto de un clasificador simple (por ejemplo, análisis discriminante lineal en el modelo gaussiano multivariado bajo el supuesto de una matriz de covarianza conocida común), Zollanvari, et al. , demostraron tanto analítica como empíricamente que mientras la eficacia acumulativa relativa de un conjunto de características adicionales (con respecto a las características que ya forman parte del clasificador) sea mayor (o menor) que el tamaño de este conjunto de características adicionales, el error esperado del clasificador construido utilizando estas características adicionales será menor (o mayor) que el error esperado del clasificador construido sin ellas. En otras palabras, tanto el tamaño de las características adicionales como su efecto discriminatorio acumulativo (relativo) son importantes para observar una disminución o un aumento en el poder predictivo promedio. ^[10]

En el aprendizaje métrico , las dimensiones más altas a veces pueden permitir que un modelo logre un mejor rendimiento. Después de normalizar las incrustaciones a la superficie de una hiperesfera, FaceNet logra el mejor rendimiento utilizando 128 dimensiones en lugar de 64, 256 o 512 dimensiones en un estudio de ablación. ^[11] Se descubrió que una función de pérdida para la disimilitud unitaria invariante entre incrustaciones de palabras se minimizaba en dimensiones altas. ^[12]

Minería de datos

En minería de datos , la maldición de la dimensionalidad se refiere a un conjunto de datos con demasiadas características.

Considere la primera tabla, que muestra 200 individuos y 2000 genes (características) con un 1 o un 0 indicando si tienen o no una mutación genética en ese gen. Una aplicación de minería de datos para este conjunto de datos puede ser encontrar la correlación entre mutaciones genéticas específicas y crear un algoritmo de clasificación como un árbol de decisiones para determinar si un individuo tiene cáncer o no.

Una práctica común de minería de datos en este dominio sería crear reglas de asociación entre mutaciones genéticas que conducen al desarrollo de cánceres. Para ello, habría que recorrer cada mutación genética de cada individuo y encontrar otras mutaciones genéticas que se produzcan por encima de un umbral deseado y crear pares. Se empezaría con pares de dos, luego de tres, luego de cuatro hasta que se obtenga un conjunto vacío de pares. La complejidad de este algoritmo puede llevar a calcular todas las permutaciones de pares de genes para cada individuo o fila. Dada la fórmula para calcular las permutaciones de n elementos con un tamaño de grupo de r es: , calcular el número de permutaciones de tres pares de un individuo determinado sería 7988004000 pares de genes diferentes para evaluar para cada individuo. El número de pares creados aumentará en un orden de factorial a medida que aumente el tamaño de los pares. El crecimiento se representa en la tabla de permutaciones (véase a la derecha). ${\frac {n!}{(n-r)!}}$

Como podemos ver en la tabla de permutaciones anterior, uno de los principales problemas que enfrentan los mineros de datos en relación con la maldición de la dimensionalidad es que el espacio de posibles valores de parámetros crece exponencialmente o factorialmente a medida que crece la cantidad de características en el conjunto de datos. Este problema afecta críticamente tanto el tiempo como el espacio computacional cuando se buscan asociaciones o características óptimas para considerar.

Otro problema al que se pueden enfrentar los mineros de datos cuando trabajan con demasiadas características es la noción de que la cantidad de predicciones o clasificaciones falsas tiende a aumentar a medida que crece la cantidad de características en el conjunto de datos. En términos del problema de clasificación analizado anteriormente, mantener todos los puntos de datos podría generar una mayor cantidad de falsos positivos y falsos negativos en el modelo.

Puede parecer contradictorio, pero basta con observar la tabla de mutaciones genéticas que se muestra más arriba, que muestra todas las mutaciones genéticas de cada individuo. Cada mutación genética, ya sea que se correlacione con el cáncer o no, tendrá algún aporte o peso en el modelo que guía el proceso de toma de decisiones del algoritmo. Puede haber mutaciones que sean atípicas o que dominen la distribución general de mutaciones genéticas cuando, de hecho, no se correlacionen con el cáncer. Estas características pueden estar actuando en contra del modelo, lo que dificulta la obtención de resultados óptimos.

Este problema es una tarea que debe resolver el minero de datos y no existe una solución universal. El primer paso que debe dar cualquier minero de datos es explorar los datos, en un intento de comprender cómo se pueden utilizar para resolver el problema. Primero se debe entender qué significan los datos y qué se está tratando de descubrir antes de poder decidir si se debe eliminar algo del conjunto de datos. Luego se puede crear o utilizar un algoritmo de selección de características o de reducción de dimensionalidad para eliminar muestras o características del conjunto de datos si se considera necesario. Un ejemplo de estos métodos es el método de rango intercuartil , que se utiliza para eliminar valores atípicos en un conjunto de datos calculando la desviación estándar de una característica o de una ocurrencia.

Función de distancia

Cuando una medida como la distancia euclidiana se define utilizando muchas coordenadas, hay poca diferencia en las distancias entre diferentes pares de puntos.

Una forma de ilustrar la "inmensidad" del espacio euclidiano de alta dimensión es comparar la proporción de una hiperesfera inscrita con radio y dimensión , con la de un hipercubo con aristas de longitud El volumen de dicha esfera es , donde es la función gamma , mientras que el volumen del cubo es . A medida que aumenta la dimensión del espacio, la hiperesfera se convierte en un volumen insignificante en relación con el del hipercubo. Esto se puede ver claramente comparando las proporciones a medida que la dimensión tiende al infinito: $r$ $d$ $2r.$ ${\frac {2r^{d}\pi ^{d/2}}{d\;\Gamma (d/2)}}$ $\Gamma$ $(2r)^{d}$ $d$ $d$

{\frac {V_{\mathrm {hypersphere} }}{V_{\mathrm {hypercube} }}}={\frac {\pi ^{d/2}}{d2^{d-1}\Gamma (d/2)}}\rightarrow 0

como .

d\rightarrow \infty

Además, la distancia entre el centro y las esquinas es , que aumenta sin límite para r fijo. $r{\sqrt {d}}$

En este sentido, cuando los puntos se generan de manera uniforme en un hipercubo de alta dimensión, casi todos los puntos están mucho más lejos que unidades del centro. En altas dimensiones, el volumen del hipercubo unitario de dimensión d (con coordenadas de los vértices ) se concentra cerca de una esfera con el radio para la gran dimensión d . De hecho, para cada coordenada, el valor promedio de en el cubo es ^[13] $r$ $\pm 1$ ${\sqrt {d}}/{\sqrt {3}}$ $x_{i}$ $x_{i}^{2}$

\left\langle x_{i}^{2}\right\rangle ={\frac {1}{2}}\int _{-1}^{1}x^{2}dx={\frac {1}{3}}

La varianza de para una distribución uniforme en el cubo es $x_{i}^{2}$

{\frac {1}{2}}\int _{-1}^{1}x^{4}dx-\left\langle x_{i}^{2}\right\rangle ^{2}={\frac {4}{45}}

Por lo tanto, la distancia al cuadrado desde el origen tiene un valor medio d /3 y una varianza de 4 d /45. Para valores grandes de d , la distribución de es cercana a la distribución normal con media 1/3 y desviación típica según el teorema del límite central . Por lo tanto, al generar puntos de manera uniforme en dimensiones altas, tanto el "centro" del hipercubo como las esquinas están vacías, y todo el volumen se concentra cerca de la superficie de una esfera de radio "intermedio" . ${\textstyle r^{2}=\sum _{i}x_{i}^{2}}$ $r^{2}/d$ $2/{\sqrt {45d}}$ ${\textstyle {\sqrt {d/3}}}$

Esto también ayuda a entender la distribución chi-cuadrado . De hecho, la distribución chi-cuadrado (no central) asociada a un punto aleatorio en el intervalo [-1, 1] es la misma que la distribución de la longitud al cuadrado de un punto aleatorio en el d -cubo. Por la ley de los grandes números, esta distribución se concentra en una banda estrecha alrededor de d por la desviación estándar al cuadrado (σ ² ) de la derivación original. Esto ilumina la distribución chi-cuadrado y también ilustra que la mayor parte del volumen del d -cubo se concentra cerca del límite de una esfera de radio . $\sigma {\sqrt {d}}$

Un desarrollo posterior de este fenómeno es el siguiente. Cualquier distribución fija de los números reales induce una distribución de producto de los puntos en . Para cualquier n fijo , resulta que la diferencia entre la distancia mínima y máxima entre un punto de referencia aleatorio Q y una lista de n puntos de datos aleatorios P ₁ ,..., P _n se vuelve indiscernible en comparación con la distancia mínima: ^[14] $\mathbb {R} ^{d}$

\lim _{d\to \infty }E\left({\frac {\operatorname {dist} _{\max }(d)-\operatorname {dist} _{\min }(d)}{\operatorname {dist} _{\min }(d)}}\right)\to 0

Esto se cita a menudo como la pérdida de utilidad de las funciones de distancia (para el criterio del vecino más cercano en algoritmos de comparación de características, por ejemplo) en dimensiones altas. Sin embargo, investigaciones recientes han demostrado que esto solo se cumple en el escenario artificial cuando las distribuciones unidimensionales son independientes y se distribuyen de manera idéntica . ^[15] Cuando los atributos están correlacionados, los datos pueden volverse más fáciles y proporcionar un mayor contraste de distancia y se encontró que la relación señal-ruido desempeña un papel importante, por lo que se debe utilizar la selección de características . ^[15] $\mathbb {R}$

Más recientemente, se ha sugerido que puede haber una falla conceptual en el argumento de que la pérdida de contraste crea una maldición en las dimensiones altas. El aprendizaje automático puede entenderse como el problema de asignar instancias a su respectivo proceso generativo de origen, con etiquetas de clase que actúan como representaciones simbólicas de procesos generativos individuales. La derivación de la maldición supone que todas las instancias son resultados independientes e idénticos de un único proceso generativo de alta dimensión. Si solo hay un proceso generativo, existiría solo una clase (de ocurrencia natural) y el aprendizaje automático estaría conceptualmente mal definido tanto en las dimensiones altas como bajas. Por lo tanto, el argumento tradicional de que la pérdida de contraste crea una maldición puede ser fundamentalmente inadecuado. Además, se ha demostrado que cuando el modelo generativo se modifica para dar cabida a múltiples procesos generativos, la pérdida de contraste puede transformarse de una maldición a una bendición, ya que garantiza que el vecino más cercano de una instancia sea casi con seguridad su instancia más relacionada. Desde esta perspectiva, la pérdida de contraste hace que las distancias de alta dimensión sean especialmente significativas y no especialmente no significativas, como se argumenta a menudo. ^[16]

Búsqueda de vecino más cercano

El efecto complica la búsqueda del vecino más próximo en un espacio de alta dimensión. No es posible rechazar rápidamente candidatos utilizando la diferencia en una coordenada como límite inferior para una distancia basada en todas las dimensiones. ^[17]^[18]

Sin embargo, recientemente se ha observado que el mero número de dimensiones no necesariamente genera dificultades, ^[19] ya que las dimensiones adicionales relevantes también pueden aumentar el contraste. Además, para la clasificación resultante sigue siendo útil discernir vecinos cercanos y lejanos. Sin embargo, las dimensiones irrelevantes ("ruido") reducen el contraste de la manera descrita anteriormente. En el análisis de series temporales , donde los datos son inherentemente de alta dimensión, las funciones de distancia también funcionan de manera confiable siempre que la relación señal-ruido sea lo suficientemente alta. ^[20]

a-clasificación del vecino más próximo

Otro efecto de la alta dimensionalidad en las funciones de distancia se refiere a los grafos de k -vecinos más cercanos ( k -NN) construidos a partir de un conjunto de datos utilizando una función de distancia. A medida que aumenta la dimensión, la distribución de grado de entrada del dígrafo k -NN se sesga con un pico a la derecha debido a la aparición de un número desproporcionado de centros , es decir, puntos de datos que aparecen en muchas más listas k -NN de otros puntos de datos que el promedio. Este fenómeno puede tener un impacto considerable en varias técnicas de clasificación (incluido el clasificador k -NN ), el aprendizaje semisupervisado y la agrupación en clústeres ^[21] y también afecta la recuperación de información ^[22] .

Detección de anomalías

En una encuesta de 2012, Zimek et al. identificaron los siguientes problemas al buscar anomalías en datos de alta dimensión: ^[15]

Concentración de puntuaciones y distancias: los valores derivados, como las distancias, se vuelven numéricamente similares
Atributos irrelevantes: en datos de alta dimensión, una cantidad significativa de atributos puede ser irrelevante
Definición de conjuntos de referencia: para los métodos locales, los conjuntos de referencia suelen basarse en el vecino más cercano.
Puntuaciones incomparables para diferentes dimensionalidades: diferentes subespacios producen puntuaciones incomparables
Interpretabilidad de las puntuaciones: las puntuaciones a menudo ya no transmiten un significado semántico
Espacio de búsqueda exponencial: el espacio de búsqueda ya no se puede escanear sistemáticamente
Sesgo de espionaje de datos : dado el gran espacio de búsqueda, para cada significación deseada se puede encontrar una hipótesis
Concentración: ciertos objetos aparecen con mayor frecuencia en las listas de vecinos que otros.

Muchos de los métodos especializados analizados abordan uno u otro de estos problemas, pero aún quedan muchas preguntas de investigación abiertas.

Bendición de la dimensionalidad

Sorprendentemente y a pesar de las esperadas dificultades de la "maldición de la dimensionalidad", las heurísticas de sentido común basadas en los métodos más sencillos "pueden producir resultados que son casi seguramente óptimos" para problemas de alta dimensión. ^[23] El término "bendición de la dimensionalidad" se introdujo a fines de la década de 1990. ^[23] Donoho en su "Manifiesto del Milenio" explicó claramente por qué la "bendición de la dimensionalidad" formará una base de la minería de datos futura. ^[24] Los efectos de la bendición de la dimensionalidad se descubrieron en muchas aplicaciones y encontraron su fundamento en la concentración de fenómenos de medida . ^[25] Un ejemplo del fenómeno de la bendición de la dimensionalidad es la separabilidad lineal de un punto aleatorio de un gran conjunto aleatorio finito con alta probabilidad incluso si este conjunto es exponencialmente grande: el número de elementos en este conjunto aleatorio puede crecer exponencialmente con la dimensión. Además, este funcional lineal se puede seleccionar en la forma del discriminante lineal de Fisher más simple . Este teorema de separabilidad fue probado para una amplia clase de distribuciones de probabilidad: distribuciones generales uniformemente logarítmicas, distribuciones de producto en un cubo y muchas otras familias (revisadas recientemente en ^[25] ).

“La bendición de la dimensionalidad y la maldición de la dimensionalidad son dos caras de la misma moneda.” ^[26] Por ejemplo, la propiedad típica de distribuciones de probabilidad esencialmente de alta dimensión en un espacio de alta dimensión es: la distancia al cuadrado de puntos aleatorios a un punto seleccionado es, con alta probabilidad, cercana a la distancia al cuadrado promedio (o mediana). Esta propiedad simplifica significativamente la geometría esperada de los datos y la indexación de datos de alta dimensión (bendición), ^[27] pero, al mismo tiempo, hace que la búsqueda de similitud en altas dimensiones sea difícil e incluso inútil (maldición). ^[28]

Zimek et al. ^[15] observaron que, si bien las formalizaciones típicas de la maldición de la dimensionalidad afectan a los datos iid , tener datos separados en cada atributo se vuelve más fácil incluso en dimensiones altas, y argumentaron que la relación señal-ruido importa: los datos se vuelven más fáciles con cada atributo que agrega señal, y más difíciles con atributos que solo agregan ruido (error irrelevante) a los datos. En particular, para el análisis de datos no supervisado, este efecto se conoce como swamping.

Véase también

Referencias

^ Bellman, Richard Ernest; Rand Corporation (1957). Programación dinámica. Princeton University Press. p. ix. ISBN 978-0-691-07951-6.,
Republicado: Bellman, Richard Ernest (2003). Programación dinámica. Courier Dover Publications. ISBN 978-0-486-42809-3.
^ Bellman, Richard Ernest (1961). Procesos de control adaptativo: una visita guiada. Princeton University Press. ISBN 9780691079011.
^ Taylor, C. Robert (1993). "Programación dinámica y las maldiciones de la dimensionalidad". Aplicaciones de la programación dinámica a los problemas de decisión agrícola . Westview Press. págs. 1–10. ISBN 0-8133-8641-1.
^ Udacity (23 de febrero de 2015). "La maldición de la dimensionalidad - Georgia Tech - Aprendizaje automático". YouTube . Consultado el 29 de junio de 2022 .
^ ab Koutroumbas, Konstantinos; Theodoridis, Sergios (2008). Reconocimiento de patrones (4.ª ed.). Burlington. ISBN 978-1-59749-272-0. Recuperado el 8 de enero de 2018 .{{cite book}}: CS1 maint: location missing publisher (link)
^ Hughes, GF (enero de 1968). "Sobre la precisión media de los reconocedores de patrones estadísticos". IEEE Transactions on Information Theory . 14 (1): 55–63. doi :10.1109/TIT.1968.1054102. S2CID 206729491.
^ Trunk, GV (julio de 1979). "Un problema de dimensionalidad: un ejemplo simple". IEEE Transactions on Pattern Analysis and Machine Intelligence . PAMI-1 (3): 306–307. doi :10.1109/TPAMI.1979.4766926. PMID 21868861. S2CID 13086902.
^ B. Chandrasekaran; AK Jain (1974). "Complejidad de cuantificación y mediciones independientes". IEEE Transactions on Computers . 23 (8): 102–106. doi :10.1109/TC.1974.223789. S2CID 35360973.
^ McLachlan, GJ (2004). Análisis discriminante y reconocimiento estadístico de patrones . Wiley Interscience. ISBN 978-0-471-69115-0.Sr. 1190469 .
^ Zollanvari, A.; James, AP; Sameni, R. (2020). "Un análisis teórico del fenómeno de pico en la clasificación". Revista de clasificación . 37 (2): 421–434. doi :10.1007/s00357-019-09327-3. S2CID 253851666.
^ Schroff, Florian; Kalenichenko, Dmitry; Philbin, James (junio de 2015). "FaceNet: una incrustación unificada para el reconocimiento y agrupamiento de rostros" (PDF) . Conferencia IEEE de 2015 sobre visión artificial y reconocimiento de patrones (CVPR) . pp. 815–823. arXiv : 1503.03832 . doi :10.1109/CVPR.2015.7298682. ISBN . 978-1-4673-6964-0.S2CID206592766 .
^ Yin, Zi; Shen, Yuanyuan (2018). "Sobre la dimensionalidad de la incrustación de palabras" (PDF) . Avances en sistemas de procesamiento de información neuronal . 31 . Curran Associates, Inc.
^ Bailey, DH; Borwein, JM; Crandall, RE (2006), "Integrales de caja", Revista de Matemática Computacional y Aplicada , 206 : 196–208, doi : 10.1016/j.cam.2006.06.010 , S2CID 2763194
^ Beyer, K.; Goldstein, J.; Ramakrishnan, R.; Shaft, U. (1999). "¿Cuándo tiene sentido el término "vecino más próximo"?". Teoría de bases de datos — ICDT'99. LNCS. Vol. 1540. págs. 217–235. doi :10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0.S2CID206634099 .
^ abcd Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "Una encuesta sobre detección de valores atípicos no supervisada en datos numéricos de alta dimensión". Análisis estadístico y minería de datos . 5 (5): 363–387. doi :10.1002/sam.11161. S2CID 6724536.
^ Lin, Wen-Yan; Liu, Siying; Ren, Changhao; Cheung, Ngai-Man; Li, Hongdong; Matsushita, Yasuyuki (2021). "Teoría de capas: un modelo estadístico de la realidad". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 44 (10): 6438–6453. doi :10.1109/TPAMI.2021.3084598. ISSN 1939-3539. PMID 34048335. S2CID 235242104.
^ Marimont, RB; Shapiro, MB (1979). "Búsquedas del vecino más próximo y la maldición de la dimensionalidad". IMA J Appl Math . 24 (1): 59–70. doi :10.1093/imamat/24.1.59.
^ Chávez, Edgar; Navarro, Gonzalo; Baeza-Yates, Ricardo; Marroquín, José Luis (2001). "Búsqueda en espacios métricos". Encuestas de Computación ACM . 33 (3): 273–321. CiteSeerX 10.1.1.100.7845 . doi :10.1145/502807.502808. S2CID 3201604.
^ Houle, ME; Kriegel, HP ; Kröger, P.; Schubert, E.; Zimek, A. (2010). ¿Pueden las distancias entre vecinos compartidos vencer la maldición de la dimensionalidad? (PDF) . Gestión de bases de datos científicas y estadísticas. Apuntes de clase en informática. Vol. 6187. pág. 482. doi :10.1007/978-3-642-13818-8_34. ISBN 978-3-642-13817-1.
^ Bernecker, T.; Houle, ME; Kriegel, HP ; Kröger, P.; Renz, M.; Schubert, E.; Zimek, A. (2011). Calidad de las clasificaciones de similitud en series temporales . Simposio sobre bases de datos espaciales y temporales. Apuntes de clase en informática. Vol. 6849. pág. 422. doi :10.1007/978-3-642-22922-0_25. ISBN . 978-3-642-22921-3.
^ Radovanović, Miloš; Nanopoulos, Alexandros; Ivanović, Mirjana (2010). "Hubs en el espacio: vecinos más cercanos populares en datos de alta dimensión" (PDF) . Revista de investigación en aprendizaje automático . 11 : 2487–2531.
^ Radovanović, M.; Nanopoulos, A.; Ivanović, M. (2010). Sobre la existencia de resultados obstinados en modelos de espacio vectorial . 33.ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información - SIGIR '10. pág. 186. doi :10.1145/1835449.1835482. ISBN 9781450301534.
^ ab Kainen, Paul C. (1997), "Utilización de anomalías geométricas de alta dimensión: cuando la complejidad facilita el cálculo", en Kárný, M.; Warwick, K. (eds.), Métodos informáticos intensivos en control y procesamiento de señales , págs. 283-294, doi :10.1007/978-1-4612-1996-5_18, ISBN 978-1-4612-7373-8
^ Donoho, David L. (2000), "Análisis de datos de alta dimensión: las maldiciones y bendiciones de la dimensionalidad", conferencia invitada en Desafíos matemáticos del siglo XXI, Reunión nacional de la AMS, Los Ángeles, California, EE. UU., 6 al 12 de agosto de 2000 , CiteSeerX 10.1.1.329.3392
^ ab Gorban, Alexander N. ; Makarov, Valery A.; Tyukin, Ivan Y. (2020). "Cerebro de alta dimensión en un mundo de alta dimensión: la bendición de la dimensionalidad". Entropía . 22 (1): 82. arXiv : 2001.04959 . Bibcode :2020Entrp..22...82G. doi : 10.3390/e22010082 . PMC 7516518 . PMID 33285855.
^ Gorban, Alexander N.; Tyukin, Ivan Y. (2018). "Bendición de la dimensionalidad: fundamentos matemáticos de la física estadística de los datos". Phil. Trans. R. Soc. A. 376 ( 2118): 20170237. arXiv : 1801.03421 . Bibcode :2018RSPTA.37670237G. doi : 10.1098 /rsta.2017.0237 . PMC 5869543. PMID 29555807.
^ Hecht-Nielsen, Robert (1994), "Vectores de contexto: representaciones aproximadas de significado de propósito general autoorganizadas a partir de datos sin procesar", en Zurada, JM; Marks, RJ; Robinson, CJ (eds.), Inteligencia computacional: imitando la vida; Actas del Congreso Mundial sobre Inteligencia Computacional, Redes Neuronales; 1994; Orlando; FL , Piscataway, NJ: IEEE Press, págs. 43–56, ISBN 0780311043
^ Pestov, Vladimir (2013). "¿El clasificador k-NN en altas dimensiones se ve afectado por la maldición de la dimensionalidad?". Comput. Math. Appl . 65 (10): 43–56. doi : 10.1016/j.camwa.2012.09.011 .