stringtranslate.com

Maldición de dimensionalidad

La maldición de la dimensionalidad se refiere a diversos fenómenos que surgen al analizar y organizar datos en espacios de alta dimensión que no ocurren en entornos de baja dimensión, como el espacio físico tridimensional de la experiencia cotidiana. La expresión fue acuñada por Richard E. Bellman al considerar problemas de programación dinámica . [1] [2] La maldición generalmente se refiere a problemas que surgen cuando el número de puntos de datos es pequeño (en un sentido adecuadamente definido) en relación con la dimensión intrínseca de los datos.

Los fenómenos dimensionalmente malditos ocurren en dominios como el análisis numérico , el muestreo , la combinatoria , el aprendizaje automático , la minería de datos y las bases de datos . El tema común de estos problemas es que cuando aumenta la dimensionalidad, el volumen del espacio aumenta tan rápido que los datos disponibles se vuelven escasos. Para obtener un resultado fiable, la cantidad de datos necesarios suele crecer exponencialmente con la dimensionalidad. Además, la organización y búsqueda de datos a menudo se basa en detectar áreas donde los objetos forman grupos con propiedades similares; Sin embargo, en datos de alta dimensión, todos los objetos parecen ser escasos y diferentes en muchos aspectos, lo que impide que las estrategias comunes de organización de datos sean eficientes.

Dominios

combinatoria

En algunos problemas, cada variable puede tomar uno de varios valores discretos, o el rango de valores posibles se divide para dar un número finito de posibilidades. Tomando las variables en conjunto, se debe considerar una gran cantidad de combinaciones de valores. Este efecto también se conoce como explosión combinatoria . Incluso en el caso más simple de variables binarias , el número de combinaciones posibles ya es exponencial en la dimensionalidad. Ingenuamente, cada dimensión adicional duplica el esfuerzo necesario para probar todas las combinaciones.

Muestreo

Hay un aumento exponencial en el volumen asociado con la adición de dimensiones adicionales a un espacio matemático . Por ejemplo, 10 2  = 100 puntos de muestra espaciados uniformemente son suficientes para muestrear un intervalo unitario (intente visualizar un cubo "unidimensional") con no más de 10 −2 = 0,01 de distancia entre puntos; un muestreo equivalente de un hipercubo unitario de 10 dimensiones con una red que tiene un espaciado de 10 −2 = 0,01 entre puntos adyacentes requeriría 10 20 = [(10 2 ) 10 ] puntos de muestra. En general, con una distancia de espaciado de 10 n, el hipercubo de 10 dimensiones parece ser un factor de 10 n (10−1) = [(10 n ) 10 /(10 n )] "más grande" que el unidimensional. hipercubo, que es el intervalo unitario. En el ejemplo anterior n = 2: cuando se utiliza una distancia de muestreo de 0,01, el hipercubo de 10 dimensiones parece ser 10 18 "más grande" que el intervalo unitario. Este efecto es una combinación de los problemas combinatorios anteriores y los problemas de función de distancia que se explican a continuación.

Mejoramiento

Al resolver problemas de optimización dinámica mediante inducción numérica hacia atrás , se debe calcular la función objetivo para cada combinación de valores. Este es un obstáculo importante cuando la dimensión de la "variable de estado" es grande. [3]

Aprendizaje automático

En problemas de aprendizaje automático que implican aprender un "estado de naturaleza" a partir de un número finito de muestras de datos en un espacio de características de alta dimensión , donde cada característica tiene un rango de valores posibles, generalmente se requiere una enorme cantidad de datos de entrenamiento para garantizar que existen varias muestras con cada combinación de valores. En un sentido abstracto, a medida que crece el número de características o dimensiones, la cantidad de datos que necesitamos para generalizar con precisión crece exponencialmente. [4]

Una regla general típica es que debe haber al menos cinco ejemplos de entrenamiento para cada dimensión de la representación. [5] En el aprendizaje automático y en lo que respecta al rendimiento predictivo, la maldición de la dimensionalidad se usa indistintamente con el fenómeno del pico , [5] que también se conoce como fenómeno de Hughes . [6] Este fenómeno establece que con un número fijo de muestras de entrenamiento, el poder predictivo promedio (esperado) de un clasificador o regresor primero aumenta a medida que aumenta el número de dimensiones o características utilizadas, pero más allá de una cierta dimensionalidad comienza a deteriorarse en lugar de mejorar. continuamente. [7] [8] [9]

Sin embargo, en el contexto de un clasificador simple (por ejemplo, análisis discriminante lineal en el modelo gaussiano multivariado bajo el supuesto de una matriz de covarianza común conocida), Zollanvari, et al. , mostraron tanto analítica como empíricamente que siempre que la eficacia acumulativa relativa de un conjunto de características adicional (con respecto a las características que ya forman parte del clasificador) sea mayor (o menor) que el tamaño de este conjunto de características adicional, el error esperado del clasificador construido utilizando estas características adicionales será menor (o mayor) que el error esperado del clasificador construido sin ellas. En otras palabras, tanto el tamaño de las características adicionales como su efecto discriminatorio (relativo) acumulativo son importantes para observar una disminución o un aumento en el poder predictivo promedio. [10]

En el aprendizaje métrico , las dimensiones más altas a veces pueden permitir que un modelo logre un mejor rendimiento. Después de normalizar las incrustaciones en la superficie de una hiperesfera, FaceNet logra el mejor rendimiento utilizando 128 dimensiones en lugar de 64, 256 o 512 dimensiones en un estudio de ablación. [11] Se descubrió que una función de pérdida para la disimilitud invariante unitaria entre incrustaciones de palabras se minimiza en dimensiones altas. [12]

Procesamiento de datos

En minería de datos , la maldición de la dimensionalidad se refiere a un conjunto de datos con demasiadas características.

Considere la primera tabla, que muestra 200 individuos y 2000 genes (características) donde un 1 o un 0 indican si tienen o no una mutación genética en ese gen. Una aplicación de minería de datos a este conjunto de datos puede ser encontrar la correlación entre mutaciones genéticas específicas y crear un algoritmo de clasificación, como un árbol de decisión, para determinar si un individuo tiene cáncer o no.

Una práctica común de extracción de datos en este ámbito sería crear reglas de asociación entre mutaciones genéticas que conducen al desarrollo de cánceres. Para hacer esto, habría que recorrer cada mutación genética de cada individuo y encontrar otras mutaciones genéticas que ocurran por encima de un umbral deseado y crear pares. Comenzarían con pares de dos, luego tres, luego cuatro hasta que el resultado sea un conjunto vacío de pares. La complejidad de este algoritmo puede llevar al cálculo de todas las permutaciones de pares de genes para cada individuo o fila. Dada la fórmula para calcular las permutaciones de n elementos con un tamaño de grupo de r es: , calcular el número de permutaciones de tres pares de cualquier individuo dado serían 7988004000 pares diferentes de genes para evaluar para cada individuo. El número de pares creados crecerá en un orden factorial a medida que aumente el tamaño de los pares. El crecimiento se muestra en la tabla de permutación (ver a la derecha).

Como podemos ver en la tabla de permutaciones anterior, uno de los principales problemas que enfrentan los mineros de datos con respecto a la maldición de la dimensionalidad es que el espacio de posibles valores de parámetros crece exponencial o factorialmente a medida que crece el número de características en el conjunto de datos. Este problema afecta críticamente tanto al tiempo como al espacio computacional cuando se buscan asociaciones o características óptimas a considerar.

Otro problema que pueden enfrentar los mineros de datos cuando trabajan con demasiadas características es la noción de que la cantidad de predicciones o clasificaciones falsas tiende a aumentar a medida que crece la cantidad de características en el conjunto de datos. En términos del problema de clasificación discutido anteriormente, mantener cada punto de datos podría generar una mayor cantidad de falsos positivos y falsos negativos en el modelo.

Esto puede parecer contrario a la intuición, pero considere la tabla de mutaciones genéticas de arriba, que muestra todas las mutaciones genéticas de cada individuo. Cada mutación genética, ya sea que se correlacione con el cáncer o no, tendrá algún aporte o peso en el modelo que guía el proceso de toma de decisiones del algoritmo. Puede haber mutaciones que sean atípicas o que dominen la distribución general de las mutaciones genéticas cuando en realidad no se correlacionan con el cáncer. Estas características pueden ir en contra del modelo de uno, haciendo más difícil obtener resultados óptimos.

Este problema depende del minero de datos para resolverlo y no existe una solución universal. El primer paso que debe dar cualquier minero de datos es explorar los datos, en un intento de comprender cómo se pueden utilizar para resolver el problema. Primero hay que entender qué significan los datos y qué están tratando de descubrir antes de poder decidir si se debe eliminar algo del conjunto de datos. Luego, pueden crear o utilizar un algoritmo de selección de características o reducción de dimensionalidad para eliminar muestras o características del conjunto de datos si lo consideran necesario. Un ejemplo de tales métodos es el método del rango intercuartil , que se utiliza para eliminar valores atípicos en un conjunto de datos calculando la desviación estándar de una característica o ocurrencia.

Función de distancia

Cuando una medida como la distancia euclidiana se define utilizando muchas coordenadas, hay poca diferencia en las distancias entre diferentes pares de puntos.

Una forma de ilustrar la "inmensidad" del espacio euclidiano de alta dimensión es comparar la proporción de una hiperesfera inscrita con radio y dimensión con la de un hipercubo con aristas de longitud. El volumen de dicha esfera es , ¿dónde está la función gamma? , mientras que el volumen del cubo es . A medida que aumenta la dimensión del espacio, la hiperesfera se convierte en un volumen insignificante en relación con el del hipercubo. Esto se puede ver claramente comparando las proporciones a medida que la dimensión llega al infinito:

como .

Además, la distancia entre el centro y las esquinas es , que aumenta sin límite para r fijo.

En este sentido, cuando los puntos se generan uniformemente en un hipercubo de alta dimensión, casi todos los puntos están mucho más lejos que unidades de distancia del centro. En dimensiones altas, el volumen del hipercubo unitario de d dimensiones (con coordenadas de los vértices ) se concentra cerca de una esfera con el radio de dimensión grande d . De hecho, para cada coordenada el valor promedio de en el cubo es [13]

.

La varianza de para una distribución uniforme en el cubo es

Por lo tanto, la distancia al cuadrado desde el origen, tiene el valor promedio d /3 y la varianza 4 d /45. Para d grande , la distribución de está cerca de la distribución normal con la media 1/3 y la desviación estándar según el teorema del límite central . Así, cuando se generan uniformemente puntos de grandes dimensiones, tanto el "centro" del hipercubo como las esquinas están vacíos, y todo el volumen se concentra cerca de la superficie de una esfera de radio "intermedio" .

Esto también ayuda a comprender la distribución chi-cuadrado . De hecho, la distribución chi-cuadrado (no central) asociada a un punto aleatorio en el intervalo [-1, 1] es la misma que la distribución de la longitud al cuadrado de un punto aleatorio en el d -cubo. Por la ley de los grandes números, esta distribución se concentra en una banda estrecha alrededor de d veces la desviación estándar al cuadrado (σ 2 ) de la derivación original. Esto ilumina la distribución chi-cuadrado y también ilustra que la mayor parte del volumen del d -cubo se concentra cerca del límite de una esfera de radio .

Un desarrollo adicional de este fenómeno es el siguiente. Cualquier distribución fija de los números reales induce una distribución del producto en puntos en . Para cualquier n fijo , resulta que la diferencia entre la distancia mínima y máxima entre un punto de referencia aleatorio Q y una lista de n puntos de datos aleatorios P ​​1 ,..., P n se vuelven indiscernibles en comparación con la distancia mínima: [ 14]

.

Esto a menudo se cita como funciones de distancia que pierden su utilidad (para el criterio del vecino más cercano en algoritmos de comparación de características, por ejemplo) en dimensiones altas. Sin embargo, investigaciones recientes han demostrado que esto solo se cumple en el escenario artificial cuando las distribuciones unidimensionales son independientes y están distribuidas de manera idéntica . [15] Cuando los atributos están correlacionados, los datos pueden volverse más fáciles y proporcionar un mayor contraste de distancia y se descubrió que la relación señal-ruido desempeña un papel importante, por lo que se debe utilizar la selección de características . [15]

Más recientemente, se ha sugerido que puede haber un error conceptual en el argumento de que la pérdida de contraste crea una maldición en las altas dimensiones. El aprendizaje automático puede entenderse como el problema de asignar instancias a sus respectivos procesos generativos de origen, con etiquetas de clase actuando como representaciones simbólicas de procesos generativos individuales. La derivación de la maldición asume que todas las instancias son resultados independientes e idénticos de un único proceso generativo de alta dimensión. Si solo hay un proceso generativo, existiría solo una clase (que ocurre naturalmente) y el aprendizaje automático estaría conceptualmente mal definido tanto en dimensiones altas como bajas. Por lo tanto, el argumento tradicional de que la pérdida de contraste crea una maldición puede ser fundamentalmente inapropiado. Además, se ha demostrado que cuando el modelo generativo se modifica para dar cabida a múltiples procesos generativos, la pérdida de contraste puede transformarse de una maldición a una bendición, ya que garantiza que el vecino más cercano de una instancia sea casi con seguridad su más cercano. instancia relacionada. Desde esta perspectiva, la pérdida de contraste hace que las distancias dimensionales altas sean especialmente significativas y no especialmente carentes de significado, como se suele argumentar. [dieciséis]

Búsqueda de vecino más cercano

El efecto complica la búsqueda del vecino más cercano en un espacio de alta dimensión. No es posible rechazar candidatos rápidamente utilizando la diferencia en una coordenada como límite inferior para una distancia basada en todas las dimensiones. [17] [18]

Sin embargo, recientemente se ha observado que el mero número de dimensiones no necesariamente genera dificultades [19] , ya que dimensiones adicionales relevantes también pueden aumentar el contraste. Además, para la clasificación resultante sigue siendo útil distinguir entre vecinos cercanos y lejanos. Sin embargo, las dimensiones irrelevantes ("ruido") reducen el contraste de la manera descrita anteriormente. En el análisis de series de tiempo , donde los datos son inherentemente de alta dimensión, las funciones de distancia también funcionan de manera confiable siempre que la relación señal-ruido sea lo suficientemente alta. [20]

k -clasificación del vecino más cercano

Otro efecto de la alta dimensionalidad en las funciones de distancia se refiere a los gráficos k -vecino más cercano ( k -NN) construidos a partir de un conjunto de datos utilizando una función de distancia. A medida que aumenta la dimensión, la distribución en grados del dígrafo k -NN se sesga con un pico a la derecha debido a la aparición de un número desproporcionado de centros , es decir, puntos de datos que aparecen en muchas más listas k -NN de otros puntos de datos que el promedio. Este fenómeno puede tener un impacto considerable en diversas técnicas de clasificación (incluido el clasificador k -NN ), aprendizaje semisupervisado y agrupamiento , [21] y también afecta la recuperación de información . [22]

Detección de anomalías

En una encuesta de 2012, Zimek et al. identificó los siguientes problemas al buscar anomalías en datos de alta dimensión: [15]

  1. Concentración de puntuaciones y distancias: los valores derivados, como las distancias, se vuelven numéricamente similares
  2. Atributos irrelevantes: en datos de alta dimensión, una cantidad significativa de atributos pueden ser irrelevantes
  3. Definición de conjuntos de referencia: para los métodos locales, los conjuntos de referencia suelen estar basados ​​en el vecino más cercano
  4. Puntuaciones incomparables para diferentes dimensionalidades: diferentes subespacios producen puntuaciones incomparables
  5. Interpretabilidad de las puntuaciones: las puntuaciones a menudo ya no transmiten un significado semántico
  6. Espacio de búsqueda exponencial: el espacio de búsqueda ya no se puede escanear sistemáticamente
  7. Sesgo de espionaje de datos : dado el gran espacio de búsqueda, para cada significado deseado se puede encontrar una hipótesis
  8. Hubness: ciertos objetos aparecen con más frecuencia en las listas de vecinos que otros.

Muchos de los métodos especializados analizados abordan uno u otro de estos problemas, pero quedan muchas preguntas de investigación abiertas.

Bendición de la dimensionalidad

Sorprendentemente y a pesar de las esperadas dificultades de la "maldición de la dimensionalidad", las heurísticas de sentido común basadas en los métodos más sencillos "pueden producir resultados que casi con seguridad son óptimos" para problemas de alta dimensión. [23] El término "bendición de la dimensionalidad" se introdujo a finales de los años 1990. [23] Donoho en su "Manifiesto del Milenio" explicó claramente por qué la "bendición de la dimensionalidad" formará la base de la futura minería de datos. [24] Los efectos de la bendición de la dimensionalidad fueron descubiertos en muchas aplicaciones y encontraron su fundamento en la concentración de fenómenos de medida . [25] Un ejemplo del fenómeno de la bendición de la dimensionalidad es la separabilidad lineal de un punto aleatorio de un conjunto aleatorio finito grande con alta probabilidad incluso si este conjunto es exponencialmente grande: el número de elementos en este conjunto aleatorio puede crecer exponencialmente con la dimensión. Además, este funcional lineal se puede seleccionar en la forma del discriminante lineal de Fisher más simple . Este teorema de separabilidad se demostró para una amplia clase de distribuciones de probabilidad: distribuciones generales uniformemente log-cóncavas, distribuciones de productos en un cubo y muchas otras familias (revisadas recientemente en [25] ).

"La bendición de la dimensionalidad y la maldición de la dimensionalidad son dos caras de la misma moneda". [26] Por ejemplo, la propiedad típica de distribuciones de probabilidad esencialmente de alta dimensión en un espacio de alta dimensión es: la distancia al cuadrado de puntos aleatorios a un punto seleccionado es, con alta probabilidad, cercana a la distancia al cuadrado promedio (o mediana) . Esta propiedad simplifica significativamente la geometría esperada de los datos y la indexación de datos de alta dimensión (bendición), [27] pero, al mismo tiempo, hace que la búsqueda de similitudes en altas dimensiones sea difícil e incluso inútil (maldición). [28]

Zimek et al. [15] señaló que si bien las formalizaciones típicas de la maldición de la dimensionalidad afectan los datos iid , tener datos separados en cada atributo se vuelve más fácil incluso en dimensiones altas, y argumentó que la relación señal-ruido es importante: los datos se vuelven más fáciles con cada atributo que agrega señal, y más difícil con atributos que solo agregan ruido (error irrelevante) a los datos. En particular, para el análisis de datos no supervisado, este efecto se conoce como inundación.

Ver también

Referencias

  1. ^ Bellman, Richard Ernest; Corporación Rand (1957). Programación dinámica. Prensa de la Universidad de Princeton. pag. IX. ISBN 978-0-691-07951-6.,
    Republicado: Bellman, Richard Ernest (2003). Programación dinámica. Publicaciones de Courier Dover. ISBN 978-0-486-42809-3.
  2. ^ Bellman, Richard Ernest (1961). Procesos de control adaptativo: una visita guiada. Prensa de la Universidad de Princeton. ISBN 9780691079011.
  3. ^ Taylor, C.Robert (1993). "Programación dinámica y las maldiciones de la dimensionalidad". Aplicaciones de la programación dinámica a problemas de decisión agrícola . Prensa de Westview. págs. 1–10. ISBN 0-8133-8641-1.
  4. ^ Udacidad (23 de febrero de 2015). "La maldición de la dimensionalidad - Georgia Tech - Aprendizaje automático" . Consultado el 29 de junio de 2022 .
  5. ^ ab Koutroumbas, Konstantinos; Theodoridis, Sergios (2008). Reconocimiento de patrones (4ª ed.). Burlington. ISBN 978-1-59749-272-0. Consultado el 8 de enero de 2018 .{{cite book}}: CS1 maint: location missing publisher (link)
  6. ^ Hughes, GF (enero de 1968). "Sobre la precisión media de los reconocedores de patrones estadísticos". Transacciones IEEE sobre teoría de la información . 14 (1): 55–63. doi :10.1109/TIT.1968.1054102. S2CID  206729491.
  7. ^ Tronco, GV (julio de 1979). "Un problema de dimensionalidad: un ejemplo sencillo". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . PAMI-1 (3): 306–307. doi :10.1109/TPAMI.1979.4766926. PMID  21868861. S2CID  13086902.
  8. ^ B. Chandrasekaran; AK Jainista (1974). "Complejidad de cuantificación y medidas independientes". Transacciones IEEE en computadoras . 23 (8): 102–106. doi :10.1109/TC.1974.223789. S2CID  35360973.
  9. ^ McLachlan, GJ (2004). Análisis discriminante y reconocimiento de patrones estadísticos . Wiley Interciencia. ISBN 978-0-471-69115-0. SEÑOR  1190469.
  10. ^ Zollanvari, A.; James, AP; Sameni, R. (2020). "Un análisis teórico del fenómeno del pico en la clasificación". Revista de Clasificación . 37 (2): 421–434. doi :10.1007/s00357-019-09327-3. S2CID  253851666.
  11. ^ Schroff, Florián; Kalenichenko, Dmitri; Philbin, James (junio de 2015). "FaceNet: una integración unificada para el reconocimiento facial y la agrupación" (PDF) . Conferencia IEEE 2015 sobre visión por computadora y reconocimiento de patrones (CVPR) . págs. 815–823. arXiv : 1503.03832 . doi :10.1109/CVPR.2015.7298682. ISBN 978-1-4673-6964-0. S2CID  206592766.
  12. ^ Yin, Zi; Shen, Yuanyuan (2018). "Sobre la dimensionalidad de la incrustación de palabras" (PDF) . Avances en los sistemas de procesamiento de información neuronal . 31 . Curran asociados, Inc.
  13. ^ Bailey, DH; Borwein, JM; Crandall, RE (2006), "Integrales de caja", Journal of Computational and Applied Mathematics , 206 : 196–208, doi : 10.1016/j.cam.2006.06.010 , S2CID  2763194
  14. ^ Beyer, K.; Goldstein, J.; Ramakrishnan, R.; Eje, U. (1999). "¿Cuándo es significativo el" vecino más cercano "?". Teoría de bases de datos - ICDT'99. LNCS. vol. 1540, págs. 217–235. doi :10.1007/3-540-49257-7_15. ISBN 978-3-540-65452-0. S2CID  206634099.
  15. ^ abcd Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "Una encuesta sobre la detección de valores atípicos no supervisados ​​en datos numéricos de alta dimensión". Análisis Estadístico y Minería de Datos . 5 (5): 363–387. doi :10.1002/sam.11161. S2CID  6724536.
  16. ^ Lin, Wen-Yan; Liu, Siying; Ren, Changhao; Cheung, Ngai-Man; Li, Hongdong; Matsushita, Yasuyuki (2021). "Teoría de la concha: un modelo estadístico de la realidad". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 44 (10): 6438–6453. doi :10.1109/TPAMI.2021.3084598. ISSN  1939-3539. PMID  34048335. S2CID  235242104.
  17. ^ Marimont, RB; Shapiro, MB (1979). "Búsquedas de vecinos más cercanos y la maldición de la dimensionalidad". IMA J Matemáticas aplicadas . 24 (1): 59–70. doi :10.1093/imamat/24.1.59.
  18. ^ Chávez, Edgar; Navarro, Gonzalo; Baeza-Yates, Ricardo; Marroquín, José Luis (2001). "Búsqueda en espacios métricos". Encuestas de Computación ACM . 33 (3): 273–321. CiteSeerX 10.1.1.100.7845 . doi :10.1145/502807.502808. S2CID  3201604. 
  19. ^ Houle, YO; Kriegel, HP ; Kröger, P.; Schubert, E.; Zimek, A. (2010). ¿Pueden las distancias entre vecinos compartidos derrotar la maldición de la dimensionalidad? (PDF) . Gestión de Bases de Datos Científicas y Estadísticas. Apuntes de conferencias sobre informática. vol. 6187. pág. 482. doi :10.1007/978-3-642-13818-8_34. ISBN 978-3-642-13817-1.
  20. ^ Bernecker, T.; Houle, YO; Kriegel, HP ; Kröger, P.; Renz, M.; Schubert, E.; Zimek, A. (2011). Calidad de las clasificaciones de similitud en series temporales . Simposio sobre Bases de Datos Espaciales y Temporales. Apuntes de conferencias sobre informática. vol. 6849. pág. 422. doi :10.1007/978-3-642-22922-0_25. ISBN 978-3-642-22921-3.
  21. ^ Radovanović, Miloš; Nanopoulos, Alexandros; Ivanović, Mirjana (2010). "Centros en el espacio: vecinos más cercanos populares en datos de alta dimensión" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 2487–2531.
  22. ^ Radovanović, M.; Nanopoulos, A.; Ivanović, M. (2010). Sobre la existencia de resultados obstinados en modelos de espacio vectorial . 33ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información - SIGIR '10. pag. 186. doi :10.1145/1835449.1835482. ISBN 9781450301534.
  23. ^ ab Kainen, Paul C. (1997), "Utilización de anomalías geométricas de alta dimensión: cuando la complejidad facilita la computación", en Kárný, M.; Warwick, K. (eds.), Métodos informáticos intensivos en control y procesamiento de señales , págs. 283–294, doi :10.1007/978-1-4612-1996-5_18
  24. ^ Donoho, David L. (2000), "Análisis de datos de alta dimensión: las maldiciones y bendiciones de la dimensionalidad", conferencia invitada en Mathematical Challenges of the 21st Century, reunión nacional de AMS, Los Ángeles, CA, EE. UU., 6 al 12 de agosto , 2000 , CiteSeerX 10.1.1.329.3392 
  25. ^ ab Gorban, Alexander N .; Makarov, Valery A.; Tyukin, Ivan Y. (2020). "Cerebro de alta dimensión en un mundo de alta dimensión: bendición de la dimensionalidad". Entropía . 22 (1): 82. arXiv : 2001.04959 . Código Bib : 2020Entrp..22...82G. doi : 10.3390/e22010082 . PMC 7516518 . PMID  33285855. 
  26. ^ Gorban, Alexander N.; Tyukin, Ivan Y. (2018). "Bendición de la dimensionalidad: fundamentos matemáticos de la física estadística de los datos". Fil. Trans. R. Soc. A . 376 (2118): 20170237. arXiv : 1801.03421 . Código Bib : 2018RSPTA.37670237G. doi : 10.1098/rsta.2017.0237 . PMC 5869543 . PMID  29555807. 
  27. ^ Hecht-Nielsen, Robert (1994), "Vectores de contexto: representaciones de significado aproximado de propósito general autoorganizadas a partir de datos sin procesar", en Zurada, JM; Marcas, RJ; Robinson, CJ (eds.), Inteligencia computacional: imitando la vida; Actas del Congreso Mundial sobre Inteligencia Computacional, Redes Neuronales; 1994; Orlando; FL , Piscataway, Nueva Jersey: IEEE Press, págs. 43–56, ISBN 0780311043
  28. ^ Pestov, Vladimir (2013). "¿El clasificador k-NN en dimensiones altas está afectado por la maldición de la dimensionalidad?". Computadora. Matemáticas. Aplica . 65 (10): 43–56. doi : 10.1016/j.camwa.2012.09.011 .