La maldición de la dimensionalidad se refiere a diversos fenómenos que surgen al analizar y organizar datos en espacios de alta dimensión que no ocurren en entornos de baja dimensión, como el espacio físico tridimensional de la experiencia cotidiana. La expresión fue acuñada por Richard E. Bellman al considerar problemas de programación dinámica . [1] [2] La maldición generalmente se refiere a problemas que surgen cuando el número de puntos de datos es pequeño (en un sentido adecuadamente definido) en relación con la dimensión intrínseca de los datos.
Los fenómenos dimensionalmente malditos ocurren en dominios como el análisis numérico , el muestreo , la combinatoria , el aprendizaje automático , la minería de datos y las bases de datos . El tema común de estos problemas es que cuando aumenta la dimensionalidad, el volumen del espacio aumenta tan rápido que los datos disponibles se vuelven escasos. Para obtener un resultado fiable, la cantidad de datos necesarios suele crecer exponencialmente con la dimensionalidad. Además, la organización y búsqueda de datos a menudo se basa en detectar áreas donde los objetos forman grupos con propiedades similares; Sin embargo, en datos de alta dimensión, todos los objetos parecen ser escasos y diferentes en muchos aspectos, lo que impide que las estrategias comunes de organización de datos sean eficientes.
En algunos problemas, cada variable puede tomar uno de varios valores discretos, o el rango de valores posibles se divide para dar un número finito de posibilidades. Tomando las variables en conjunto, se debe considerar una gran cantidad de combinaciones de valores. Este efecto también se conoce como explosión combinatoria . Incluso en el caso más simple de variables binarias , el número de combinaciones posibles ya es exponencial en la dimensionalidad. Ingenuamente, cada dimensión adicional duplica el esfuerzo necesario para probar todas las combinaciones.
Hay un aumento exponencial en el volumen asociado con la adición de dimensiones adicionales a un espacio matemático . Por ejemplo, 10 2 = 100 puntos de muestra espaciados uniformemente son suficientes para muestrear un intervalo unitario (intente visualizar un cubo "unidimensional") con no más de 10 −2 = 0,01 de distancia entre puntos; un muestreo equivalente de un hipercubo unitario de 10 dimensiones con una red que tiene un espaciado de 10 −2 = 0,01 entre puntos adyacentes requeriría 10 20 = [(10 2 ) 10 ] puntos de muestra. En general, con una distancia de espaciado de 10 − n, el hipercubo de 10 dimensiones parece ser un factor de 10 n (10−1) = [(10 n ) 10 /(10 n )] "más grande" que el unidimensional. hipercubo, que es el intervalo unitario. En el ejemplo anterior n = 2: cuando se utiliza una distancia de muestreo de 0,01, el hipercubo de 10 dimensiones parece ser 10 18 "más grande" que el intervalo unitario. Este efecto es una combinación de los problemas combinatorios anteriores y los problemas de función de distancia que se explican a continuación.
Al resolver problemas de optimización dinámica mediante inducción numérica hacia atrás , se debe calcular la función objetivo para cada combinación de valores. Este es un obstáculo importante cuando la dimensión de la "variable de estado" es grande. [3]
En problemas de aprendizaje automático que implican aprender un "estado de naturaleza" a partir de un número finito de muestras de datos en un espacio de características de alta dimensión , donde cada característica tiene un rango de valores posibles, generalmente se requiere una enorme cantidad de datos de entrenamiento para garantizar que existen varias muestras con cada combinación de valores. En un sentido abstracto, a medida que crece el número de características o dimensiones, la cantidad de datos que necesitamos para generalizar con precisión crece exponencialmente. [4]
Una regla general típica es que debe haber al menos cinco ejemplos de entrenamiento para cada dimensión de la representación. [5] En el aprendizaje automático y en lo que respecta al rendimiento predictivo, la maldición de la dimensionalidad se usa indistintamente con el fenómeno del pico , [5] que también se conoce como fenómeno de Hughes . [6] Este fenómeno establece que con un número fijo de muestras de entrenamiento, el poder predictivo promedio (esperado) de un clasificador o regresor primero aumenta a medida que aumenta el número de dimensiones o características utilizadas, pero más allá de una cierta dimensionalidad comienza a deteriorarse en lugar de mejorar. continuamente. [7] [8] [9]
Sin embargo, en el contexto de un clasificador simple (por ejemplo, análisis discriminante lineal en el modelo gaussiano multivariado bajo el supuesto de una matriz de covarianza común conocida), Zollanvari, et al. , mostraron tanto analítica como empíricamente que siempre que la eficacia acumulativa relativa de un conjunto de características adicional (con respecto a las características que ya forman parte del clasificador) sea mayor (o menor) que el tamaño de este conjunto de características adicional, el error esperado del clasificador construido utilizando estas características adicionales será menor (o mayor) que el error esperado del clasificador construido sin ellas. En otras palabras, tanto el tamaño de las características adicionales como su efecto discriminatorio (relativo) acumulativo son importantes para observar una disminución o un aumento en el poder predictivo promedio. [10]
En el aprendizaje métrico , las dimensiones más altas a veces pueden permitir que un modelo logre un mejor rendimiento. Después de normalizar las incrustaciones en la superficie de una hiperesfera, FaceNet logra el mejor rendimiento utilizando 128 dimensiones en lugar de 64, 256 o 512 dimensiones en un estudio de ablación. [11] Se descubrió que una función de pérdida para la disimilitud invariante unitaria entre incrustaciones de palabras se minimiza en dimensiones altas. [12]
En minería de datos , la maldición de la dimensionalidad se refiere a un conjunto de datos con demasiadas características.
Considere la primera tabla, que muestra 200 individuos y 2000 genes (características) donde un 1 o un 0 indican si tienen o no una mutación genética en ese gen. Una aplicación de minería de datos a este conjunto de datos puede ser encontrar la correlación entre mutaciones genéticas específicas y crear un algoritmo de clasificación, como un árbol de decisión, para determinar si un individuo tiene cáncer o no.
Una práctica común de extracción de datos en este ámbito sería crear reglas de asociación entre mutaciones genéticas que conducen al desarrollo de cánceres. Para hacer esto, habría que recorrer cada mutación genética de cada individuo y encontrar otras mutaciones genéticas que ocurran por encima de un umbral deseado y crear pares. Comenzarían con pares de dos, luego tres, luego cuatro hasta que el resultado sea un conjunto vacío de pares. La complejidad de este algoritmo puede llevar al cálculo de todas las permutaciones de pares de genes para cada individuo o fila. Dada la fórmula para calcular las permutaciones de n elementos con un tamaño de grupo de r es: , calcular el número de permutaciones de tres pares de cualquier individuo dado serían 7988004000 pares diferentes de genes para evaluar para cada individuo. El número de pares creados crecerá en un orden factorial a medida que aumente el tamaño de los pares. El crecimiento se muestra en la tabla de permutación (ver a la derecha).
Como podemos ver en la tabla de permutaciones anterior, uno de los principales problemas que enfrentan los mineros de datos con respecto a la maldición de la dimensionalidad es que el espacio de posibles valores de parámetros crece exponencial o factorialmente a medida que crece el número de características en el conjunto de datos. Este problema afecta críticamente tanto al tiempo como al espacio computacional cuando se buscan asociaciones o características óptimas a considerar.
Otro problema que pueden enfrentar los mineros de datos cuando trabajan con demasiadas características es la noción de que la cantidad de predicciones o clasificaciones falsas tiende a aumentar a medida que crece la cantidad de características en el conjunto de datos. En términos del problema de clasificación discutido anteriormente, mantener cada punto de datos podría generar una mayor cantidad de falsos positivos y falsos negativos en el modelo.
Esto puede parecer contrario a la intuición, pero considere la tabla de mutaciones genéticas de arriba, que muestra todas las mutaciones genéticas de cada individuo. Cada mutación genética, ya sea que se correlacione con el cáncer o no, tendrá algún aporte o peso en el modelo que guía el proceso de toma de decisiones del algoritmo. Puede haber mutaciones que sean atípicas o que dominen la distribución general de las mutaciones genéticas cuando en realidad no se correlacionan con el cáncer. Estas características pueden ir en contra del modelo de uno, haciendo más difícil obtener resultados óptimos.
Este problema depende del minero de datos para resolverlo y no existe una solución universal. El primer paso que debe dar cualquier minero de datos es explorar los datos, en un intento de comprender cómo se pueden utilizar para resolver el problema. Primero hay que entender qué significan los datos y qué están tratando de descubrir antes de poder decidir si se debe eliminar algo del conjunto de datos. Luego, pueden crear o utilizar un algoritmo de selección de características o reducción de dimensionalidad para eliminar muestras o características del conjunto de datos si lo consideran necesario. Un ejemplo de tales métodos es el método del rango intercuartil , que se utiliza para eliminar valores atípicos en un conjunto de datos calculando la desviación estándar de una característica o ocurrencia.
Cuando una medida como la distancia euclidiana se define utilizando muchas coordenadas, hay poca diferencia en las distancias entre diferentes pares de puntos.
Una forma de ilustrar la "inmensidad" del espacio euclidiano de alta dimensión es comparar la proporción de una hiperesfera inscrita con radio y dimensión con la de un hipercubo con aristas de longitud. El volumen de dicha esfera es , ¿dónde está la función gamma? , mientras que el volumen del cubo es . A medida que aumenta la dimensión del espacio, la hiperesfera se convierte en un volumen insignificante en relación con el del hipercubo. Esto se puede ver claramente comparando las proporciones a medida que la dimensión llega al infinito:
Además, la distancia entre el centro y las esquinas es , que aumenta sin límite para r fijo.
En este sentido, cuando los puntos se generan uniformemente en un hipercubo de alta dimensión, casi todos los puntos están mucho más lejos que unidades de distancia del centro. En dimensiones altas, el volumen del hipercubo unitario de d dimensiones (con coordenadas de los vértices ) se concentra cerca de una esfera con el radio de dimensión grande d . De hecho, para cada coordenada el valor promedio de en el cubo es [13]
La varianza de para una distribución uniforme en el cubo es
Por lo tanto, la distancia al cuadrado desde el origen, tiene el valor promedio d /3 y la varianza 4 d /45. Para d grande , la distribución de está cerca de la distribución normal con la media 1/3 y la desviación estándar según el teorema del límite central . Así, cuando se generan uniformemente puntos de grandes dimensiones, tanto el "centro" del hipercubo como las esquinas están vacíos, y todo el volumen se concentra cerca de la superficie de una esfera de radio "intermedio" .
Esto también ayuda a comprender la distribución chi-cuadrado . De hecho, la distribución chi-cuadrado (no central) asociada a un punto aleatorio en el intervalo [-1, 1] es la misma que la distribución de la longitud al cuadrado de un punto aleatorio en el d -cubo. Por la ley de los grandes números, esta distribución se concentra en una banda estrecha alrededor de d veces la desviación estándar al cuadrado (σ 2 ) de la derivación original. Esto ilumina la distribución chi-cuadrado y también ilustra que la mayor parte del volumen del d -cubo se concentra cerca del límite de una esfera de radio .
Un desarrollo adicional de este fenómeno es el siguiente. Cualquier distribución fija de los números reales induce una distribución del producto en puntos en . Para cualquier n fijo , resulta que la diferencia entre la distancia mínima y máxima entre un punto de referencia aleatorio Q y una lista de n puntos de datos aleatorios P 1 ,..., P n se vuelven indiscernibles en comparación con la distancia mínima: [ 14]
Esto a menudo se cita como funciones de distancia que pierden su utilidad (para el criterio del vecino más cercano en algoritmos de comparación de características, por ejemplo) en dimensiones altas. Sin embargo, investigaciones recientes han demostrado que esto solo se cumple en el escenario artificial cuando las distribuciones unidimensionales son independientes y están distribuidas de manera idéntica . [15] Cuando los atributos están correlacionados, los datos pueden volverse más fáciles y proporcionar un mayor contraste de distancia y se descubrió que la relación señal-ruido desempeña un papel importante, por lo que se debe utilizar la selección de características . [15]
Más recientemente, se ha sugerido que puede haber un error conceptual en el argumento de que la pérdida de contraste crea una maldición en las altas dimensiones. El aprendizaje automático puede entenderse como el problema de asignar instancias a sus respectivos procesos generativos de origen, con etiquetas de clase actuando como representaciones simbólicas de procesos generativos individuales. La derivación de la maldición asume que todas las instancias son resultados independientes e idénticos de un único proceso generativo de alta dimensión. Si solo hay un proceso generativo, existiría solo una clase (que ocurre naturalmente) y el aprendizaje automático estaría conceptualmente mal definido tanto en dimensiones altas como bajas. Por lo tanto, el argumento tradicional de que la pérdida de contraste crea una maldición puede ser fundamentalmente inapropiado. Además, se ha demostrado que cuando el modelo generativo se modifica para dar cabida a múltiples procesos generativos, la pérdida de contraste puede transformarse de una maldición a una bendición, ya que garantiza que el vecino más cercano de una instancia sea casi con seguridad su más cercano. instancia relacionada. Desde esta perspectiva, la pérdida de contraste hace que las distancias dimensionales altas sean especialmente significativas y no especialmente carentes de significado, como se suele argumentar. [dieciséis]
El efecto complica la búsqueda del vecino más cercano en un espacio de alta dimensión. No es posible rechazar candidatos rápidamente utilizando la diferencia en una coordenada como límite inferior para una distancia basada en todas las dimensiones. [17] [18]
Sin embargo, recientemente se ha observado que el mero número de dimensiones no necesariamente genera dificultades [19] , ya que dimensiones adicionales relevantes también pueden aumentar el contraste. Además, para la clasificación resultante sigue siendo útil distinguir entre vecinos cercanos y lejanos. Sin embargo, las dimensiones irrelevantes ("ruido") reducen el contraste de la manera descrita anteriormente. En el análisis de series de tiempo , donde los datos son inherentemente de alta dimensión, las funciones de distancia también funcionan de manera confiable siempre que la relación señal-ruido sea lo suficientemente alta. [20]
Otro efecto de la alta dimensionalidad en las funciones de distancia se refiere a los gráficos k -vecino más cercano ( k -NN) construidos a partir de un conjunto de datos utilizando una función de distancia. A medida que aumenta la dimensión, la distribución en grados del dígrafo k -NN se sesga con un pico a la derecha debido a la aparición de un número desproporcionado de centros , es decir, puntos de datos que aparecen en muchas más listas k -NN de otros puntos de datos que el promedio. Este fenómeno puede tener un impacto considerable en diversas técnicas de clasificación (incluido el clasificador k -NN ), aprendizaje semisupervisado y agrupamiento , [21] y también afecta la recuperación de información . [22]
En una encuesta de 2012, Zimek et al. identificó los siguientes problemas al buscar anomalías en datos de alta dimensión: [15]
Muchos de los métodos especializados analizados abordan uno u otro de estos problemas, pero quedan muchas preguntas de investigación abiertas.
Sorprendentemente y a pesar de las esperadas dificultades de la "maldición de la dimensionalidad", las heurísticas de sentido común basadas en los métodos más sencillos "pueden producir resultados que casi con seguridad son óptimos" para problemas de alta dimensión. [23] El término "bendición de la dimensionalidad" se introdujo a finales de los años 1990. [23] Donoho en su "Manifiesto del Milenio" explicó claramente por qué la "bendición de la dimensionalidad" formará la base de la futura minería de datos. [24] Los efectos de la bendición de la dimensionalidad fueron descubiertos en muchas aplicaciones y encontraron su fundamento en la concentración de fenómenos de medida . [25] Un ejemplo del fenómeno de la bendición de la dimensionalidad es la separabilidad lineal de un punto aleatorio de un conjunto aleatorio finito grande con alta probabilidad incluso si este conjunto es exponencialmente grande: el número de elementos en este conjunto aleatorio puede crecer exponencialmente con la dimensión. Además, este funcional lineal se puede seleccionar en la forma del discriminante lineal de Fisher más simple . Este teorema de separabilidad se demostró para una amplia clase de distribuciones de probabilidad: distribuciones generales uniformemente log-cóncavas, distribuciones de productos en un cubo y muchas otras familias (revisadas recientemente en [25] ).
"La bendición de la dimensionalidad y la maldición de la dimensionalidad son dos caras de la misma moneda". [26] Por ejemplo, la propiedad típica de distribuciones de probabilidad esencialmente de alta dimensión en un espacio de alta dimensión es: la distancia al cuadrado de puntos aleatorios a un punto seleccionado es, con alta probabilidad, cercana a la distancia al cuadrado promedio (o mediana) . Esta propiedad simplifica significativamente la geometría esperada de los datos y la indexación de datos de alta dimensión (bendición), [27] pero, al mismo tiempo, hace que la búsqueda de similitudes en altas dimensiones sea difícil e incluso inútil (maldición). [28]
Zimek et al. [15] señaló que si bien las formalizaciones típicas de la maldición de la dimensionalidad afectan los datos iid , tener datos separados en cada atributo se vuelve más fácil incluso en dimensiones altas, y argumentó que la relación señal-ruido es importante: los datos se vuelven más fáciles con cada atributo que agrega señal, y más difícil con atributos que solo agregan ruido (error irrelevante) a los datos. En particular, para el análisis de datos no supervisado, este efecto se conoce como inundación.
{{cite book}}
: CS1 maint: location missing publisher (link)