La agrupación de datos de alta dimensión es el análisis de agrupaciones de datos con desde unas pocas docenas hasta muchos miles de dimensiones . Estos espacios de datos de alta dimensión se encuentran a menudo en áreas como la medicina , donde la tecnología de microarrays de ADN puede producir muchas mediciones a la vez, y la agrupación de documentos de texto , donde, si se utiliza un vector de frecuencia de palabras, el número de dimensiones es igual. el tamaño del vocabulario .
Es necesario superar cuatro problemas para agrupar datos de alta dimensión: [1]
Investigaciones recientes indican que los problemas de discriminación sólo ocurren cuando hay un gran número de dimensiones irrelevantes, y que los enfoques de vecino más cercano compartido pueden mejorar los resultados. [2]
Los enfoques hacia la agrupación en subespacios afines orientados arbitrariamente o paralelos a los ejes difieren en cómo interpretan el objetivo general, que es encontrar agrupaciones en datos con alta dimensionalidad. [1] Un enfoque general diferente es encontrar grupos basados en patrones en la matriz de datos, a menudo denominado biclustering , que es una técnica utilizada frecuentemente en bioinformática .
La agrupación subespacial tiene como objetivo buscar agrupaciones en diferentes combinaciones de dimensiones (es decir, subespacios) y, a diferencia de muchos otros enfoques de agrupación, no supone que todas las agrupaciones de un conjunto de datos se encuentren en el mismo conjunto de dimensiones. [3] La agrupación subespacial puede adoptar enfoques ascendentes o descendentes. Los métodos ascendentes (como CLIQUE) identifican heurísticamente dimensiones relevantes dividiendo el espacio de datos en una estructura de cuadrícula, seleccionando unidades densas y luego vinculándolas iterativamente si son adyacentes y densas. [3]
La imagen adyacente muestra un mero espacio bidimensional donde se pueden identificar varios grupos. En los subespacios unidimensionales, se pueden encontrar los grupos (en el subespacio ) y , (en el subespacio ) . no puede considerarse un grupo en un (sub)espacio bidimensional, ya que está demasiado dispersamente distribuido en el eje. En dos dimensiones, se pueden identificar los dos grupos y .
El problema de la agrupación de subespacios viene dado por el hecho de que existen diferentes subespacios de un espacio con dimensiones. Si los subespacios no son paralelos a los ejes, es posible un número infinito de subespacios. Por lo tanto, los algoritmos de agrupamiento subespacial utilizan algún tipo de heurística para seguir siendo computacionalmente factibles, a riesgo de producir resultados inferiores. Por ejemplo, la propiedad de cierre descendente (cf. reglas de asociación ) se puede utilizar para construir subespacios de dimensiones superiores sólo combinando los de dimensiones inferiores, ya que cualquier subespacio T que contenga un grupo dará como resultado un espacio completo S que también contendrá ese cluster (es decir, S ⊆ T), un enfoque adoptado por la mayoría de los algoritmos tradicionales como CLIQUE, [4] SUBCLU . [5] También es posible definir un subespacio utilizando diferentes grados de relevancia para cada dimensión, un enfoque adoptado por iMWK-Means, [6] EBK-Modes [7] y CBK-Modes. [8]
La agrupación proyectada busca asignar cada punto a un grupo único, pero los grupos pueden existir en diferentes subespacios. El enfoque general es utilizar una función de distancia especial junto con un algoritmo de agrupamiento regular .
Por ejemplo, el algoritmo PreDeCon verifica qué atributos parecen admitir una agrupación para cada punto y ajusta la función de distancia de modo que las dimensiones con baja varianza se amplifiquen en la función de distancia. [9] En la figura anterior, el grupo se puede encontrar usando DBSCAN con una función de distancia que pone menos énfasis en el eje y, por lo tanto, exagera la baja diferencia en el eje lo suficiente como para agrupar los puntos en un grupo.
PROCLUS utiliza un enfoque similar con una agrupación de k-medoides . [10] Se adivinan los medoides iniciales y, para cada medoide, se determina el subespacio abarcado por atributos con baja varianza. Los puntos se asignan al medoide más cercano, considerando solo el subespacio de ese medoide para determinar la distancia. Luego, el algoritmo procede como el algoritmo PAM normal .
Si la función de distancia pondera los atributos de manera diferente, pero nunca con 0 (y por lo tanto nunca elimina atributos irrelevantes), el algoritmo se denomina algoritmo de agrupamiento proyectado "suave" .
La agrupación basada en proyecciones se basa en una proyección no lineal de datos de alta dimensión en un espacio bidimensional. [11] Los métodos de proyección típicos como la incrustación de vecinos estocásticos distribuidos en t (t-SNE), [12] o el visualizador de recuperación de vecinos (NerV) [13] se utilizan para proyectar datos explícitamente en dos dimensiones sin tener en cuenta los subespacios de dimensión superior a dos. y preservar solo vecindarios relevantes en datos de alta dimensión. En el siguiente paso, se calcula el gráfico de Delaunay [14] entre los puntos proyectados, y cada vértice entre dos puntos proyectados se pondera con la distancia de alta dimensión entre los puntos de datos de alta dimensión correspondientes. A partir de entonces, se calcula el camino más corto entre cada par de puntos utilizando el algoritmo de Dijkstra . [15] Los caminos más cortos se utilizan luego en el proceso de agrupación, que implica dos opciones dependiendo del tipo de estructura en los datos de alta dimensión. [11] Esta elección booleana se puede decidir mirando el mapa topográfico de estructuras de alta dimensión. [16] En una evaluación comparativa de 34 métodos de agrupamiento comparables, el agrupamiento basado en proyecciones fue el único algoritmo que siempre fue capaz de encontrar la distancia de alta dimensión o la estructura basada en la densidad del conjunto de datos. [11] Se puede acceder a la agrupación en clústeres basada en proyecciones en el paquete R de código abierto "ProjectionBasedClustering" en CRAN. [17]
La agregación Bootstrap (empaquetado) se puede utilizar para crear múltiples clústeres y agregar los hallazgos. Esto se hace tomando submuestras aleatorias de los datos, realizando un análisis de conglomerados en cada una de ellas y luego agregando los resultados de los agrupamientos para generar una medida de disimilitud que luego puede usarse para explorar y agrupar los datos originales. [18] [19] Dado que es probable que los datos de alta dimensión tengan muchas características no informativas, se pueden utilizar pesos durante el proceso de embolsado para aumentar el impacto de los aspectos más informativos. Esto produce "diferencias ABC" que luego pueden usarse para explorar y agrupar los datos originales y también para evaluar qué características parecen tener más impacto en la definición de los grupos. [20] [21] [22]
No todos los algoritmos intentan encontrar una asignación de grupo única para cada punto o todos los grupos en todos los subespacios; muchos se conforman con un resultado intermedio, donde se encuentran varios grupos de grupos posiblemente superpuestos, pero no necesariamente exhaustivos. Un ejemplo es FIRES, que desde su enfoque básico es un algoritmo de agrupación subespacial, pero utiliza una heurística demasiado agresiva para producir de manera creíble todas las agrupaciones subespaciales. [23] Otro enfoque híbrido es incluir un ser humano en el bucle algorítmico: la experiencia en el dominio humano puede ayudar a reducir un espacio de búsqueda exponencial mediante la selección heurística de muestras. Esto puede resultar beneficioso en el ámbito de la salud donde, por ejemplo, los médicos se enfrentan a descripciones detalladas de las condiciones de los pacientes y mediciones del éxito de determinadas terapias. Una cuestión importante en dichos datos es comparar y correlacionar las condiciones del paciente y los resultados de la terapia junto con combinaciones de dimensiones. El número de dimensiones suele ser muy grande, por lo que es necesario asignarlas a un número menor de dimensiones relevantes para que sean más susceptibles al análisis de expertos. Esto se debe a que dimensiones irrelevantes, redundantes y conflictivas pueden afectar negativamente la efectividad y eficiencia de todo el proceso analítico. [24]
Otro tipo de subespacios se considera en el clustering de correlación (Minería de datos) .