La agrupación de datos de alta dimensión es el análisis de agrupaciones de datos con un número que va desde unas pocas docenas hasta muchos miles de dimensiones . Estos espacios de datos de alta dimensión se encuentran a menudo en áreas como la medicina , donde la tecnología de microarrays de ADN puede producir muchas mediciones a la vez, y la agrupación de documentos de texto , donde, si se utiliza un vector de frecuencia de palabras, el número de dimensiones es igual al tamaño del vocabulario .
Es necesario superar cuatro problemas para realizar agrupamientos en datos de alta dimensión: [1]
Investigaciones recientes indican que los problemas de discriminación sólo ocurren cuando hay un gran número de dimensiones irrelevantes y que los enfoques de vecino más cercano compartido pueden mejorar los resultados. [2]
Los enfoques para la agrupación en subespacios afines orientados arbitrariamente o paralelos al eje difieren en cómo interpretan el objetivo general, que es encontrar agrupaciones en datos con alta dimensionalidad. [1] Un enfoque general diferente es encontrar agrupaciones basadas en patrones en la matriz de datos, a menudo denominado biclustering , que es una técnica utilizada con frecuencia en bioinformática .
La agrupación de subespacios tiene como objetivo buscar grupos en diferentes combinaciones de dimensiones (es decir, subespacios) y, a diferencia de muchos otros enfoques de agrupación, no supone que todos los grupos de un conjunto de datos se encuentren en el mismo conjunto de dimensiones. [3] La agrupación de subespacios puede adoptar enfoques de abajo hacia arriba o de arriba hacia abajo. Los métodos de abajo hacia arriba (como CLIQUE) identifican heurísticamente las dimensiones relevantes dividiendo el espacio de datos en una estructura de cuadrícula, seleccionando unidades densas y luego vinculándolas iterativamente si son adyacentes y densas. [3]
La imagen adyacente muestra un simple espacio bidimensional en el que se pueden identificar varios conglomerados. En los subespacios unidimensionales, se pueden encontrar los conglomerados (en el subespacio ) y , , (en el subespacio ). no se puede considerar un conglomerado en un (sub)espacio bidimensional, ya que está distribuido de forma demasiado dispersa en el eje. En dos dimensiones, se pueden identificar los dos conglomerados y .
El problema de la agrupación de subespacios se da por el hecho de que hay diferentes subespacios de un espacio con dimensiones. Si los subespacios no son paralelos a los ejes, es posible un número infinito de subespacios. Por lo tanto, los algoritmos de agrupación de subespacios utilizan algún tipo de heurística para seguir siendo computacionalmente factibles, con el riesgo de producir resultados inferiores. Por ejemplo, la propiedad de cierre hacia abajo (cf. reglas de asociación ) se puede utilizar para construir subespacios de dimensión superior solo mediante la combinación de los de dimensión inferior, ya que cualquier subespacio T que contenga un grupo, dará como resultado un espacio completo S que también contenga ese grupo (es decir, S ⊆ T), un enfoque adoptado por la mayoría de los algoritmos tradicionales como CLIQUE, [4] SUBCLU . [5] También es posible definir un subespacio utilizando diferentes grados de relevancia para cada dimensión, un enfoque adoptado por iMWK-Means, [6] EBK-Modes [7] y CBK-Modes. [8]
La agrupación proyectada busca asignar cada punto a un grupo único, pero los grupos pueden existir en diferentes subespacios. El enfoque general consiste en utilizar una función de distancia especial junto con un algoritmo de agrupación regular .
Por ejemplo, el algoritmo PreDeCon verifica qué atributos parecen respaldar una agrupación para cada punto y ajusta la función de distancia de modo que las dimensiones con baja varianza se amplifiquen en la función de distancia. [9] En la figura anterior, la agrupación se puede encontrar utilizando DBSCAN con una función de distancia que pone menos énfasis en el eje y, por lo tanto, exagera la baja diferencia en el eje lo suficiente como para agrupar los puntos en una agrupación.
PROCLUS utiliza un enfoque similar con un agrupamiento de k-medoides . [10] Se estiman los medoides iniciales y, para cada medoide, se determina el subespacio abarcado por atributos con baja varianza. Se asignan puntos al medoide más cercano, considerando solo el subespacio de ese medoide para determinar la distancia. Luego, el algoritmo procede como el algoritmo PAM regular .
Si la función de distancia pondera los atributos de forma diferente, pero nunca con 0 (y, por lo tanto, nunca descarta atributos irrelevantes), el algoritmo se denomina algoritmo de agrupamiento proyectado "suave" .
El agrupamiento basado en proyección se basa en una proyección no lineal de datos de alta dimensión en un espacio bidimensional. [11] Los métodos de proyección típicos como la incrustación de vecinos estocásticos distribuidos en t (t-SNE), [12] o el visualizador de recuperación de vecinos (NerV) [13] se utilizan para proyectar datos explícitamente en dos dimensiones sin tener en cuenta los subespacios de dimensión superior a dos y conservando solo los vecindarios relevantes en datos de alta dimensión. En el siguiente paso, se calcula el gráfico de Delaunay [14] entre los puntos proyectados y cada vértice entre dos puntos proyectados se pondera con la distancia de alta dimensión entre los puntos de datos de alta dimensión correspondientes. A continuación, se calcula el camino más corto entre cada par de puntos utilizando el algoritmo de Dijkstra . [15] Los caminos más cortos se utilizan luego en el proceso de agrupamiento, que implica dos opciones según el tipo de estructura en los datos de alta dimensión. [11] Esta elección booleana se puede decidir mirando el mapa topográfico de estructuras de alta dimensión. [16] En una evaluación comparativa de 34 métodos de agrupamiento comparables, el agrupamiento basado en proyecciones fue el único algoritmo que siempre pudo encontrar la distancia de alta dimensión o la estructura basada en densidad del conjunto de datos. [11] El agrupamiento basado en proyecciones está disponible en el paquete R de código abierto "ProjectionBasedClustering" en CRAN. [17]
La agregación bootstrap (bagging) se puede utilizar para crear múltiples grupos y agregar los hallazgos. Esto se hace tomando submuestras aleatorias de los datos, realizando un análisis de conglomerados en cada uno de ellos y luego agregando los resultados de los agrupamientos para generar una medida de disimilitud que luego se puede utilizar para explorar y agrupar los datos originales. [18] [19] Dado que es probable que los datos de alta dimensión tengan muchas características no informativas, se pueden utilizar pesos durante el proceso de bagging para aumentar el impacto de los aspectos más informativos. Esto produce "disimilitudes ABC" que luego se pueden utilizar para explorar y agrupar los datos originales y también para evaluar qué características parecen tener más impacto en la definición de los grupos. [20] [21] [22]
No todos los algoritmos intentan encontrar una asignación de clúster única para cada punto o todos los clústeres en todos los subespacios; muchos se conforman con un resultado intermedio, donde se encuentran varios conjuntos de clústeres posiblemente superpuestos, pero no necesariamente exhaustivos. Un ejemplo es FIRES, que es, desde su enfoque básico, un algoritmo de agrupamiento de subespacios, pero utiliza una heurística demasiado agresiva para producir de manera creíble todos los clústeres de subespacios. [23] Otro enfoque híbrido es incluir un bucle humano en el algoritmo: la experiencia humana en el dominio puede ayudar a reducir un espacio de búsqueda exponencial a través de la selección heurística de muestras. Esto puede ser beneficioso en el dominio de la salud donde, por ejemplo, los médicos se enfrentan a descripciones de alta dimensión de las condiciones de los pacientes y mediciones sobre el éxito de ciertas terapias. Una cuestión importante en tales datos es comparar y correlacionar las condiciones de los pacientes y los resultados de la terapia junto con combinaciones de dimensiones. El número de dimensiones es a menudo muy grande, en consecuencia, es necesario mapearlas a un número menor de dimensiones relevantes para que sean más susceptibles al análisis experto. Esto se debe a que las dimensiones irrelevantes, redundantes y conflictivas pueden afectar negativamente la eficacia y la eficiencia de todo el proceso analítico. [24]
Otro tipo de subespacios se considera en el agrupamiento por correlación (minería de datos) .