La agrupación difusa (también conocida como agrupación suave o k -means suave ) es una forma de agrupación en la que cada punto de datos puede pertenecer a más de un grupo.
La agrupación o análisis de conglomerados implica asignar puntos de datos a conglomerados de manera que los elementos de un mismo grupo sean lo más similares posible, mientras que los elementos que pertenecen a diferentes grupos sean lo más diferentes posible. Los grupos se identifican mediante medidas de similitud. Estas medidas de similitud incluyen distancia, conectividad e intensidad. Se pueden elegir diferentes medidas de similitud en función de los datos o la aplicación. [1]
En la agrupación no difusa (también conocida como agrupación dura), los datos se dividen en grupos distintos, donde cada punto de datos solo puede pertenecer exactamente a un grupo. En la agrupación difusa, los puntos de datos pueden pertenecer potencialmente a varios grupos. Por ejemplo, una manzana puede ser roja o verde (agrupación dura), pero una manzana también puede ser roja Y verde (agrupación difusa). Aquí, la manzana puede ser roja hasta cierto punto y también verde hasta cierto punto. En lugar de que la manzana pertenezca al verde [verde = 1] y no al rojo [rojo = 0], la manzana puede pertenecer al verde [verde = 0,5] y al rojo [rojo = 0,5]. Estos valores están normalizados entre 0 y 1; sin embargo, no representan probabilidades, por lo que no es necesario que los dos valores sumen 1.
Los grados de membresía se asignan a cada uno de los puntos de datos (etiquetas). Estos grados de membresía indican el grado en que los puntos de datos pertenecen a cada grupo. Por lo tanto, los puntos en el borde de un grupo, con grados de membresía más bajos, pueden estar en el grupo en menor grado que los puntos en el centro del grupo.
Uno de los algoritmos de agrupamiento difuso más utilizado es el algoritmo de agrupamiento difuso C-medias (FCM).
La agrupación difusa de c-medias (FCM) fue desarrollada por JC Dunn en 1973, [2] y mejorada por JC Bezdek en 1981. [3]
El algoritmo difuso de c -means es muy similar al algoritmo de k -means :
Cualquier punto x tiene un conjunto de coeficientes que dan el grado de estar en el k ésimo grupo w k ( x ). Con medias c difusas , el centroide de un conglomerado es la media de todos los puntos, ponderada por su grado de pertenencia al conglomerado o, matemáticamente,
donde m es el hiperparámetro que controla qué tan borroso será el clúster. Cuanto más alto sea, más borroso será el grupo al final.
El algoritmo FCM intenta dividir una colección finita de elementos en una colección de c grupos difusos con respecto a algún criterio determinado.
Dado un conjunto finito de datos, el algoritmo devuelve una lista de centros de conglomerados y una matriz de partición.
, donde cada elemento indica el grado en que el elemento pertenece al grupo .
El FCM pretende minimizar una función objetivo:
dónde:
La agrupación de K-medias también intenta minimizar la función objetivo que se muestra arriba, excepto que en K-medias, los valores de membresía son cero o uno, y no pueden tomar valores intermedios, es decir . En Fuzzy C-means, el grado de borrosidad está parametrizado por , donde un mayor da como resultado grupos más borrosos. En el límite , las membresías convergen a 0 o 1, y el objetivo de C-medias difusas coincide con el de K-medias. En ausencia de experimentación o conocimiento del dominio, comúnmente se establece en 2. El algoritmo también minimiza la variación dentro del grupo, pero tiene los mismos problemas que las medias 'k'; el mínimo es un mínimo local y los resultados dependen de la elección inicial de pesos.
Hay varias implementaciones de este algoritmo que están disponibles públicamente. [4] [5]
Las medias C difusas (FCM) determinadas automáticamente para el número de grupos podrían mejorar la precisión de la detección. [6] El uso de una mezcla de gaussianos junto con el algoritmo de maximización de expectativas es un método más formalizado estadísticamente que incluye algunas de estas ideas: membresía parcial en clases.
Para comprender mejor este principio, a continuación se muestra un ejemplo clásico de datos monodimensionales en un eje x.
Este conjunto de datos se puede agrupar tradicionalmente en dos grupos. Al seleccionar un umbral en el eje x, los datos se separan en dos grupos. Los grupos resultantes están etiquetados como "A" y "B", como se ve en la siguiente imagen. Por lo tanto, cada punto perteneciente al conjunto de datos tendría un coeficiente de membresía de 1 o 0. Este coeficiente de membresía de cada punto de datos correspondiente está representado por la inclusión del eje y.
En la agrupación difusa, cada punto de datos puede pertenecer a varios grupos. Al relajar la definición de coeficientes de membresía de estrictamente 1 o 0, estos valores pueden oscilar entre cualquier valor de 1 a 0. La siguiente imagen muestra el conjunto de datos de la agrupación anterior, pero ahora se aplica la agrupación difusa de c-medias. En primer lugar, se puede generar un nuevo valor umbral que defina dos grupos. A continuación, se generan nuevos coeficientes de membresía para cada punto de datos en función de los centroides de los grupos, así como la distancia desde cada centroide de los grupos.
Como se puede ver, el punto de datos del medio pertenece al grupo A y al grupo B. El valor de 0,3 es el coeficiente de pertenencia de este punto de datos al grupo A. [7]
Los problemas de agrupamiento tienen aplicaciones en ciencias de superficies, biología, medicina, psicología, economía y muchas otras disciplinas. [8]
En el campo de la bioinformática, la agrupación se utiliza para diversas aplicaciones. Un uso es como técnica de reconocimiento de patrones para analizar datos de expresión genética a partir de datos de secuenciación de ARN u otras tecnologías. [9] En este caso, los genes con patrones de expresión similares se agrupan en el mismo grupo, y diferentes grupos muestran patrones de expresión distintos y bien separados. El uso de agrupaciones puede proporcionar información sobre la función y regulación de los genes. [8] Debido a que la agrupación difusa permite que los genes pertenezcan a más de un grupo, permite la identificación de genes que están coregulados o coexpresados condicionalmente. [10] Por ejemplo, más de un factor de transcripción puede actuar sobre un gen y un gen puede codificar una proteína que tiene más de una función. Por tanto, la agrupación difusa es más apropiada que la agrupación estricta.
Fuzzy c-means ha sido una herramienta muy importante para el procesamiento de imágenes al agrupar objetos en una imagen. En la década de 1970, los matemáticos introdujeron el término espacial en el algoritmo FCM para mejorar la precisión de la agrupación bajo ruido. [11] Además, los algoritmos FCM se han utilizado para distinguir entre diferentes actividades utilizando características basadas en imágenes como los Momentos Hu y Zernike. [12] Alternativamente, un modelo de lógica difusa se puede describir en conjuntos difusos que se definen en tres componentes del espacio de color HSL HSL y HSV ; Las funciones de membresía tienen como objetivo describir colores siguiendo la intuición humana de identificación de colores. [13]
En marketing, los clientes se pueden agrupar en grupos difusos según sus necesidades, elecciones de marca, perfiles psicográficos u otras particiones relacionadas con el marketing. [ cita necesaria ]
La segmentación de imágenes mediante algoritmos de agrupamiento de k-medias se ha utilizado durante mucho tiempo para el reconocimiento de patrones, la detección de objetos y las imágenes médicas. Sin embargo, debido a limitaciones del mundo real, como el ruido, las sombras y las variaciones en las cámaras, el clustering tradicional a menudo no puede realizar de manera confiable las tareas de procesamiento de imágenes como se indicó anteriormente. [ cita necesaria ] Se ha propuesto la agrupación difusa como un algoritmo más aplicable en el desempeño de estas tareas. Se muestra una imagen en escala de grises que ha sufrido una agrupación difusa en Matlab. [14] La imagen original se ve junto a una imagen agrupada. Los colores se utilizan para dar una representación visual de los tres grupos distintos utilizados para identificar la pertenencia de cada píxel. A continuación, se proporciona un cuadro que define los coeficientes de membresía difusa de sus valores de intensidad correspondientes.
Dependiendo de la aplicación para la que se vayan a utilizar los coeficientes de agrupamiento difuso, se pueden aplicar diferentes técnicas de preprocesamiento a las imágenes RGB . La conversión de RGB a HCL es una práctica común. [15]
{{cite book}}
: |journal=
ignorado ( ayuda )