Agrupación difusa

La agrupación difusa (también conocida como agrupación suave o k -means suave ) es una forma de agrupación en la que cada punto de datos puede pertenecer a más de un grupo.

La agrupación o análisis de conglomerados implica asignar puntos de datos a conglomerados de manera que los elementos de un mismo grupo sean lo más similares posible, mientras que los elementos que pertenecen a diferentes grupos sean lo más diferentes posible. Los grupos se identifican mediante medidas de similitud. Estas medidas de similitud incluyen distancia, conectividad e intensidad. Se pueden elegir diferentes medidas de similitud en función de los datos o la aplicación. ^[1]

Comparación con la agrupación dura

En la agrupación no difusa (también conocida como agrupación dura), los datos se dividen en grupos distintos, donde cada punto de datos solo puede pertenecer exactamente a un grupo. En la agrupación difusa, los puntos de datos pueden pertenecer potencialmente a varios grupos. Por ejemplo, una manzana puede ser roja o verde (agrupación dura), pero una manzana también puede ser roja Y verde (agrupación difusa). Aquí, la manzana puede ser roja hasta cierto punto y también verde hasta cierto punto. En lugar de que la manzana pertenezca al verde [verde = 1] y no al rojo [rojo = 0], la manzana puede pertenecer al verde [verde = 0,5] y al rojo [rojo = 0,5]. Estos valores están normalizados entre 0 y 1; sin embargo, no representan probabilidades, por lo que no es necesario que los dos valores sumen 1.

Afiliación

Los grados de membresía se asignan a cada uno de los puntos de datos (etiquetas). Estos grados de membresía indican el grado en que los puntos de datos pertenecen a cada grupo. Por lo tanto, los puntos en el borde de un grupo, con grados de membresía más bajos, pueden estar en el grupo en menor grado que los puntos en el centro del grupo.

C-significa agrupación difusa

Uno de los algoritmos de agrupamiento difuso más utilizado es el algoritmo de agrupamiento difuso C-medias (FCM).

Historia

La agrupación difusa de c-medias (FCM) fue desarrollada por JC Dunn en 1973, ^[2] y mejorada por JC Bezdek en 1981. ^[3]

Descripción general

El algoritmo difuso de c -means es muy similar al algoritmo de k -means :

Elija una cantidad de grupos .
Asigne coeficientes aleatoriamente a cada punto de datos por estar en los grupos.
Repita hasta que el algoritmo haya convergido (es decir, el cambio de coeficientes entre dos iteraciones no supere el umbral de sensibilidad dado): $\varepsilon$
- Calcule el centroide para cada grupo (que se muestra a continuación).
- Para cada punto de datos, calcule sus coeficientes de estar en los grupos.

centroide

Cualquier punto x tiene un conjunto de coeficientes que dan el grado de estar en el k ésimo grupo w _k ( x ). Con medias c difusas , el centroide de un conglomerado es la media de todos los puntos, ponderada por su grado de pertenencia al conglomerado o, matemáticamente,

$c_{k}={{\sum _{x}{w_{k}(x)}^{m}x} \over {\sum _{x}{w_{k}(x)}^{m}}},$

donde m es el hiperparámetro que controla qué tan borroso será el clúster. Cuanto más alto sea, más borroso será el grupo al final.

Algoritmo

El algoritmo FCM intenta dividir una colección finita de elementos en una colección de c grupos difusos con respecto a algún criterio determinado. $n$ $X=\{\mathbf {x} _{1},...,\mathbf {x} _{n}\}$

Dado un conjunto finito de datos, el algoritmo devuelve una lista de centros de conglomerados y una matriz de partición. $c$ $C=\{\mathbf {c} _{1},...,\mathbf {c} _{c}\}$

$W=w_{i,j}\in [0,1],\;i=1,...,n,\;j=1,...,c$ , donde cada elemento indica el grado en que el elemento pertenece al grupo . $w_{ij}$ $\mathbf {x} _{i}$ $\mathbf {c} _{j}$

El FCM pretende minimizar una función objetivo:

J(W,C)=\sum _{i=1}^{n}\sum _{j=1}^{c}w_{ij}^{m}\left\|\mathbf {x} _{i}-\mathbf {c} _{j}\right\|^{2}

dónde:

w_{ij}={\frac {1}{\sum _{k=1}^{c}\left({\frac {\left\|\mathbf {x} _{i}-\mathbf {c} _{j}\right\|}{\left\|\mathbf {x} _{i}-\mathbf {c} _{k}\right\|}}\right)^{\frac {2}{m-1}}}}

Comparación con la agrupación de K-medias

La agrupación de K-medias también intenta minimizar la función objetivo que se muestra arriba, excepto que en K-medias, los valores de membresía son cero o uno, y no pueden tomar valores intermedios, es decir . En Fuzzy C-means, el grado de borrosidad está parametrizado por , donde un mayor da como resultado grupos más borrosos. En el límite , las membresías convergen a 0 o 1, y el objetivo de C-medias difusas coincide con el de K-medias. En ausencia de experimentación o conocimiento del dominio, comúnmente se establece en 2. El algoritmo también minimiza la variación dentro del grupo, pero tiene los mismos problemas que las medias 'k'; el mínimo es un mínimo local y los resultados dependen de la elección inicial de pesos. $w_{ij}\in \{0,1\}$ $m\in (1,\infty )$ $m$ $m\rightarrow 1$ $w_{ij}$ $m$

Implementación

Hay varias implementaciones de este algoritmo que están disponibles públicamente. ^[4]^[5]

Algoritmos relacionados

Las medias C difusas (FCM) determinadas automáticamente para el número de grupos podrían mejorar la precisión de la detección. ^[6] El uso de una mezcla de gaussianos junto con el algoritmo de maximización de expectativas es un método más formalizado estadísticamente que incluye algunas de estas ideas: membresía parcial en clases.

Ejemplo

Para comprender mejor este principio, a continuación se muestra un ejemplo clásico de datos monodimensionales en un eje x.

Este conjunto de datos se puede agrupar tradicionalmente en dos grupos. Al seleccionar un umbral en el eje x, los datos se separan en dos grupos. Los grupos resultantes están etiquetados como "A" y "B", como se ve en la siguiente imagen. Por lo tanto, cada punto perteneciente al conjunto de datos tendría un coeficiente de membresía de 1 o 0. Este coeficiente de membresía de cada punto de datos correspondiente está representado por la inclusión del eje y.

En la agrupación difusa, cada punto de datos puede pertenecer a varios grupos. Al relajar la definición de coeficientes de membresía de estrictamente 1 o 0, estos valores pueden oscilar entre cualquier valor de 1 a 0. La siguiente imagen muestra el conjunto de datos de la agrupación anterior, pero ahora se aplica la agrupación difusa de c-medias. En primer lugar, se puede generar un nuevo valor umbral que defina dos grupos. A continuación, se generan nuevos coeficientes de membresía para cada punto de datos en función de los centroides de los grupos, así como la distancia desde cada centroide de los grupos.

Como se puede ver, el punto de datos del medio pertenece al grupo A y al grupo B. El valor de 0,3 es el coeficiente de pertenencia de este punto de datos al grupo A. ^[7]

Aplicaciones

Los problemas de agrupamiento tienen aplicaciones en ciencias de superficies, biología, medicina, psicología, economía y muchas otras disciplinas. ^[8]

Bioinformática

En el campo de la bioinformática, la agrupación se utiliza para diversas aplicaciones. Un uso es como técnica de reconocimiento de patrones para analizar datos de expresión genética a partir de datos de secuenciación de ARN u otras tecnologías. ^[9] En este caso, los genes con patrones de expresión similares se agrupan en el mismo grupo, y diferentes grupos muestran patrones de expresión distintos y bien separados. El uso de agrupaciones puede proporcionar información sobre la función y regulación de los genes. ^[8] Debido a que la agrupación difusa permite que los genes pertenezcan a más de un grupo, permite la identificación de genes que están coregulados o coexpresados condicionalmente. ^{[10] Por ejemplo, más de un}factor de transcripción puede actuar sobre un gen y un gen puede codificar una proteína que tiene más de una función. Por tanto, la agrupación difusa es más apropiada que la agrupación estricta.

Análisis de imagen

Fuzzy c-means ha sido una herramienta muy importante para el procesamiento de imágenes al agrupar objetos en una imagen. En la década de 1970, los matemáticos introdujeron el término espacial en el algoritmo FCM para mejorar la precisión de la agrupación bajo ruido. ^[11] Además, los algoritmos FCM se han utilizado para distinguir entre diferentes actividades utilizando características basadas en imágenes como los Momentos Hu y Zernike. ^[12] Alternativamente, un modelo de lógica difusa se puede describir en conjuntos difusos que se definen en tres componentes del espacio de color HSL HSL y HSV ; Las funciones de membresía tienen como objetivo describir colores siguiendo la intuición humana de identificación de colores. ^[13]

Marketing

En marketing, los clientes se pueden agrupar en grupos difusos según sus necesidades, elecciones de marca, perfiles psicográficos u otras particiones relacionadas con el marketing. ^{[ cita necesaria ]}

Ejemplo de procesamiento de imágenes

La segmentación de imágenes mediante algoritmos de agrupamiento de k-medias se ha utilizado durante mucho tiempo para el reconocimiento de patrones, la detección de objetos y las imágenes médicas. Sin embargo, debido a limitaciones del mundo real, como el ruido, las sombras y las variaciones en las cámaras, el clustering tradicional a menudo no puede realizar de manera confiable las tareas de procesamiento de imágenes como se indicó anteriormente. ^{[ cita necesaria ]} Se ha propuesto la agrupación difusa como un algoritmo más aplicable en el desempeño de estas tareas. Se muestra una imagen en escala de grises que ha sufrido una agrupación difusa en Matlab. ^[14] La imagen original se ve junto a una imagen agrupada. Los colores se utilizan para dar una representación visual de los tres grupos distintos utilizados para identificar la pertenencia de cada píxel. A continuación, se proporciona un cuadro que define los coeficientes de membresía difusa de sus valores de intensidad correspondientes.

Dependiendo de la aplicación para la que se vayan a utilizar los coeficientes de agrupamiento difuso, se pueden aplicar diferentes técnicas de preprocesamiento a las imágenes RGB . La conversión de RGB a HCL es una práctica común. ^[15]

Ver también

Agrupación de LLAMA
Análisis de conglomerados
Algoritmo de maximización de expectativas (un método similar, pero más formalizado estadísticamente)

Referencias

^ "Agrupación difusa". referencia.wolfram.com . Consultado el 26 de abril de 2016 .
^ Dunn, JC (1 de enero de 1973). "Un pariente difuso del proceso ISODATA y su uso en la detección de clústeres compactos bien separados". Revista de Cibernética . 3 (3): 32–57. doi :10.1080/01969727308546046. ISSN 0022-0280.
^ Bezdek, James C. (1981). "Reconocimiento de patrones con algoritmos de función objetiva difusa" . ISBN 0-306-40671-3 .
^ Alobaid, Ahmad, fuzzycmeans: C-medias difusas según el artículo de investigación de James C. Bezdek et. Alabama , recuperado el 18 de enero de 2023.
^ Dias, Madson, fuzzy-c-means: una implementación simple en Python del algoritmo Fuzzy C-means. , recuperado el 18 de enero de 2023
^ Dijo, E El-Khamy; Rowayda A Sadek; Mohamed A El-Khoreby (octubre de 2015). "Una detección eficiente de la masa cerebral con umbrales y media C difusa basados en agrupamientos adaptativos". Conferencia internacional IEEE de 2015 sobre aplicaciones de procesamiento de imágenes y señales (ICSIPA) : 429–433.
^ "Agrupación: medios C difusos". casa.deib.polimi.it . Consultado el 1 de mayo de 2017 .
^ ab Ben-Dor, Amir; Shamir, Ron; Yakhini, Zohar (1 de octubre de 1999). "Agrupación de patrones de expresión genética". Revista de biología computacional . 6 (3–4): 281–297. CiteSeerX 10.1.1.34.5341 . doi : 10.1089/106652799318274. ISSN 1066-5277. PMID 10582567.
^ Valafar, Faramarz (1 de diciembre de 2002). "Técnicas de reconocimiento de patrones en análisis de datos de microarrays". Anales de la Academia de Ciencias de Nueva York . 980 (1): 41–64. Código Bib : 2002NYASA.980...41V. CiteSeerX 10.1.1.199.6445 . doi :10.1111/j.1749-6632.2002.tb04888.x. ISSN 1749-6632. PMID 12594081. S2CID 343093.
^ Valafar F. Técnicas de reconocimiento de patrones en análisis de datos de microarrays. Anales de la Academia de Ciencias de Nueva York. 1 de diciembre de 2002; 980 (1): 41-64.
^ Ahmed, Mohamed N.; Yamany, Sameh M.; Mohamed, Nevin; Farag, Aly A .; Moriarty, Thomas (2002). "Un algoritmo difuso C-Means modificado para la estimación de campo de sesgo y la segmentación de datos de resonancia magnética" (PDF) . Transacciones IEEE sobre imágenes médicas . 21 (3): 193–199. CiteSeerX 10.1.1.331.9742 . doi : 10.1109/42.996338. PMID 11989844. S2CID 8480349. Archivado desde el original (PDF) el 2 de octubre de 2011 . Consultado el 2 de octubre de 2011 . .
^ Banerjee, Tanvi (2014). "Reconocimiento de actividad diurna o nocturna a partir de vídeo mediante técnicas de agrupación difusa". Transacciones IEEE en sistemas difusos . 22 (3): 483–493. CiteSeerX 10.1.1.652.2819 . doi :10.1109/TFUZZ.2013.2260756. S2CID 11606344.
^ Alireza, Kashani; Kashani, Amir; Milani, Nargess; Akhlaghi, Peyman; Khezri, Kaveh (2008). "Clasificación de colores robusta mediante razonamiento difuso y algoritmos genéticos en ligas de fútbol RoboCup". RoboCup 2007: XI Copa Mundial de Fútbol de Robots . Apuntes de conferencias sobre informática. vol. 5001, págs. 548–555. doi :10.1007/978-3-540-68847-1_59. ISBN 978-3-540-68846-4. {{cite book}}: |journal=ignorado ( ayuda )
^ "Agrupación difusa: MATLAB y Simulink". www.mathworks.com . Consultado el 3 de mayo de 2017 .
^ Lecca, Paola (2011). Enfoques sistémicos en bioinformática y biología de sistemas computacionales . IGI Global. pag. 9.ISBN 9781613504369.