Computación granular

La computación granular es un paradigma emergente de procesamiento de información que se ocupa del procesamiento de entidades de información complejas llamadas " gránulos de información ", que surgen en el proceso de abstracción de datos y derivación de conocimiento a partir de información o datos. En términos generales, los gránulos de información son conjuntos de entidades que generalmente se originan en el nivel numérico y se organizan juntas debido a su similitud , adyacencia funcional o física, indistinguibilidad, coherencia o similares.

En la actualidad, la computación granular es más una perspectiva teórica que un conjunto coherente de métodos o principios. Como perspectiva teórica, promueve un enfoque de los datos que reconoce y explota el conocimiento presente en los datos en varios niveles de resolución o escalas. En este sentido, abarca todos los métodos que brindan flexibilidad y adaptabilidad en la resolución en la que se extrae y representa el conocimiento o la información.

Tipos de granulación

Como se mencionó anteriormente, la computación granular no es un algoritmo o proceso; no existe un método particular que se denomine "computación granular". Es más bien un enfoque para observar los datos que reconoce cómo pueden aparecer regularidades diferentes e interesantes en los datos en diferentes niveles de granularidad, de manera similar a cómo diferentes características se vuelven prominentes en imágenes satelitales de mayor o menor resolución. En una imagen satelital de baja resolución, por ejemplo, uno podría notar patrones de nubes interesantes que representan ciclones u otros fenómenos meteorológicos a gran escala, mientras que en una imagen de mayor resolución, uno no ve estos fenómenos atmosféricos a gran escala, pero en cambio nota fenómenos de menor escala, como el patrón interesante que son las calles de Manhattan . Lo mismo ocurre generalmente con todos los datos: en diferentes resoluciones o granularidades, surgen diferentes características y relaciones. El objetivo de la computación granular es tratar de aprovechar este hecho para diseñar sistemas de aprendizaje automático y razonamiento más efectivos.

Hay varios tipos de granularidad que se encuentran a menudo en la minería de datos y el aprendizaje automático , y los revisamos a continuación:

Granulación de valores (discretización/cuantificación)

Un tipo de granulación es la cuantificación de variables. Es muy común que en aplicaciones de minería de datos o de aprendizaje automático sea necesario reducir la resolución de las variables para extraer regularidades significativas. Un ejemplo de esto sería una variable como "temperatura exterior" ( $temp$ ), que en una aplicación determinada podría registrarse con varios decimales de precisión (según el aparato de detección). Sin embargo, para extraer relaciones entre "temperatura exterior" y, por ejemplo, "número de aplicaciones del gimnasio" ( $club$ ), generalmente será ventajoso cuantificar "temperatura exterior" en un número menor de intervalos.

Motivaciones

Hay varias razones interrelacionadas para granular las variables de esta manera:

Con base en el conocimiento previo del dominio , no hay expectativa de que variaciones mínimas en la temperatura (por ejemplo, la diferencia entre 80 y 80,7 °F (26,7 y 27,1 °C)) puedan tener una influencia en los comportamientos que impulsan el número de aplicaciones del club de salud. Por esta razón, cualquier "regularidad" que nuestros algoritmos de aprendizaje pudieran detectar en este nivel de resolución tendría que ser espuria , como un artefacto de sobreajuste. Al convertir la variable de temperatura en intervalos cuya diferencia anticipamos (con base en el conocimiento previo del dominio) podría influir en el número de aplicaciones del club de salud, eliminamos la posibilidad de detectar estos patrones espurios. Por lo tanto, en este caso, reducir la resolución es un método para controlar el sobreajuste .
Al reducir el número de intervalos en la variable de temperatura (es decir, aumentar su tamaño de grano ), aumentamos la cantidad de datos de muestra indexados por cada designación de intervalo. Por lo tanto, al hacer más gruesa la variable, aumentamos los tamaños de muestra y logramos una mejor estimación estadística. En este sentido, aumentar la granularidad proporciona un antídoto a la llamada maldición de la dimensionalidad , que se relaciona con la disminución exponencial del poder estadístico con el aumento del número de dimensiones o la cardinalidad de la variable.
Independientemente del conocimiento previo del dominio, a menudo ocurre que las regularidades significativas (es decir, que pueden detectarse mediante una metodología de aprendizaje determinada, un lenguaje representacional, etc.) pueden existir en un nivel de resolución y no en otro.

Por ejemplo, un sistema de aprendizaje o de reconocimiento de patrones simple puede intentar extraer regularidades que satisfagan un umbral de probabilidad condicional , como en el caso especial en el que este sistema de reconocimiento está detectando esencialmente una implicación lógica de la forma o, en otras palabras, "si entonces ". La capacidad del sistema para reconocer tales implicaciones (o, en general, probabilidades condicionales que exceden el umbral) depende parcialmente de la resolución con la que el sistema analiza las variables. $p(Y=y_{j}|X=x_{i})\geq \alpha .$ $\alpha = 1,$ $X=x_{i}\rightarrow Y=y_{j}$ $X=x_{i},$ $Y=y_{j}$

Como ejemplo de este último punto, considere el espacio de características que se muestra a la derecha. Cada una de las variables puede considerarse en dos resoluciones diferentes. La variable puede considerarse en una resolución alta (cuaternaria) en la que toma los cuatro valores o en una resolución más baja (binaria) en la que toma los dos valores. De manera similar, la variable puede considerarse en una resolución alta (cuaternaria) o en una resolución más baja (binaria), donde toma los valores o respectivamente. En la resolución alta, no hay implicaciones detectables de la forma ya que cada está asociado con más de uno y, por lo tanto, para todos. Sin embargo, en la resolución baja (binaria) de la variable, se vuelven detectables dos implicaciones bilaterales: y , ya que cada ocurre si y solo si y ocurre si y solo si. Por lo tanto, un sistema de reconocimiento de patrones que busque implicaciones de este tipo las encontraría en la resolución de la variable binaria, pero no las encontraría en la resolución de la variable cuaternaria más alta. ${\estilo de visualización X}$ $\{x_{1},x_{2},x_{3},x_{4}\}$ $\{X_{1},X_{2}\}.$ ${\estilo de visualización Y}$ $\{y_{1},y_{2},y_{3},y_{4}\}$ $\{Y_{1},Y_{2}\},$ $X=x_{i}\rightarrow Y=y_{j},$ $Estilo de visualización x_{i}}$ $y_{j},$ $x_{i},$ $p(Y=y_{j}|X=x_{i})<1.$ $X=X_{1}\leftrightarrow Y=Y_{1}$ $X=X_{2}\leftrightarrow Y=Y_{2}$ $Estilo de visualización X_{1}$ $Y_{1}$ $Estilo de visualización X_{2}$ $Y_{2}.$

Cuestiones y métodos

No es posible probar exhaustivamente todas las posibles resoluciones de discretización en todas las variables para ver qué combinación de resoluciones produce resultados interesantes o significativos. En lugar de ello, el espacio de características debe ser preprocesado (a menudo mediante un análisis de entropía de algún tipo) para que se pueda dar alguna orientación sobre cómo debe proceder el proceso de discretización. Además, por lo general no se pueden lograr buenos resultados analizando y discretizando ingenuamente cada variable de forma independiente, ya que esto puede anular las mismas interacciones que esperábamos descubrir.

Una muestra de artículos que abordan el problema de la discretización de variables en general, y de la discretización de múltiples variables en particular, es el siguiente: Chiu, Wong y Cheung (1991), Bay (2001), Liu et al. (2002), Wang y Liu (1998), Zighed, Rabaséda y Rakotomalala (1998), Catlett (1991), Dougherty, Kohavi y Sahami (1995), Monti y Cooper (1999), Fayyad e Irani (1993), Chiu, Cheung y Wong (1990), Nguyen y Nguyen (1998), Grzymala-Busse y Stefan owski (2001), Ting (1994), Ludl & Widmer (2000), Pfahringer (1995), An & Cercone (1999), Chiu & Cheung (1989), Chmielewski & Grzymala-Busse (1996), Lee & Shin (1994), Liu & Wellman (2002), Liu & Wellman (2004).

Granulación variable (agrupamiento/agregación/transformación)

La granulación variable es un término que podría describir una variedad de técnicas, la mayoría de las cuales tienen como objetivo reducir la dimensionalidad, la redundancia y los requisitos de almacenamiento. Aquí describimos brevemente algunas de las ideas y presentamos sugerencias sobre la literatura.

Transformación variable

Una serie de métodos clásicos, como el análisis de componentes principales , el escalamiento multidimensional , el análisis factorial y el modelado de ecuaciones estructurales , y sus parientes, caen bajo el género de "transformación de variables". También en esta categoría hay áreas de estudio más modernas como la reducción de dimensionalidad , la búsqueda de proyecciones y el análisis de componentes independientes . El objetivo común de estos métodos en general es encontrar una representación de los datos en términos de nuevas variables, que son una transformación lineal o no lineal de las variables originales, y en las que surgen relaciones estadísticas importantes. Los conjuntos de variables resultantes son casi siempre más pequeños que el conjunto de variables original y, por lo tanto, se puede decir vagamente que estos métodos imponen una granulación en el espacio de características. Todos estos métodos de reducción de dimensionalidad se revisan en los textos estándar, como Duda, Hart y Stork (2001), Witten y Frank (2005) y Hastie, Tibshirani y Friedman (2001).

Agregación variable

Una clase diferente de métodos de granulación de variables se deriva más de las metodologías de agrupamiento de datos que de la teoría de sistemas lineales que informa los métodos anteriores. Se observó bastante pronto que se puede considerar la "agrupación" de variables relacionadas de la misma manera que se considera la agrupación de datos relacionados. En la agrupación de datos, se identifica un grupo de entidades similares (utilizando una " medida de similitud " adecuada al dominio - Martino, Giuliani y Rizzi (2018)), y luego, en cierto sentido, se reemplazan esas entidades con un prototipo de algún tipo. El prototipo puede ser el promedio simple de los datos en el grupo identificado, o alguna otra medida representativa. Pero la idea clave es que en operaciones posteriores, podemos ser capaces de utilizar el prototipo único para el grupo de datos (junto con quizás un modelo estadístico que describa cómo se derivan los ejemplares del prototipo) para reemplazar al conjunto mucho más grande de ejemplares. Estos prototipos son generalmente tales que capturan la mayor parte de la información de interés sobre las entidades.

De manera similar, es razonable preguntarse si un conjunto grande de variables podría ser agregado en un conjunto más pequeño de variables prototipo que capturen las relaciones más salientes entre las variables. Aunque se han propuesto métodos de agrupamiento de variables basados en la correlación lineal (Duda, Hart y Stork 2001; Rencher 2002), métodos más poderosos de agrupamiento de variables se basan en la información mutua entre variables. Watanabe ha demostrado (Watanabe 1960; Watanabe 1969) que para cualquier conjunto de variables se puede construir un árbol politómico (es decir, n-ario) que representa una serie de aglomeraciones de variables en las que la correlación "total" última entre el conjunto completo de variables es la suma de las correlaciones "parciales" exhibidas por cada subconjunto aglomerado (véase la figura). Watanabe sugiere que un observador podría tratar de dividir un sistema de tal manera que minimice la interdependencia entre las partes "... como si estuviera buscando una división natural o una grieta oculta".

Un enfoque práctico para construir un árbol de este tipo es elegir sucesivamente para la aglomeración las dos variables (ya sean variables atómicas o variables aglomeradas previamente) que tengan la mayor información mutua por pares (Kraskov et al. 2003). El producto de cada aglomeración es una nueva variable (construida) que refleja la distribución conjunta local de las dos variables aglomerantes y, por lo tanto, posee una entropía igual a su entropía conjunta . Desde un punto de vista procedimental, este paso de aglomeración implica reemplazar dos columnas en la tabla de atributos-valores (que representan las dos variables aglomerantes) con una sola columna que tiene un valor único para cada combinación única de valores en las columnas reemplazadas (Kraskov et al. 2003). No se pierde información con esta operación; sin embargo, si uno está explorando los datos en busca de relaciones entre variables, generalmente no sería deseable fusionar variables redundantes de esta manera, ya que en tal contexto es probable que sea precisamente la redundancia o dependencia entre variables lo que interese; y una vez que se fusionan las variables redundantes, su relación entre sí ya no se puede estudiar.

Granulación del sistema (agregación)

En los sistemas de bases de datos , las agregaciones (ver, por ejemplo, agregación OLAP y sistemas de inteligencia empresarial ) dan como resultado la transformación de las tablas de datos originales (a menudo llamadas sistemas de información) en tablas con diferentes semánticas de filas y columnas, donde las filas corresponden a los grupos (gránulos) de tuplas originales y las columnas expresan información agregada sobre los valores originales dentro de cada uno de los grupos. Dichas agregaciones generalmente se basan en SQL y sus extensiones. Los gránulos resultantes generalmente corresponden a los grupos de tuplas originales con los mismos valores (o rangos) en algunas columnas originales preseleccionadas.

También existen otros enfoques en los que los grupos se definen basándose, por ejemplo, en la adyacencia física de las filas. Por ejemplo, Infobright implementó un motor de base de datos en el que los datos se dividían en filas aproximadas , cada una de las cuales constaba de 64 000 filas físicamente consecutivas (o casi consecutivas). Las filas aproximadas se etiquetaban automáticamente con información compacta sobre sus valores en las columnas de datos, lo que a menudo implicaba relaciones entre varias columnas y varias tablas. Esto dio como resultado una capa superior de información granulada en la que los objetos correspondían a las filas aproximadas y los atributos a varios aspectos de la información aproximada. Las operaciones de base de datos podrían respaldarse de manera eficiente dentro de un nuevo marco de trabajo de este tipo, con un acceso a las piezas de datos originales aún disponibles (Slezak et al. 2013).

Granulación de conceptos (análisis de componentes)

Los orígenes de la ideología de la computación granular se encuentran en la literatura sobre conjuntos aproximados y conjuntos difusos . Una de las ideas clave de la investigación sobre conjuntos aproximados (aunque de ninguna manera es exclusiva de ella) es que, en general, la selección de diferentes conjuntos de características o variables producirá diferentes granulaciones de conceptos . Aquí, como en la teoría elemental de conjuntos aproximados, por "concepto" nos referimos a un conjunto de entidades que son indistinguibles o indiscernibles para el observador (es decir, un concepto simple), o un conjunto de entidades que se compone de esos conceptos simples (es decir, un concepto complejo). Para decirlo en otras palabras, al proyectar un conjunto de datos ( sistema de valor-atributo ) sobre diferentes conjuntos de variables, reconocemos conjuntos alternativos de "conceptos" de clase de equivalencia en los datos, y estos diferentes conjuntos de conceptos en general serán propicios para la extracción de diferentes relaciones y regularidades.

Granulación de clase de equivalencia

Lo ilustraremos con un ejemplo. Consideremos el sistema atributo-valor que se muestra a continuación:

Cuando se considera el conjunto completo de atributos , vemos que tenemos las siguientes siete clases de equivalencia o conceptos primitivos (simples): $P=\{P_{1},P_{2},P_{3},P_{4},P_{5}\}$

{\begin{casos}\{O_{1},O_{2}\}\\\{O_{3},O_{7},O_{10}\}\\\{O_{4} \}\\\{O_{5}\}\\\{O_{6}\}\\\{O_{8}\}\\\{O_{9}\}\end{casos}}

De este modo, los dos objetos de la primera clase de equivalencia no se pueden distinguir entre sí en función de los atributos disponibles, y los tres objetos de la segunda clase de equivalencia no se pueden distinguir entre sí en función de los atributos disponibles. Los cinco objetos restantes se pueden distinguir de todos los demás objetos. Ahora, imaginemos una proyección del sistema de valores de los atributos sobre un solo atributo, que representaría, por ejemplo, la visión de un observador que solo es capaz de detectar este único atributo. Entonces obtenemos la siguiente estructura de clases de equivalencia mucho más burda. $\{O_{1},O_{2}\},$ $\{O_{3},O_{7},O_{10}\},$ $Estilo de visualización P_{1}$

{\begin{casos}\{O_{1},O_{2}\}\\\{O_{3},O_{5},O_{7},O_{9},O_{10} \}\\\{O_{4},O_{6},O_{8}\}\end{casos}}

En cierto sentido, se trata de la misma estructura que antes, pero con un grado de resolución menor (tamaño de grano mayor). Al igual que en el caso de la granulación de valores (discretización/cuantización), es posible que surjan relaciones (dependencias) en un nivel de granularidad que no estén presentes en otro. Como ejemplo de esto, podemos considerar el efecto de la granulación de conceptos en la medida conocida como dependencia de atributos (un pariente más simple de la información mutua ).

Para establecer esta noción de dependencia (ver también conjuntos aproximados ), representemos una granulación de concepto particular, donde cada uno es una clase de equivalencia de la estructura de concepto inducida por el conjunto de atributos $Q.$ Por ejemplo, si el conjunto de atributos $Q$ consiste solo en atributos , como se indicó anteriormente, entonces la estructura de concepto estará compuesta por $[x]_{Q}=\{Q_{1},Q_{2},Q_{3},\puntos ,Q_{N}\}$ $Q_{i}$ $Estilo de visualización P_{1}$ $estilo de visualización [x]_{Q}}$

{\begin{aligned}Q_{1}&=\{O_{1},O_{2}\},\\Q_{2}&=\{O_{3},O_{5},O_ {7},O_{9},O_{10}\},\\Q_{3}&=\{O_{4},O_{6},O_{8}\}.\end{aligned}}

La dependencia del conjunto de atributos $Q$ de otro conjunto de atributos $P$ , viene dada por $\gamma_{P}(Q),$

\gamma _{P}(Q)={\frac {\left|\sum _{i=1}^{N}{\underline {P}}Q_{i}\right|}{\left|\mathbb {U} \right|}}\leq 1

Es decir, para cada clase de equivalencia en sumamos el tamaño de su "aproximación inferior" (ver conjuntos aproximados ) por los atributos en $P$ , es decir, Más simplemente, esta aproximación es el número de objetos que en el conjunto de atributos $P$ pueden identificarse positivamente como pertenecientes al conjunto objetivo Sumado a través de todas las clases de equivalencia en el numerador anterior representa el número total de objetos que, con base en el conjunto de atributos $P$ , pueden categorizarse positivamente de acuerdo con la clasificación inducida por los atributos $Q.$ Por lo tanto, la relación de dependencia expresa la proporción (dentro de todo el universo) de tales objetos clasificables, capturando en cierto sentido la "sincronización" de las dos estructuras de concepto y La dependencia "puede interpretarse como una proporción de tales objetos en el sistema de información para el cual es suficiente conocer los valores de los atributos en $P$ para determinar los valores de los atributos en $Q$ " (Ziarko y Shan 1995). $Q_{i}$ $[x]_{Q},$ ${\underline {P}}Q_{i}.$ $Q_{i}.$ $[x]_{Q},$ $[x]_{Q}$ $[x]_{P}.$ $\gamma _{P}(Q)$

Ahora que ya hemos dejado de lado las definiciones, podemos hacer la simple observación de que la elección de la granularidad del concepto (es decir, la elección de los atributos) influirá en las dependencias detectadas entre los atributos. Consideremos nuevamente la tabla de valores de los atributos anterior:

Consideremos la dependencia del conjunto de atributos del conjunto de atributos. Es decir, deseamos saber qué proporción de objetos se pueden clasificar correctamente en clases de con base en el conocimiento de Las clases de equivalencia de y de se muestran a continuación. $Q=\{P_{4},P_{5}\}$ $P=\{P_{2},P_{3}\}.$ $[x]_{Q}$ $[x]_{P}.$ $[x]_{Q}$ $[x]_{P}$

Los objetos que se pueden categorizar definitivamente según la estructura del concepto en base a son aquellos en el conjunto y dado que hay seis de estos, la dependencia de $Q$ en $P$ , Esto podría considerarse una dependencia interesante en sí misma, pero tal vez en una aplicación particular de minería de datos solo se deseen dependencias más fuertes. $[x]_{Q}$ $[x]_{P}$ $\{O_{1},O_{2},O_{3},O_{7},O_{8},O_{10}\},$ $\gamma _{P}(Q)=6/10.$

Podríamos entonces considerar la dependencia del conjunto de atributos más pequeño en el conjunto de atributos El paso de a induce un engrosamiento de la estructura de clases como se verá en breve. Deseamos saber nuevamente qué proporción de objetos se pueden clasificar correctamente en las clases (ahora más grandes) de con base en el conocimiento de Las clases de equivalencia de los nuevos y de se muestran a continuación. $Q=\{P_{4}\}$ $P=\{P_{2},P_{3}\}.$ $Q=\{P_{4},P_{5}\}$ $Q=\{P_{4}\}$ $[x]_{Q},$ $[x]_{Q}$ $[x]_{P}.$ $[x]_{Q}$ $[x]_{P}$

Claramente, tiene una granularidad más gruesa que antes. Los objetos que ahora se pueden categorizar definitivamente según la estructura del concepto basada en constituyen el universo completo y, por lo tanto, la dependencia de $Q$ en $P$ , Es decir, el conocimiento de la pertenencia según el conjunto de categorías es adecuado para determinar la pertenencia a la categoría en con total certeza; En este caso, podríamos decir que Por lo tanto, al hacer más gruesa la estructura del concepto, pudimos encontrar una dependencia (determinista) más fuerte. Sin embargo, también notamos que las clases inducidas en a partir de la reducción en la resolución necesaria para obtener esta dependencia determinista ahora son grandes y pocas en número; como resultado, la dependencia que encontramos, aunque fuerte, puede ser menos valiosa para nosotros que la dependencia más débil encontrada anteriormente bajo la vista de mayor resolución de $[x]_{Q}$ $[x]_{Q}$ $[x]_{P}$ $\{O_{1},O_{2},\ldots ,O_{10}\}$ $\gamma _{P}(Q)=1.$ $[x]_{P}$ $[x]_{Q}$ $P\rightarrow Q.$ $[x]_{Q}$ $[x]_{Q}.$

En general, no es posible probar todos los conjuntos de atributos para ver qué estructuras conceptuales inducidas producen las dependencias más fuertes, y por lo tanto, esta búsqueda debe guiarse con cierta inteligencia. Los artículos que tratan este tema y otros relacionados con el uso inteligente de la granulación son los de YY Yao y Lotfi Zadeh que se enumeran en las referencias a continuación.

Granulación de componentes

Otra perspectiva sobre la granulación de conceptos se puede obtener del trabajo sobre modelos paramétricos de categorías. En el aprendizaje de modelos mixtos , por ejemplo, un conjunto de datos se explica como una mezcla de distintas distribuciones gaussianas (u otras). Por lo tanto, una gran cantidad de datos se "reemplaza" por un pequeño número de distribuciones. La elección del número de estas distribuciones, y su tamaño, puede verse nuevamente como un problema de granulación de conceptos . En general, se obtiene un mejor ajuste a los datos con un mayor número de distribuciones o parámetros, pero para extraer patrones significativos, es necesario restringir el número de distribuciones, lo que deliberadamente hace más burda la resolución del concepto. Encontrar la resolución de concepto "correcta" es un problema complicado para el que se han propuesto muchos métodos (por ejemplo, AIC , BIC , MDL , etc.), y estos se consideran con frecuencia bajo la rúbrica de " regularización de modelos ".

Diferentes interpretaciones de la computación granular

La computación granular puede concebirse como un marco de teorías, metodologías, técnicas y herramientas que hacen uso de gránulos de información en el proceso de resolución de problemas. En este sentido, la computación granular se utiliza como un término general para cubrir temas que se han estudiado en varios campos de forma aislada. Al examinar todos estos estudios existentes a la luz del marco unificado de la computación granular y extraer sus puntos en común, puede ser posible desarrollar una teoría general para la resolución de problemas.

En un sentido más filosófico, la computación granular puede describir una forma de pensar que se basa en la capacidad humana de percibir el mundo real bajo varios niveles de granularidad (es decir, abstracción) para abstraer y considerar solo aquellas cosas que sirven a un interés específico y cambiar entre diferentes granularidades. Al centrarse en diferentes niveles de granularidad, se pueden obtener diferentes niveles de conocimiento, así como una mayor comprensión de la estructura inherente del conocimiento. La computación granular es, por lo tanto, esencial para la resolución de problemas humanos y, por lo tanto, tiene un impacto muy significativo en el diseño y la implementación de sistemas inteligentes.

Véase también

Referencias

An, Aijun; Cercone, Nick (1999), "Discretización de atributos continuos para el aprendizaje de reglas de clasificación", en Ning Zhong; Lizhu Zhou (eds.), Metodologías para el descubrimiento de conocimientos y la minería de datos: Actas de la Tercera Conferencia Pacífico-Asia, PAKDD-99 , Lecture Notes in Computer Science, vol. 1574, Beijing, China , págs. 509–514, doi :10.1007/3-540-48912-6_69, ISBN 978-3-540-65866-5{{citation}}: CS1 maint: location missing publisher (link).
Bargiela, A. y Pedrycz, W. (2003) Computación granular. Una introducción , Kluwer Academic Publishers
Bay, Stephen D. (2001), "Discretización multivariada para minería de conjuntos", Knowledge and Information Systems , 3 (4): 491–512, CiteSeerX 10.1.1.217.921 , doi :10.1007/PL00011680, S2CID 10945544.
Catlett, J. (1991), "Sobre el cambio de atributos continuos a atributos discretos ordenados", en Y. Kodratoff (ed.), Machine Learning—EWSL-91: European Working Session on Learning , Oporto, Portugal , pp. 164–178, ISBN 9780387538167{{citation}}: CS1 maint: location missing publisher (link).
Chiu, David KY; Cheung, Benny (1989), "Discretización jerárquica de máxima entropía", en Ryszard Janicki; Waldemar W. Koczkodaj (eds.), Computing and Information: Proceedings of the International Conference on Computing and Information (ICCI '89) , Toronto, Ontario , Canadá: North-Holland, págs. 237–242.
Chiu, David KY; Cheung, Benny; Wong, Andrew KC (1990), "Síntesis de información basada en discretización de entropía máxima jerárquica", Journal of Experimental and Theoretical Artificial Intelligence , 2 (2): 117–129, doi :10.1080/09528139008953718.
Chiu, David KY; Wong, Andrew KC; Cheung, Benny (1991), "Descubrimiento de información a través de la discretización y síntesis de entropía máxima jerárquica", en Gregory Piatetsky-Shapiro; William J. Frawley (eds.), Descubrimiento de conocimiento en bases de datos , Cambridge, MA : MIT Press, págs. 126-140.
Chmielewski, Michal R.; Grzymala-Busse, Jerzy W. (1996), "Discretización global de atributos continuos como preprocesamiento para el aprendizaje automático" (PDF) , International Journal of Approximate Reasoning , 15 (4): 319–331, doi :10.1016/s0888-613x(96)00074-6.
Dougherty, James; Kohavi, Ron; Sahami, Mehran (1995), "Discretización supervisada y no supervisada de características continuas", en Armand Prieditis; Stuart Russell (eds.), Aprendizaje automático: Actas de la Duodécima Conferencia Internacional (ICML 1995) , Tahoe City, CA : Morgan Kaufmann, págs. 194-202.
Duda, Richard O.; Hart, Peter E.; Stork, David G. (2001), Clasificación de patrones (2.ª ed.), Nueva York : John Wiley & Sons, ISBN 978-0-471-05669-0
Fayyad, Usama M.; Irani, Keki B. (1993), "Discretización multiintervalo de atributos con valores continuos para el aprendizaje de la clasificación", Actas de la Decimotercera Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI-93) , Chambéry, Francia , págs. 1022–1027{{citation}}: CS1 maint: location missing publisher (link).
Grzymala-Busse, Jerzy W.; Stefanowski, Jerzy (2001), "Tres métodos de discretización para la inducción de reglas", International Journal of Intelligent Systems , 16 (1): 29–38, CiteSeerX 10.1.1.330.2975 , doi :10.1002/1098-111X(200101)16:1<29::AID-INT4>3.0.CO;2-0.
Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2001), Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción , Nueva York : Springer, ISBN 978-0-387-84857-0
Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003), Agrupamiento jerárquico basado en información mutua , arXiv : q-bio/0311039 , Bibcode :2003q.bio....11039K.
Lee, Changhwan; Shin, Dong-Guk (1994), "Una discretización sensible al contexto de atributos numéricos para el aprendizaje de clasificación", en AG Cohn (ed.), Actas de la 11.ª Conferencia Europea sobre Inteligencia Artificial (ECAI 94) , NL , págs. 428–432{{citation}}: CS1 maint: location missing publisher (link).
Liu, Chao-Lin; Wellman, Michael (2002), "Evaluación de redes bayesianas con métodos de abstracción de espacio de estados flexibles", International Journal of Approximate Reasoning , 30 (1): 1–39, CiteSeerX 10.1.1.127.7040 , doi :10.1016/S0888-613X(01)00067-6, S2CID 17529419.
Liu, Chao-Lin; Wellman, Michael (2004), "Delimitación de relaciones probabilísticas en redes bayesianas utilizando influencias cualitativas: métodos y aplicaciones", International Journal of Approximate Reasoning , 36 (1): 31–73, doi :10.1016/j.ijar.2003.06.002.
Liu, Huan; Hussain, Farhad; Tan, Chew Lim; Dasii, Manoranjan (2002), "Discretización: una técnica facilitadora", Minería de datos y descubrimiento de conocimiento , 6 (4): 393–423, doi :10.1023/A:1016304305535, S2CID 207609303.
Ludl, Marcus-Christopher; Widmer, Gerhard (2000), "Discretización relativa no supervisada para la minería de reglas de asociación", en Djamel A. Zighed; Jan Komorowski; Jan Zytkow (eds.), Actas de la 4.ª Conferencia Europea sobre Principios de Minería de Datos y Descubrimiento de Conocimiento (PKDD 2000) , Lecture Notes in Computer Science, vol. 1910, Lyon, Francia , págs. 148–158, doi : 10.1007/3-540-45372-5_15 , ISBN 978-3-540-41066-9{{citation}}: CS1 maint: location missing publisher (link).
Monti, Stefano; Cooper, Gregory F. (1999), "Un modelo de variable latente para discretización multivariante", Uncertainty 99: El 7º Taller Internacional sobre Inteligencia Artificial y Estadística , Fort Lauderdale, FL{{citation}}: CS1 maint: location missing publisher (link).
Martino, Alessio; Giuliani, Alessandro; Rizzi, Antonello (2018), "Técnicas de computación granular para problemas de reconocimiento de patrones bioinformáticos en espacios no métricos", en Pedrycz W.; Chen SM. (eds.), Inteligencia computacional para el reconocimiento de patrones , Estudios en inteligencia computacional, vol. 777, Springer International Publishing, págs. 53–81, doi :10.1007/978-3-319-89629-8_3, ISBN 978-3-319-89628-1.
Nguyen, Hung Son; Nguyen, Sinh Hoa (1998), "Métodos de discretización en minería de datos", en Lech Polkowski; Andrzej Skowron (eds.), Conjuntos aproximados en el descubrimiento de conocimiento 1: metodología y aplicaciones , Heidelberg : Physica-Verlag, págs. 451–482.
Pfahringer, Bernhard (1995), "Discretización basada en compresión de atributos continuos", en Armand Prieditis; Stuart Russell (eds.), Machine Learning: Proceedings of the Twelfth International Conference (ICML 1995) , Tahoe City, CA : Morgan Kaufmann, págs. 456–463.
Rencher, Alvin C. (2002), Métodos de análisis multivariante , Nueva York : Wiley.
Simon, Herbert A.; Ando, Albert (1963), "Agregación de variables en sistemas dinámicos", en Albert Ando; Franklin M. Fisher; Herbert A. Simon (eds.), Ensayos sobre la estructura de los modelos de las ciencias sociales , Cambridge, MA: MIT Press, págs. 64–91
Simon, Herbert A. (1996), "La arquitectura de la complejidad: sistemas jerárquicos", en Herbert A. Simon (ed.), The Sciences of the Artificial (2.ª ed.), Cambridge, MA: MIT Press, págs. 183-216
Slezak, Dominik; Synak, Piotr; Wojna, Arkadiusz; Wroblewski, Jakub (2013), "Dos interpretaciones de aproximaciones aproximadas relacionadas con bases de datos: organización de datos y ejecución de consultas", Fundamenta Informaticae , 127 (1–4): 445–459, doi :10.3233/FI-2013-920.
Ting, Kai Ming (1994), Discretización de atributos de valor continuo y aprendizaje basado en instancias (Informe técnico n.º 491), Sydney : Departamento de Ciencias de la Computación Basser.
Wang, Ke; Liu, Bing (1998), "Discretización concurrente de múltiples atributos", en Springer (ed.), Actas de la 5.ª Conferencia Internacional de la Cuenca del Pacífico sobre Inteligencia Artificial , Londres : Springer-Verlag, págs. 250-259.
Watanabe, Satosi (1960), "Análisis teórico de la información de la correlación multivariante", IBM Journal of Research and Development , 4 (1): 66–82, doi :10.1147/rd.41.0066.
Watanabe, Satosi (1969), Conocer y adivinar: un estudio cuantitativo de la inferencia y la información , Nueva York : Wiley.
Witten, Ian H.; Frank, Eibe (2005), Minería de datos: herramientas y técnicas prácticas de aprendizaje automático (2.ª ed.), Ámsterdam : Morgan Kaufmann, archivado desde el original el 27 de noviembre de 2020 , consultado el 11 de febrero de 2007
Yao, YY (2004) "Un modelo de partición de computación granular", Lecture Notes in Computer Science (próximamente)
Yao, YY (2001). "Sobre el modelado de la minería de datos con computación granular". Actas de la 25.ª Conferencia Anual Internacional de Software y Aplicaciones Informáticas (COMPSAC 2001) . pp. 638–643.
Yao, Yiyu (2006). "Computación granular para minería de datos" (PDF) . En Dasarathy, Belur V. (ed.). Actas de la Conferencia SPIE sobre minería de datos, detección de intrusiones, seguridad de la información y seguridad de redes de datos . Archivado desde el original (PDF) el 18 de abril de 2007.
Yao, JT; Yao, YY (2002). "Inducción de reglas de clasificación mediante computación granular" (PDF) . Actas de la Tercera Conferencia Internacional sobre Conjuntos Aproximados y Tendencias Actuales en Computación (TSCTC'02) . Londres, Reino Unido: Springer-Verlag. pp. 331–338.
Zadeh, LA (1997) "Hacia una teoría de la granulación de información difusa y su centralidad en el razonamiento humano y la lógica difusa" , Fuzzy Sets and Systems , 90:111-127
Zighed, DA; Rabaséda, S.; Rakotomalala, R. (1998), "FUSINTER: Un método para la discretización de atributos continuos", Revista internacional de incertidumbre, imprecisión y sistemas basados en el conocimiento , 6 (3): 307–326, doi :10.1142/s0218488598000264.