stringtranslate.com

Computación granular

La computación granular es un paradigma emergente de procesamiento de información que se ocupa del procesamiento de entidades de información complejas llamadas " gránulos de información ", que surgen en el proceso de abstracción de datos y derivación de conocimiento a partir de información o datos. En términos generales, los gránulos de información son conjuntos de entidades que generalmente se originan en el nivel numérico y se organizan juntas debido a su similitud , adyacencia funcional o física, indistinguibilidad, coherencia o similares.

En la actualidad, la computación granular es más una perspectiva teórica que un conjunto coherente de métodos o principios. Como perspectiva teórica, promueve un enfoque de los datos que reconoce y explota el conocimiento presente en los datos en varios niveles de resolución o escalas. En este sentido, abarca todos los métodos que brindan flexibilidad y adaptabilidad en la resolución en la que se extrae y representa el conocimiento o la información.

Tipos de granulación

Vista satelital del ciclón.
Vista satelital de Manhattan.

Como se mencionó anteriormente, la computación granular no es un algoritmo o proceso; no existe un método particular que se denomine "computación granular". Es más bien un enfoque para observar los datos que reconoce cómo pueden aparecer regularidades diferentes e interesantes en los datos en diferentes niveles de granularidad, de manera similar a cómo diferentes características se vuelven prominentes en imágenes satelitales de mayor o menor resolución. En una imagen satelital de baja resolución, por ejemplo, uno podría notar patrones de nubes interesantes que representan ciclones u otros fenómenos meteorológicos a gran escala, mientras que en una imagen de mayor resolución, uno no ve estos fenómenos atmosféricos a gran escala, pero en cambio nota fenómenos de menor escala, como el patrón interesante que son las calles de Manhattan . Lo mismo ocurre generalmente con todos los datos: en diferentes resoluciones o granularidades, surgen diferentes características y relaciones. El objetivo de la computación granular es tratar de aprovechar este hecho para diseñar sistemas de aprendizaje automático y razonamiento más efectivos.

Hay varios tipos de granularidad que se encuentran a menudo en la minería de datos y el aprendizaje automático , y los revisamos a continuación:

Granulación de valores (discretización/cuantificación)

Un tipo de granulación es la cuantificación de variables. Es muy común que en aplicaciones de minería de datos o de aprendizaje automático sea necesario reducir la resolución de las variables para extraer regularidades significativas. Un ejemplo de esto sería una variable como "temperatura exterior" ( temp ), que en una aplicación determinada podría registrarse con varios decimales de precisión (según el aparato de detección). Sin embargo, para extraer relaciones entre "temperatura exterior" y, por ejemplo, "número de aplicaciones del gimnasio" ( club ), generalmente será ventajoso cuantificar "temperatura exterior" en un número menor de intervalos.

Motivaciones

Hay varias razones interrelacionadas para granular las variables de esta manera:

Beneficios de la granulación de valor: aquí existen implicaciones en la resolución de que no existen en la resolución más alta de en particular, mientras que al mismo tiempo,

Por ejemplo, un sistema de aprendizaje o de reconocimiento de patrones simple puede intentar extraer regularidades que satisfagan un umbral de probabilidad condicional , como en el caso especial en el que este sistema de reconocimiento está detectando esencialmente una implicación lógica de la forma o, en otras palabras, "si entonces ". La capacidad del sistema para reconocer tales implicaciones (o, en general, probabilidades condicionales que exceden el umbral) depende parcialmente de la resolución con la que el sistema analiza las variables.

Como ejemplo de este último punto, considere el espacio de características que se muestra a la derecha. Cada una de las variables puede considerarse en dos resoluciones diferentes. La variable puede considerarse en una resolución alta (cuaternaria) en la que toma los cuatro valores o en una resolución más baja (binaria) en la que toma los dos valores. De manera similar, la variable puede considerarse en una resolución alta (cuaternaria) o en una resolución más baja (binaria), donde toma los valores o respectivamente. En la resolución alta, no hay implicaciones detectables de la forma ya que cada está asociado con más de uno y, por lo tanto, para todos. Sin embargo, en la resolución baja (binaria) de la variable, se vuelven detectables dos implicaciones bilaterales: y , ya que cada ocurre si y solo si y ocurre si y solo si. Por lo tanto, un sistema de reconocimiento de patrones que busque implicaciones de este tipo las encontraría en la resolución de la variable binaria, pero no las encontraría en la resolución de la variable cuaternaria más alta.

Cuestiones y métodos

No es posible probar exhaustivamente todas las posibles resoluciones de discretización en todas las variables para ver qué combinación de resoluciones produce resultados interesantes o significativos. En lugar de ello, el espacio de características debe ser preprocesado (a menudo mediante un análisis de entropía de algún tipo) para que se pueda dar alguna orientación sobre cómo debe proceder el proceso de discretización. Además, por lo general no se pueden lograr buenos resultados analizando y discretizando ingenuamente cada variable de forma independiente, ya que esto puede anular las mismas interacciones que esperábamos descubrir.

Una muestra de artículos que abordan el problema de la discretización de variables en general, y de la discretización de múltiples variables en particular, es el siguiente: Chiu, Wong y Cheung (1991), Bay (2001), Liu et al. (2002), Wang y Liu (1998), Zighed, Rabaséda y Rakotomalala (1998), Catlett (1991), Dougherty, Kohavi y Sahami (1995), Monti y Cooper (1999), Fayyad e Irani (1993), Chiu, Cheung y Wong (1990), Nguyen y Nguyen (1998), Grzymala-Busse y Stefan owski (2001), Ting (1994), Ludl & Widmer (2000), Pfahringer (1995), An & Cercone (1999), Chiu & Cheung (1989), Chmielewski & Grzymala-Busse (1996), Lee & Shin (1994), Liu & Wellman (2002), Liu & Wellman (2004).

Granulación variable (agrupamiento/agregación/transformación)

La granulación variable es un término que podría describir una variedad de técnicas, la mayoría de las cuales tienen como objetivo reducir la dimensionalidad, la redundancia y los requisitos de almacenamiento. Aquí describimos brevemente algunas de las ideas y presentamos sugerencias sobre la literatura.

Transformación variable

Una serie de métodos clásicos, como el análisis de componentes principales , el escalamiento multidimensional , el análisis factorial y el modelado de ecuaciones estructurales , y sus parientes, caen bajo el género de "transformación de variables". También en esta categoría hay áreas de estudio más modernas como la reducción de dimensionalidad , la búsqueda de proyecciones y el análisis de componentes independientes . El objetivo común de estos métodos en general es encontrar una representación de los datos en términos de nuevas variables, que son una transformación lineal o no lineal de las variables originales, y en las que surgen relaciones estadísticas importantes. Los conjuntos de variables resultantes son casi siempre más pequeños que el conjunto de variables original y, por lo tanto, se puede decir vagamente que estos métodos imponen una granulación en el espacio de características. Todos estos métodos de reducción de dimensionalidad se revisan en los textos estándar, como Duda, Hart y Stork (2001), Witten y Frank (2005) y Hastie, Tibshirani y Friedman (2001).

Agregación variable

Una clase diferente de métodos de granulación de variables se deriva más de las metodologías de agrupamiento de datos que de la teoría de sistemas lineales que informa los métodos anteriores. Se observó bastante pronto que se puede considerar la "agrupación" de variables relacionadas de la misma manera que se considera la agrupación de datos relacionados. En la agrupación de datos, se identifica un grupo de entidades similares (utilizando una " medida de similitud " adecuada al dominio - Martino, Giuliani y Rizzi (2018)), y luego, en cierto sentido, se reemplazan esas entidades con un prototipo de algún tipo. El prototipo puede ser el promedio simple de los datos en el grupo identificado, o alguna otra medida representativa. Pero la idea clave es que en operaciones posteriores, podemos ser capaces de utilizar el prototipo único para el grupo de datos (junto con quizás un modelo estadístico que describa cómo se derivan los ejemplares del prototipo) para reemplazar al conjunto mucho más grande de ejemplares. Estos prototipos son generalmente tales que capturan la mayor parte de la información de interés sobre las entidades.

Un árbol de aglomeración de variables de Watanabe-Kraskov. Las variables se aglomeran (o "unitizan") de abajo hacia arriba, y cada nodo de fusión representa una variable (construida) que tiene una entropía igual a la entropía conjunta de las variables aglomerantes. Por lo tanto, la aglomeración de dos variables m -arias que tienen entropías individuales produce una única variable m 2 -aria con entropía Cuando son altamente dependientes (es decir, redundantes) y tienen una gran cantidad de información mutua , entonces porque y esto se consideraría una unificación o agregación parsimoniosa.

De manera similar, es razonable preguntarse si un conjunto grande de variables podría ser agregado en un conjunto más pequeño de variables prototipo que capturen las relaciones más salientes entre las variables. Aunque se han propuesto métodos de agrupamiento de variables basados ​​en la correlación lineal (Duda, Hart y Stork 2001; Rencher 2002), métodos más poderosos de agrupamiento de variables se basan en la información mutua entre variables. Watanabe ha demostrado (Watanabe 1960; Watanabe 1969) que para cualquier conjunto de variables se puede construir un árbol politómico (es decir, n-ario) que representa una serie de aglomeraciones de variables en las que la correlación "total" última entre el conjunto completo de variables es la suma de las correlaciones "parciales" exhibidas por cada subconjunto aglomerado (véase la figura). Watanabe sugiere que un observador podría tratar de dividir un sistema de tal manera que minimice la interdependencia entre las partes "... como si estuviera buscando una división natural o una grieta oculta".

Un enfoque práctico para construir un árbol de este tipo es elegir sucesivamente para la aglomeración las dos variables (ya sean variables atómicas o variables aglomeradas previamente) que tengan la mayor información mutua por pares (Kraskov et al. 2003). El producto de cada aglomeración es una nueva variable (construida) que refleja la distribución conjunta local de las dos variables aglomerantes y, por lo tanto, posee una entropía igual a su entropía conjunta . Desde un punto de vista procedimental, este paso de aglomeración implica reemplazar dos columnas en la tabla de atributos-valores (que representan las dos variables aglomerantes) con una sola columna que tiene un valor único para cada combinación única de valores en las columnas reemplazadas (Kraskov et al. 2003). No se pierde información con esta operación; sin embargo, si uno está explorando los datos en busca de relaciones entre variables, generalmente no sería deseable fusionar variables redundantes de esta manera, ya que en tal contexto es probable que sea precisamente la redundancia o dependencia entre variables lo que interese; y una vez que se fusionan las variables redundantes, su relación entre sí ya no se puede estudiar.

Granulación del sistema (agregación)

En los sistemas de bases de datos , las agregaciones (ver, por ejemplo, agregación OLAP y sistemas de inteligencia empresarial ) dan como resultado la transformación de las tablas de datos originales (a menudo llamadas sistemas de información) en tablas con diferentes semánticas de filas y columnas, donde las filas corresponden a los grupos (gránulos) de tuplas originales y las columnas expresan información agregada sobre los valores originales dentro de cada uno de los grupos. Dichas agregaciones generalmente se basan en SQL y sus extensiones. Los gránulos resultantes generalmente corresponden a los grupos de tuplas originales con los mismos valores (o rangos) en algunas columnas originales preseleccionadas.

También existen otros enfoques en los que los grupos se definen basándose, por ejemplo, en la adyacencia física de las filas. Por ejemplo, Infobright implementó un motor de base de datos en el que los datos se dividían en filas aproximadas , cada una de las cuales constaba de 64 000 filas físicamente consecutivas (o casi consecutivas). Las filas aproximadas se etiquetaban automáticamente con información compacta sobre sus valores en las columnas de datos, lo que a menudo implicaba relaciones entre varias columnas y varias tablas. Esto dio como resultado una capa superior de información granulada en la que los objetos correspondían a las filas aproximadas y los atributos a varios aspectos de la información aproximada. Las operaciones de base de datos podrían respaldarse de manera eficiente dentro de un nuevo marco de trabajo de este tipo, con un acceso a las piezas de datos originales aún disponibles (Slezak et al. 2013).

Granulación de conceptos (análisis de componentes)

Los orígenes de la ideología de la computación granular se encuentran en la literatura sobre conjuntos aproximados y conjuntos difusos . Una de las ideas clave de la investigación sobre conjuntos aproximados (aunque de ninguna manera es exclusiva de ella) es que, en general, la selección de diferentes conjuntos de características o variables producirá diferentes granulaciones de conceptos . Aquí, como en la teoría elemental de conjuntos aproximados, por "concepto" nos referimos a un conjunto de entidades que son indistinguibles o indiscernibles para el observador (es decir, un concepto simple), o un conjunto de entidades que se compone de esos conceptos simples (es decir, un concepto complejo). Para decirlo en otras palabras, al proyectar un conjunto de datos ( sistema de valor-atributo ) sobre diferentes conjuntos de variables, reconocemos conjuntos alternativos de "conceptos" de clase de equivalencia en los datos, y estos diferentes conjuntos de conceptos en general serán propicios para la extracción de diferentes relaciones y regularidades.

Granulación de clase de equivalencia

Lo ilustraremos con un ejemplo. Consideremos el sistema atributo-valor que se muestra a continuación:

Cuando se considera el conjunto completo de atributos , vemos que tenemos las siguientes siete clases de equivalencia o conceptos primitivos (simples):

De este modo, los dos objetos de la primera clase de equivalencia no se pueden distinguir entre sí en función de los atributos disponibles, y los tres objetos de la segunda clase de equivalencia no se pueden distinguir entre sí en función de los atributos disponibles. Los cinco objetos restantes se pueden distinguir de todos los demás objetos. Ahora, imaginemos una proyección del sistema de valores de los atributos sobre un solo atributo, que representaría, por ejemplo, la visión de un observador que solo es capaz de detectar este único atributo. Entonces obtenemos la siguiente estructura de clases de equivalencia mucho más burda.

En cierto sentido, se trata de la misma estructura que antes, pero con un grado de resolución menor (tamaño de grano mayor). Al igual que en el caso de la granulación de valores (discretización/cuantización), es posible que surjan relaciones (dependencias) en un nivel de granularidad que no estén presentes en otro. Como ejemplo de esto, podemos considerar el efecto de la granulación de conceptos en la medida conocida como dependencia de atributos (un pariente más simple de la información mutua ).

Para establecer esta noción de dependencia (ver también conjuntos aproximados ), representemos una granulación de concepto particular, donde cada uno es una clase de equivalencia de la estructura de concepto inducida por el conjunto de atributos Q. Por ejemplo, si el conjunto de atributos Q consiste solo en atributos , como se indicó anteriormente, entonces la estructura de concepto estará compuesta por

La dependencia del conjunto de atributos Q de otro conjunto de atributos P , viene dada por

Es decir, para cada clase de equivalencia en sumamos el tamaño de su "aproximación inferior" (ver conjuntos aproximados ) por los atributos en P , es decir, Más simplemente, esta aproximación es el número de objetos que en el conjunto de atributos P pueden identificarse positivamente como pertenecientes al conjunto objetivo Sumado a través de todas las clases de equivalencia en el numerador anterior representa el número total de objetos que, con base en el conjunto de atributos P , pueden categorizarse positivamente de acuerdo con la clasificación inducida por los atributos Q. Por lo tanto, la relación de dependencia expresa la proporción (dentro de todo el universo) de tales objetos clasificables, capturando en cierto sentido la "sincronización" de las dos estructuras de concepto y La dependencia "puede interpretarse como una proporción de tales objetos en el sistema de información para el cual es suficiente conocer los valores de los atributos en P para determinar los valores de los atributos en Q " (Ziarko y Shan 1995).

Ahora que ya hemos dejado de lado las definiciones, podemos hacer la simple observación de que la elección de la granularidad del concepto (es decir, la elección de los atributos) influirá en las dependencias detectadas entre los atributos. Consideremos nuevamente la tabla de valores de los atributos anterior:

Consideremos la dependencia del conjunto de atributos del conjunto de atributos. Es decir, deseamos saber qué proporción de objetos se pueden clasificar correctamente en clases de con base en el conocimiento de Las clases de equivalencia de y de se muestran a continuación.

Los objetos que se pueden categorizar definitivamente según la estructura del concepto en base a son aquellos en el conjunto y dado que hay seis de estos, la dependencia de Q en P , Esto podría considerarse una dependencia interesante en sí misma, pero tal vez en una aplicación particular de minería de datos solo se deseen dependencias más fuertes.

Podríamos entonces considerar la dependencia del conjunto de atributos más pequeño en el conjunto de atributos El paso de a induce un engrosamiento de la estructura de clases como se verá en breve. Deseamos saber nuevamente qué proporción de objetos se pueden clasificar correctamente en las clases (ahora más grandes) de con base en el conocimiento de Las clases de equivalencia de los nuevos y de se muestran a continuación.

Claramente, tiene una granularidad más gruesa que antes. Los objetos que ahora se pueden categorizar definitivamente según la estructura del concepto basada en constituyen el universo completo y, por lo tanto, la dependencia de Q en P , Es decir, el conocimiento de la pertenencia según el conjunto de categorías es adecuado para determinar la pertenencia a la categoría en con total certeza; En este caso, podríamos decir que Por lo tanto, al hacer más gruesa la estructura del concepto, pudimos encontrar una dependencia (determinista) más fuerte. Sin embargo, también notamos que las clases inducidas en a partir de la reducción en la resolución necesaria para obtener esta dependencia determinista ahora son grandes y pocas en número; como resultado, la dependencia que encontramos, aunque fuerte, puede ser menos valiosa para nosotros que la dependencia más débil encontrada anteriormente bajo la vista de mayor resolución de

En general, no es posible probar todos los conjuntos de atributos para ver qué estructuras conceptuales inducidas producen las dependencias más fuertes, y por lo tanto, esta búsqueda debe guiarse con cierta inteligencia. Los artículos que tratan este tema y otros relacionados con el uso inteligente de la granulación son los de YY Yao y Lotfi Zadeh que se enumeran en las referencias a continuación.

Granulación de componentes

Otra perspectiva sobre la granulación de conceptos se puede obtener del trabajo sobre modelos paramétricos de categorías. En el aprendizaje de modelos mixtos , por ejemplo, un conjunto de datos se explica como una mezcla de distintas distribuciones gaussianas (u otras). Por lo tanto, una gran cantidad de datos se "reemplaza" por un pequeño número de distribuciones. La elección del número de estas distribuciones, y su tamaño, puede verse nuevamente como un problema de granulación de conceptos . En general, se obtiene un mejor ajuste a los datos con un mayor número de distribuciones o parámetros, pero para extraer patrones significativos, es necesario restringir el número de distribuciones, lo que deliberadamente hace más burda la resolución del concepto. Encontrar la resolución de concepto "correcta" es un problema complicado para el que se han propuesto muchos métodos (por ejemplo, AIC , BIC , MDL , etc.), y estos se consideran con frecuencia bajo la rúbrica de " regularización de modelos ".

Diferentes interpretaciones de la computación granular

La computación granular puede concebirse como un marco de teorías, metodologías, técnicas y herramientas que hacen uso de gránulos de información en el proceso de resolución de problemas. En este sentido, la computación granular se utiliza como un término general para cubrir temas que se han estudiado en varios campos de forma aislada. Al examinar todos estos estudios existentes a la luz del marco unificado de la computación granular y extraer sus puntos en común, puede ser posible desarrollar una teoría general para la resolución de problemas.

En un sentido más filosófico, la computación granular puede describir una forma de pensar que se basa en la capacidad humana de percibir el mundo real bajo varios niveles de granularidad (es decir, abstracción) para abstraer y considerar solo aquellas cosas que sirven a un interés específico y cambiar entre diferentes granularidades. Al centrarse en diferentes niveles de granularidad, se pueden obtener diferentes niveles de conocimiento, así como una mayor comprensión de la estructura inherente del conocimiento. La computación granular es, por lo tanto, esencial para la resolución de problemas humanos y, por lo tanto, tiene un impacto muy significativo en el diseño y la implementación de sistemas inteligentes.

Véase también

Referencias