Relación de ganancia de información

En el aprendizaje de árboles de decisión , la tasa de ganancia de información es una relación entre la ganancia de información y la información intrínseca. Ross Quinlan ^[1] propuso reducir el sesgo hacia atributos multivalor teniendo en cuenta el número y tamaño de las ramas al elegir un atributo . ^[2]

La ganancia de información también se conoce como información mutua . ^[3]

La imagen muestra la ganancia de información de una variable llamada "año" y muestra el resultado de elegir un año del 1 al 12. Sin embargo, la ganancia de información favorecería esta variable ya que los resultados serían definitivamente positivos o negativos y al mismo tiempo crearían múltiples nodos de hojas. , el problema es que ninguno de estos años volverá a ocurrir. La siguiente entrada sería el año 13, pero no hay ninguna rama al año 13 y ese es un problema que se puede resolver con el índice de ganancia de información. La tasa de ganancia de información normalizará los datos utilizando el valor de entropía de esa variable para eliminar el sesgo de datos multivariables y variables con múltiples nodos en comparación con variables con un conjunto más pequeño de nodos. Esto eliminaría las probabilidades de que se cree el árbol en la imagen.

Cálculo de ganancia de información

La ganancia de información es la reducción de entropía producida al dividir un conjunto con atributos y encontrar el candidato óptimo que produzca el valor más alto: $a$

{\text{IG}}(T,a)=\mathrm {H} {(T)}-\mathrm {H} {(T|a)},

donde es una variable aleatoria y es la entropía de dado el valor del atributo . $T$ $\mathrm {H} {(T|a)}$ $T$ $a$

La ganancia de información es igual a la entropía total de un atributo si para cada uno de los valores del atributo se puede realizar una clasificación única para el atributo de resultado. En este caso las entropías relativas restadas de la entropía total son 0.

Cálculo de información dividida

El valor de información dividida para una prueba se define de la siguiente manera:

${\text{SplitInformation}}(X)=-\sum _{i=1}^{n}{{\frac {\mathrm {N} (x_{i})}{\mathrm {N} (x)}}*\log {_{2}}{\frac {\mathrm {N} (x_{i})}{\mathrm {N} (x)}}}$

donde es una variable aleatoria discreta con valores posibles y siendo el número de veces que ocurre dividido por el recuento total de eventos donde es el conjunto de eventos. $X$ ${x_{1},x_{2},...,x_{i}}$ $N(x_{i})$ $x_{i}$ $N(x)$ $x$

El valor de la información dividida es un número positivo que describe el valor potencial de dividir una rama de un nodo. Este, a su vez, es el valor intrínseco que posee la variable aleatoria y se utilizará para eliminar el sesgo en el cálculo del índice de ganancia de información.

Cálculo del índice de ganancia de información

La relación de ganancia de información es la relación entre la ganancia de información y el valor de información dividida: ${\text{IGR}}(T,a)={\text{IG}}(T,a)/{\text{SplitInformation}}(T)$

${\text{IGR}}(T,a)={\frac {-\sum _{i=1}^{n}{\mathrm {P} (T)\log \mathrm {P} (T)}-(-\sum _{i=1}^{n}{\mathrm {P} (T|a)\log \mathrm {P} (T|a)})}{-\sum _{i=1}^{n}{{\frac {\mathrm {N} (t_{i})}{\mathrm {N} (t)}}*\log {_{2}}{\frac {\mathrm {N} (t_{i})}{\mathrm {N} (t)}}}}}$

Ejemplo

Utilizando datos meteorológicos publicados por la Universidad de Fordham, ^[4] se creó la siguiente tabla:

Usando la tabla anterior, se puede encontrar la entropía, la ganancia de información, la información dividida y la relación de ganancia de información para cada variable (perspectiva, temperatura, humedad y viento). Estos cálculos se muestran en las tablas siguientes:

Utilizando las tablas anteriores, se puede deducir que Outlook tiene el índice de ganancia de información más alto. A continuación, se deben encontrar las estadísticas para los subgrupos de la variable Outlook (soleado, nublado y lluvioso), para este ejemplo solo construiremos la rama soleada (como se muestra en la siguiente tabla):

Se pueden encontrar las siguientes estadísticas para las otras variables (temperatura, humedad y viento) para ver cuáles tienen el mayor efecto sobre el elemento soleado de la variable de perspectiva:

Se descubrió que la humedad tiene el índice de ganancia de información más alto. Se repetirán los mismos pasos que antes y se encontrarán las estadísticas de los eventos de la variable Humedad (alta y normal):

Dado que todos los valores de juego son "No" o "Sí", el valor de la relación de ganancia de información será igual a 1. Además, ahora que uno ha llegado al final de la cadena de variables con Viento como la última variable restante, pueden construir una línea completa de rama del nodo raíz al nodo hoja de un árbol de decisión.

Una vez que se termina de llegar a este nodo hoja, se seguiría el mismo procedimiento para el resto de los elementos que aún no se han dividido en el árbol de decisión. Este conjunto de datos era relativamente pequeño; sin embargo, si se utiliza un conjunto más grande, se pueden ver más las ventajas de utilizar el índice de ganancia de información como factor de división de un árbol de decisión.

Ventajas

La relación de ganancia de información predispone al árbol de decisión a considerar atributos con una gran cantidad de valores distintos.

Por ejemplo, supongamos que estamos creando un árbol de decisiones para algunos datos que describen a los clientes de una empresa. El índice de ganancia de información se utiliza para decidir cuáles de los atributos son los más relevantes. Estos se probarán cerca de la raíz del árbol. Uno de los atributos de entrada podría ser el número de teléfono del cliente . Este atributo tiene una alta ganancia de información, porque identifica de forma única a cada cliente. Debido a su gran cantidad de valores distintos, no se elegirá para probarlo cerca de la raíz.

Desventajas

Aunque el ratio de ganancia de información resuelve el problema clave de la ganancia de información, crea otro problema. Si se considera una cantidad de atributos que tienen un número elevado de valores distintos, estos nunca estarán por encima de uno que tenga un número menor de valores distintos.

Diferencia con la ganancia de información.

La deficiencia de la ganancia de información se crea al no proporcionar una diferencia numérica entre los atributos con valores altos y distintos de aquellos que tienen menos.
- Ejemplo: supongamos que estamos creando un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La obtención de información se utiliza a menudo para decidir cuáles de los atributos son los más relevantes, de modo que puedan probarse cerca de la raíz del árbol. Uno de los atributos de entrada podría ser el número de tarjeta de crédito del cliente . Este atributo tiene una gran ganancia de información, porque identifica de forma única a cada cliente, pero no queremos incluirlo en el árbol de decisiones: es poco probable que decidir cómo tratar a un cliente en función de su número de tarjeta de crédito se generalice a clientes que no conocemos. visto antes.
La fortaleza del índice de ganancia de información es que tiene un sesgo hacia los atributos con el menor número de valores distintos.
A continuación se muestra una tabla que describe las diferencias entre la ganancia de información y la tasa de ganancia de información cuando se presentan en ciertos escenarios.

Ver también

Referencias

^ Quinlan, J. Ross. "Inducción de árboles de decisión". Aprendizaje automático 1.1 (1986): 81-106.
^ http://www.ke.tu-darmstadt.de/lehre/archiv/ws0809/mldm/dt.pdf ^{[ URL básica PDF ]}
^ "Obtención de información, información mutua y medidas relacionadas".
^ https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff