Relación de ganancia de información

En el aprendizaje de árboles de decisión , la relación de ganancia de información es una relación entre la ganancia de información y la información intrínseca. Fue propuesta por Ross Quinlan [ ^1] para reducir un sesgo hacia atributos multivaluados al tener en cuenta la cantidad y el tamaño de las ramas al elegir un atributo. ^[2]

La ganancia de información también se conoce como información mutua . ^[3]

La imagen muestra la ganancia de información de una variable llamada "año" y muestra el resultado de elegir un año del 1 al 12. La ganancia de información favorecería a esta variable ya que los resultados serían definitivamente positivos o negativos y también crearían múltiples nodos de hoja; sin embargo, el problema es que ninguno de estos años volverá a ocurrir. La siguiente entrada sería el año 13, pero no hay ninguna rama al año 13 y ese es un problema que se puede resolver con la relación de ganancia de información. La relación de ganancia de información normalizará los datos utilizando el valor de entropía de esa variable para eliminar el sesgo de los datos multivariables y las variables con múltiples nodos en comparación con las variables con un conjunto más pequeño de nodos. Esto eliminaría las probabilidades de que se cree el árbol en la imagen.

Cálculo de la ganancia de información

La ganancia de información es la reducción de la entropía producida al particionar un conjunto con atributos y encontrar el candidato óptimo que produzca el valor más alto: $a$

{\text{IG}}(T,a)=\mathrm {H} {(T)}-\mathrm {H} {(T|a)},

donde es una variable aleatoria y es la entropía de dado el valor del atributo . $T$ $\mathrm {H} {(T|a)}$ $T$ $a$

La ganancia de información es igual a la entropía total de un atributo si para cada uno de los valores del atributo se puede realizar una clasificación única para el atributo resultante. En este caso, las entropías relativas restadas de la entropía total son 0.

Cálculo de información dividida

El valor de información dividida para una prueba se define de la siguiente manera:

${\text{SplitInformation}}(X)=-\sum _{i=1}^{n}{{\frac {\mathrm {N} (x_{i})}{\mathrm {N} (x)}}*\log {_{2}}{\frac {\mathrm {N} (x_{i})}{\mathrm {N} (x)}}}$

donde es una variable aleatoria discreta con valores posibles y es el número de veces que ocurre dividido por el recuento total de eventos, donde es el conjunto de eventos. $X$ ${x_{1},x_{2},...,x_{i}}$ $N(x_{i})$ $x_{i}$ $N(x)$ $x$

El valor de información de división es un número positivo que describe el valor potencial de dividir una rama de un nodo. Este, a su vez, es el valor intrínseco que posee la variable aleatoria y se utilizará para eliminar el sesgo en el cálculo de la relación de ganancia de información.

Cálculo de la relación de ganancia de información

La relación de ganancia de información es la relación entre la ganancia de información y el valor de la información dividida: ${\text{IGR}}(T,a)={\text{IG}}(T,a)/{\text{SplitInformation}}(T)$

${\text{IGR}}(T,a)={\frac {-\sum _{i=1}^{n}{\mathrm {P} (T)\log \mathrm {P} (T)}-(-\sum _{i=1}^{n}{\mathrm {P} (T|a)\log \mathrm {P} (T|a)})}{-\sum _{i=1}^{n}{{\frac {\mathrm {N} (t_{i})}{\mathrm {N} (t)}}*\log {_{2}}{\frac {\mathrm {N} (t_{i})}{\mathrm {N} (t)}}}}}$

Ejemplo

Utilizando datos meteorológicos publicados por la Universidad de Fordham, ^[4] se creó la siguiente tabla:

Utilizando la tabla anterior, se puede encontrar la entropía, la ganancia de información, la información dividida y la relación de ganancia de información para cada variable (perspectiva, temperatura, humedad y viento). Estos cálculos se muestran en las tablas siguientes:

De las tablas anteriores se puede deducir que Outlook tiene la mayor tasa de ganancia de información. A continuación, se deben encontrar las estadísticas de los subgrupos de la variable Outlook (soleado, nublado y lluvioso); para este ejemplo, solo se creará la rama soleada (como se muestra en la tabla siguiente):

Se pueden encontrar las siguientes estadísticas para las otras variables (temperatura, humedad y viento) para ver cuáles tienen el mayor efecto en el elemento soleado de la variable de perspectiva:

Se descubrió que la humedad tiene la mayor tasa de ganancia de información. Se repetirán los mismos pasos que antes y se buscarán las estadísticas de los eventos de la variable Humedad (alta y normal):

Dado que todos los valores de reproducción son "No" o "Sí", el valor de la relación de ganancia de información será igual a 1. Además, ahora que uno ha llegado al final de la cadena de variables con Viento siendo la última variable restante, puede construir una línea de ramificación completa desde el nodo raíz hasta el nodo hoja de un árbol de decisiones.

Una vez que se ha llegado a este nodo de hoja, se sigue el mismo procedimiento para el resto de elementos que aún quedan por dividir en el árbol de decisión. Este conjunto de datos es relativamente pequeño, sin embargo, si se utiliza un conjunto más grande, se pueden apreciar mejor las ventajas de utilizar la tasa de ganancia de información como factor de división de un árbol de decisión.

Ventajas

La relación de ganancia de información sesga el árbol de decisión y evita que se consideren atributos con una gran cantidad de valores distintos.

Por ejemplo, supongamos que estamos construyendo un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La relación de ganancia de información se utiliza para decidir cuáles de los atributos son los más relevantes. Estos se probarán cerca de la raíz del árbol. Uno de los atributos de entrada podría ser el número de teléfono del cliente . Este atributo tiene una alta ganancia de información, porque identifica de forma única a cada cliente. Debido a su gran cantidad de valores distintos, no se elegirá para probarlo cerca de la raíz.

Desventajas

Aunque la relación de ganancia de información resuelve el problema clave de la ganancia de información, crea otro problema. Si se considera una cantidad de atributos que tienen un número elevado de valores distintos, estos nunca serán superiores a los que tienen un número inferior de valores distintos.

Diferencia con la ganancia de información

La deficiencia en la ganancia de información se crea al no proporcionar una diferencia numérica entre los atributos con valores altos y distintos de aquellos que tienen valores menores.
- Ejemplo: supongamos que estamos construyendo un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La ganancia de información se utiliza a menudo para decidir cuáles de los atributos son los más relevantes, de modo que se puedan probar cerca de la raíz del árbol. Uno de los atributos de entrada podría ser el número de tarjeta de crédito del cliente . Este atributo tiene una alta ganancia de información, porque identifica de forma única a cada cliente, pero no queremos incluirlo en el árbol de decisiones: decidir cómo tratar a un cliente en función de su número de tarjeta de crédito es poco probable que se generalice a clientes que no hemos visto antes.
La fortaleza de la relación de ganancia de información es que tiene un sesgo hacia los atributos con el menor número de valores distintos.
A continuación se muestra una tabla que describe las diferencias en la ganancia de información y la relación de ganancia de información cuando se presentan en determinados escenarios.

Véase también

Referencias

^ Quinlan, JR (1986). "Inducción de árboles de decisión". Aprendizaje automático . 1 : 81–106. doi : 10.1007/BF00116251 .
^ http://www.ke.tu-darmstadt.de/lehre/archiv/ws0809/mldm/dt.pdf Archivado el 28 de diciembre de 2014 en Wayback Machine ^{[ URL básica PDF ]}
^ "Obtención de información, información mutua y medidas relacionadas".
^ https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff