En el aprendizaje de árboles de decisión , la relación de ganancia de información es una relación entre la ganancia de información y la información intrínseca. Fue propuesta por Ross Quinlan [ 1] para reducir un sesgo hacia atributos multivaluados al tener en cuenta la cantidad y el tamaño de las ramas al elegir un atributo. [2]
La ganancia de información también se conoce como información mutua . [3]
La ganancia de información es la reducción de la entropía producida al particionar un conjunto con atributos y encontrar el candidato óptimo que produzca el valor más alto:
donde es una variable aleatoria y es la entropía de dado el valor del atributo .
La ganancia de información es igual a la entropía total de un atributo si para cada uno de los valores del atributo se puede realizar una clasificación única para el atributo resultante. En este caso, las entropías relativas restadas de la entropía total son 0.
El valor de información dividida para una prueba se define de la siguiente manera:
donde es una variable aleatoria discreta con valores posibles y es el número de veces que ocurre dividido por el recuento total de eventos, donde es el conjunto de eventos.
El valor de información de división es un número positivo que describe el valor potencial de dividir una rama de un nodo. Este, a su vez, es el valor intrínseco que posee la variable aleatoria y se utilizará para eliminar el sesgo en el cálculo de la relación de ganancia de información.
La relación de ganancia de información es la relación entre la ganancia de información y el valor de la información dividida:
Utilizando datos meteorológicos publicados por la Universidad de Fordham, [4] se creó la siguiente tabla:
Utilizando la tabla anterior, se puede encontrar la entropía, la ganancia de información, la información dividida y la relación de ganancia de información para cada variable (perspectiva, temperatura, humedad y viento). Estos cálculos se muestran en las tablas siguientes:
De las tablas anteriores se puede deducir que Outlook tiene la mayor tasa de ganancia de información. A continuación, se deben encontrar las estadísticas de los subgrupos de la variable Outlook (soleado, nublado y lluvioso); para este ejemplo, solo se creará la rama soleada (como se muestra en la tabla siguiente):
Se pueden encontrar las siguientes estadísticas para las otras variables (temperatura, humedad y viento) para ver cuáles tienen el mayor efecto en el elemento soleado de la variable de perspectiva:
Se descubrió que la humedad tiene la mayor tasa de ganancia de información. Se repetirán los mismos pasos que antes y se buscarán las estadísticas de los eventos de la variable Humedad (alta y normal):
Dado que todos los valores de reproducción son "No" o "Sí", el valor de la relación de ganancia de información será igual a 1. Además, ahora que uno ha llegado al final de la cadena de variables con Viento siendo la última variable restante, puede construir una línea de ramificación completa desde el nodo raíz hasta el nodo hoja de un árbol de decisiones.
Una vez que se ha llegado a este nodo de hoja, se sigue el mismo procedimiento para el resto de elementos que aún quedan por dividir en el árbol de decisión. Este conjunto de datos es relativamente pequeño, sin embargo, si se utiliza un conjunto más grande, se pueden apreciar mejor las ventajas de utilizar la tasa de ganancia de información como factor de división de un árbol de decisión.
La relación de ganancia de información sesga el árbol de decisión y evita que se consideren atributos con una gran cantidad de valores distintos.
Por ejemplo, supongamos que estamos construyendo un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La relación de ganancia de información se utiliza para decidir cuáles de los atributos son los más relevantes. Estos se probarán cerca de la raíz del árbol. Uno de los atributos de entrada podría ser el número de teléfono del cliente . Este atributo tiene una alta ganancia de información, porque identifica de forma única a cada cliente. Debido a su gran cantidad de valores distintos, no se elegirá para probarlo cerca de la raíz.
Aunque la relación de ganancia de información resuelve el problema clave de la ganancia de información, crea otro problema. Si se considera una cantidad de atributos que tienen una gran cantidad de valores distintos, estos nunca serán superiores a los que tienen una cantidad menor de valores distintos.