En teoría de la información y aprendizaje automático , la ganancia de información es sinónimo de divergencia de Kullback-Leibler ; la cantidad de información obtenida sobre una variable aleatoria o señal al observar otra variable aleatoria. Sin embargo, en el contexto de los árboles de decisión, el término a veces se usa como sinónimo de información mutua , que es el valor esperado condicional de la divergencia de Kullback-Leibler de la distribución de probabilidad univariante de una variable a partir de la distribución condicional de esta variable dada la otra.
La ganancia de información de una variable aleatoria obtenida a partir de una observación de una variable aleatoria que toma valor se define como:
es decir, la divergencia de Kullback-Leibler de (la distribución previa para ) de (la distribución posterior para dado ).
El valor esperado de la ganancia de información es la información mutua de y , es decir, la reducción en la entropía de lograda al aprender el estado de la variable aleatoria .
En el aprendizaje automático, este concepto se puede utilizar para definir una secuencia preferida de atributos para investigar con el fin de delimitar más rápidamente el estado de X. Dicha secuencia (que depende del resultado de la investigación de los atributos anteriores en cada etapa) se denomina árbol de decisiones y, cuando se aplica en el área del aprendizaje automático, se conoce como aprendizaje de árboles de decisiones . Por lo general, se debe preferir un atributo con alta información mutua a otros atributos. [ ¿Por qué? ]
En términos generales, la ganancia de información esperada es la reducción de la entropía de información Η desde un estado anterior a un estado que toma cierta información como dada:
donde es la entropía condicional de dado el valor del atributo .
Esto es intuitivamente plausible cuando se interpreta la entropía Η como una medida de incertidumbre de una variable aleatoria : al aprender (o asumir) acerca de , nuestra incertidumbre acerca de se reduce (es decir, es positiva), a menos que, por supuesto , sea independiente de , en cuyo caso , es decir , .
Sea T un conjunto de ejemplos de entrenamiento , cada uno de la forma donde es el valor del atributo o característica del ejemplo e y es la etiqueta de clase correspondiente. La ganancia de información para un atributo a se define en términos de la entropía de Shannon de la siguiente manera. Para un valor v tomado por el atributo a , sea definido como el conjunto de entradas de entrenamiento de T para el cual el atributo a es igual a v . Entonces la ganancia de información de T para el atributo a es la diferencia entre la entropía de Shannon a priori del conjunto de entrenamiento y la entropía condicional .
La información mutua es igual a la entropía total para un atributo si para cada uno de los valores del atributo se puede hacer una clasificación única para el atributo de resultado. En este caso, las entropías relativas restadas de la entropía total son 0. En particular, los valores definen una partición de los datos del conjunto de entrenamiento T en subconjuntos mutuamente excluyentes e inclusivos , lo que induce una distribución de probabilidad categórica en los valores del atributo a . La distribución está dada . En esta representación, la ganancia de información de T dado a se puede definir como la diferencia entre la entropía de Shannon incondicional de T y la entropía esperada de T condicionada a a , donde el valor esperado se toma con respecto a la distribución inducida en los valores de a .
Para comprender mejor la ganancia de información, desglosémosla. Como sabemos, la ganancia de información es la reducción de la entropía de la información. ¿Qué es la entropía? Básicamente, la entropía es la medida de impureza o incertidumbre en un grupo de observaciones. En aplicaciones de ingeniería, la información es análoga a la señal y la entropía es análoga al ruido. Determina cómo un árbol de decisión elige dividir los datos. [1] La figura más a la izquierda a continuación es muy impura y tiene una entropía alta que corresponde a un mayor desorden y un menor valor de información. A medida que avanzamos hacia la derecha, la entropía disminuye y el valor de la información aumenta.
Ahora bien, está claro que la ganancia de información es la medida de cuánta información proporciona una característica sobre una clase. Visualicemos la ganancia de información en un árbol de decisión como se muestra a la derecha:
El nodo t es el nodo principal y los nodos secundarios t L y t R son nodos secundarios. En este caso, el nodo principal t tiene una colección de muestras de cáncer y de no cáncer denominadas C y NC respectivamente. Podemos utilizar la ganancia de información para determinar qué tan buena es la división de nodos en un árbol de decisiones. En términos de entropía, la ganancia de información se define como:
Para entender esta idea, comencemos con un ejemplo en el que creamos un conjunto de datos simple y queremos ver si las mutaciones genéticas podrían estar relacionadas con los pacientes con cáncer. Dadas cuatro mutaciones genéticas diferentes, así como siete muestras, el conjunto de entrenamiento para una decisión se puede crear de la siguiente manera:
En este conjunto de datos, un 1 significa que la muestra tiene la mutación (Verdadero), mientras que un 0 significa que la muestra no la tiene (Falso). Una muestra con C denota que se ha confirmado que es cancerosa, mientras que NC significa que no es cancerosa. Con estos datos, se puede crear un árbol de decisiones con ganancia de información utilizada para determinar las divisiones de candidatos para cada nodo.
Para el siguiente paso, la entropía en el nodo padre t del árbol de decisión simple anterior se calcula como:
H( t ) = −[ p C,t log 2 ( p C,t ) + p NC,t log 2 ( p NC,t )] [3]
dónde,
probabilidad de seleccionar una muestra de clase 'C' en el nodo t, p C,t = n ( t, C) / n ( t ),
probabilidad de seleccionar una muestra de clase 'NC' en el nodo t, p NC,t = n ( t, NC) / n ( t ),
n ( t ), n ( t, C) y n ( t, NC) son el número de muestras totales, muestras 'C' y muestras 'NC' en el nodo t respectivamente .
Usando esto con el conjunto de entrenamiento de ejemplo, el proceso para encontrar la ganancia de información comenzando con la mutación 1 es el siguiente:
Nota : será lo mismo para todas las mutaciones en la raíz.
El valor relativamente alto de entropía (1 es el valor óptimo) sugiere que el nodo raíz es altamente impuro y los constituyentes de la entrada en el nodo raíz se verían como la figura más a la izquierda en el Diagrama de Entropía anterior . Sin embargo, un conjunto de datos de este tipo es bueno para aprender los atributos de las mutaciones utilizadas para dividir el nodo. En un nodo determinado, cuando se produce la homogeneidad de los constituyentes de la entrada (como se muestra en la figura más a la derecha en el Diagrama de Entropía anterior), el conjunto de datos ya no sería bueno para el aprendizaje.
Continuando, la entropía en los nodos secundarios izquierdo y derecho del árbol de decisión anterior se calcula utilizando las fórmulas:
H( t L ) = −[ p C, L log 2 ( p C, L ) + p NC, L log 2 ( p NC, L )] [1]
H( t R ) = −[ p C, R log 2 ( p C, R ) + p NC, R log 2 ( p NC, R )] [1]
dónde,
probabilidad de seleccionar una muestra de clase 'C' en el nodo secundario izquierdo , p C,L = n ( t L , C) / n ( t L ),
probabilidad de seleccionar una muestra de clase 'NC' en el nodo secundario izquierdo , p NC,L = n ( t L , NC) / n ( t L ),
probabilidad de seleccionar una muestra de clase 'C' en el nodo secundario correcto , p C,R = n ( t R , C) / n ( t R ),
probabilidad de seleccionar una muestra de clase 'NC' en el nodo secundario correcto , p NC,R = n ( t R , NC) / n ( t R ),
n ( t L ), n ( t L , C) y n ( t L , NC) son el número total de muestras, muestras 'C' y muestras 'NC' en el nodo secundario izquierdo respectivamente,
n ( t R ), n ( t R , C) y n ( t R , NC) son el número total de muestras, muestras 'C' y muestras 'NC' en el nodo secundario derecho respectivamente .
Utilizando estas fórmulas, los valores H(t L ) y H(t R ) para la mutación 1 se muestran a continuación:
A continuación, la entropía promedio de los nodos secundarios debido a la división en el nodo t del árbol de decisión anterior se calcula como:
H( s , t ) = P L H ( t L ) + P R H ( t R )
dónde,
probabilidad de muestras en el hijo izquierdo, P L = n ( t L ) / n ( t ),
probabilidad de muestras en el niño correcto, P R = n ( t R ) / n ( t ),
Finalmente, H(s,t) junto con P L y P R para la mutación 1 es como sigue:
Así, por definición de la ecuación (i):
(Ganancia de información) = H( t ) - H( s , t )
Después de todos los pasos, la ganancia ( s ), donde s es un candidato a dividir para el ejemplo es:
El uso de este mismo conjunto de fórmulas con las otras tres mutaciones conduce a una tabla de las divisiones candidatas, clasificadas según su ganancia de información:
La mutación que proporciona la información más útil sería la mutación 3, por lo que se utilizará para dividir el nodo raíz del árbol de decisión. La raíz se puede dividir y todas las muestras se pueden pasar a través de ella y anexarlas a los nodos secundarios. A la izquierda se muestra un árbol que describe la división.
Las muestras que se encuentran en el nodo izquierdo del árbol se clasificarían como cancerosas por el árbol, mientras que las que se encuentran en el derecho no serían cancerosas. Este árbol es relativamente preciso a la hora de clasificar las muestras que se utilizaron para construirlo (lo que es un caso de sobreajuste ), pero seguiría clasificando incorrectamente la muestra C2. Para solucionar esto, el árbol se puede dividir de nuevo en los nodos secundarios para lograr posiblemente algo aún más preciso.
Para dividir el nodo correcto, se debe calcular nuevamente la ganancia de información para todas las posibles divisiones candidatas que no se usaron para los nodos anteriores. Por lo tanto, las únicas opciones esta vez son las mutaciones 1, 2 y 4.
Nota : esta vez es diferente, ya que solo hay cuatro muestras del niño correcto.
A partir de este nuevo , las divisiones de candidatos se pueden calcular utilizando las mismas fórmulas que el nodo raíz:
De esta forma, el hijo derecho se dividirá con la mutación 4. Todas las muestras que tengan la mutación se pasarán al hijo izquierdo y las que carezcan de ella se pasarán al hijo derecho.
Para dividir el nodo izquierdo, el proceso sería el mismo, excepto que solo habría 3 muestras para verificar. A veces, puede que no sea necesario dividir un nodo si es un conjunto puro , donde todas las muestras del nodo son cancerosas o no cancerosas. Dividir el nodo puede hacer que el árbol sea más impreciso y, en este caso, no se dividirá.
El árbol alcanzaría ahora una precisión del 100 % si se probaran las muestras que se usaron para construirlo. Sin embargo, esto no es una buena idea, ya que el árbol se ajustaría en exceso a los datos. La mejor opción es intentar probar el árbol con otras muestras que no formen parte del conjunto original. A continuación se muestran dos muestras externas:
Siguiendo el árbol, NC10 se clasificó correctamente, pero C15 se clasificó como NC. Para otras muestras, este árbol ya no sería 100% preciso. Sin embargo, podría ser posible mejorar esto con opciones como aumentar la profundidad del árbol o aumentar el tamaño del conjunto de entrenamiento.
La ganancia de información es el criterio básico para decidir si se debe utilizar una característica para dividir un nodo o no. La característica con la división óptima , es decir, el valor más alto de ganancia de información en un nodo de un árbol de decisión, se utiliza como característica para dividir el nodo.
El concepto de función de ganancia de información se incluye en el algoritmo C4.5 para generar árboles de decisión y seleccionar la división óptima para un nodo del árbol de decisión. [1] Algunas de sus ventajas incluyen:
Aunque la ganancia de información suele ser una buena medida para decidir la relevancia de un atributo, no es perfecta. Un problema notable ocurre cuando la ganancia de información se aplica a atributos que pueden tomar una gran cantidad de valores distintos. Por ejemplo, supongamos que uno está construyendo un árbol de decisión para algunos datos que describen a los clientes de una empresa. La ganancia de información se utiliza a menudo para decidir cuáles de los atributos son los más relevantes, de modo que se puedan probar cerca de la raíz del árbol. Uno de los atributos de entrada podría ser el número de miembro del cliente, si es miembro del programa de membresía de la empresa. Este atributo tiene una alta información mutua, porque identifica de forma única a cada cliente, pero no queremos incluirlo en el árbol de decisión. Es poco probable que decidir cómo tratar a un cliente en función de su número de miembro se generalice a clientes que no hemos visto antes ( sobreajuste ). Este problema también puede ocurrir si las muestras que se están probando tienen múltiples atributos con muchos valores distintos. En este caso, puede provocar que la ganancia de información de cada uno de estos atributos sea mucho mayor que aquellos sin tantos valores distintos.
Para contrarrestar este problema, Ross Quinlan propuso elegir en cambio el atributo con la mayor tasa de ganancia de información entre los atributos cuya ganancia de información es promedio o superior. [5] Esto sesga el árbol de decisión en contra de considerar atributos con una gran cantidad de valores distintos, mientras que no da una ventaja injusta a los atributos con un valor de información muy bajo, ya que el valor de información es mayor o igual a la ganancia de información. [6]