Ganancia de información (árbol de decisión)

En teoría de la información y aprendizaje automático , la ganancia de información es sinónimo de divergencia Kullback-Leibler ; la cantidad de información obtenida sobre una variable aleatoria o señal al observar otra variable aleatoria. Sin embargo, en el contexto de los árboles de decisión, el término a veces se usa como sinónimo de información mutua , que es el valor esperado condicional de la divergencia de Kullback-Leibler de la distribución de probabilidad univariada de una variable de la distribución condicional de esta variable dada la otra. .

La ganancia de información de una variable aleatoria X obtenida a partir de la observación de una variable aleatoria A tomando valor se define $A=a$

IG_{X,A}{(X,a)}=D_{\text{KL}}{\left(P_{X}{(x|a)}\|P_{X}{(x| I)}\derecha)},

distribución anterior distribución posteriorxa

P_{X}{(x|I)}

P_{X|A}{(x|a)}

El valor esperado de la ganancia de información es la información mutua de X y A , es decir , la reducción de la entropía de X lograda al conocer el estado de la variable aleatoria A. $I(X;A)$

En el aprendizaje automático , este concepto se puede utilizar para definir una secuencia preferida de atributos a investigar para reducir más rápidamente el estado de X. Esta secuencia (que depende del resultado de la investigación de atributos previos en cada etapa) se denomina árbol de decisión y se aplica en el área del aprendizaje automático conocido como aprendizaje de árbol de decisión . Por lo general, se debe preferir un atributo con alta información mutua a otros atributos. ^{[ ¿por qué? ]}

Definición general

En términos generales, la ganancia de información esperada es la reducción de la entropía de la información $Η$ desde un estado anterior a un estado que toma cierta información tal como está dada:

IG(T,a)=\mathrm {H} {(T)}-\mathrm {H} {(T|a)},

¿Dónde está la entropía condicional de dado el valor del atributo ? $\mathrm {H} {(T|a)}$ $T$ $a$

Esto es intuitivamente plausible cuando se interpreta la entropía $Η$ como una medida de la incertidumbre de una variable aleatoria : al aprender (o suponer) sobre , nuestra incertidumbre sobre se reduce (es decir, es positiva), a menos que, por supuesto , sea independiente de , en cuyo caso , significa . $T$ $a$ $T$ $T$ $IG(T,a)$ $T$ $a$ $\mathrm {H} (T,a)=\mathrm {H} (T)$ $IG(T,a)=0$

Definicion formal

Sea $T$ un conjunto de ejemplos de entrenamiento , cada uno de los cuales tiene la forma donde es el valor del atributo o característica del ejemplo e $y$ es la etiqueta de clase correspondiente. La ganancia de información para un atributo $a$ se define en términos de entropía de Shannon de la siguiente manera. Para un valor $v$ tomado por el atributo $a$ , sea $({\textbf {x}},y)=(x_{1},x_{2},x_{3},...,x_{k},y)$ $x_{a}\in \mathrm {vals} (a)$ $a^{\text{th}}$ ${\textbf {x}}$ $\mathrm {H} (-)$

S_{a}{(v)}=\{{\textbf {x}}\in T|x_{a}=v\}

conjunto

T

a

v

T

a

entropía condicional

\mathrm {H} (T)

\mathrm {H} {(T|a)}

\mathrm {H} (T|a)=\sum _{v\in \mathrm {vals} (a)}{{\frac {|S_{a}{(v)}|}{|T |}}\cdot \mathrm {H} \left(S_{a}{\left(v\right)}\right)}.

IG(T,a)=\mathrm {H} (T)-\mathrm {H} (T|a)

La información mutua es igual a la entropía total de un atributo si para cada uno de los valores del atributo se puede realizar una clasificación única para el atributo resultado. En este caso, las entropías relativas restadas de la entropía total son 0. En particular, los valores definen una partición de los datos del conjunto de entrenamiento $T$ en subconjuntos mutuamente excluyentes y completos , lo que induce una distribución de probabilidad categórica en los valores del atributo $a$ . La distribución está dada . En esta representación, la ganancia de información de $T$ dada $a$ se puede definir como la diferencia entre la entropía de Shannon incondicional de $T$ y la entropía esperada de $T$ condicionada a $a$ , donde el valor esperado se toma con respecto a la distribución inducida de los valores de $a$ . $v\en vals(a)$ ${\textstyle P_{a}{(v)}}$ ${\estilo de texto v\en vals(a)}$ ${\textstyle P_{a}{(v)}:={\frac {|S_{a}{(v)}|}{|T|}}}$

{\begin{alignedat}{2}IG(T,a)&=\mathrm {H} (T)-\sum _{v\in \mathrm {vals} (a)}{P_{a}{(v)}\mathrm {H} \left(S_{a}{(v)}\right)}\\&=\mathrm {H} (T)-\mathbb {E} _{P_{a}}{\left[\mathrm {H} {(S_{a}{(v)})}\right]}\\&=\mathrm {H} (T)-\mathrm {H} {(T|a)}.\end{alignedat}}

Otra visión de la obtención de información, con ejemplo

Para comprender mejor la obtención de información, analicémosla. Como sabemos, la ganancia de información es la reducción de la entropía de la información, ¿qué es la entropía? Básicamente, la entropía es la medida de impureza o incertidumbre en un grupo de observaciones. En aplicaciones de ingeniería, la información es análoga a la señal y la entropía es análoga al ruido. Determina cómo un árbol de decisión elige dividir los datos. ^[1] La figura más a la izquierda a continuación es muy impura y tiene una alta entropía que corresponde a un mayor desorden y un menor valor de información. A medida que avanzamos hacia la derecha, la entropía disminuye y el valor de la información aumenta.

Ahora bien, está claro que la ganancia de información es la medida de cuánta información proporciona una característica sobre una clase. Visualicemos la ganancia de información en un árbol de decisión como se muestra a la derecha:

El nodo t es el nodo padre y los subnodos t _L y t _R son nodos secundarios. En este caso, el nodo principal t tiene una colección de muestras cancerosas y no cancerosas denominadas C y NC respectivamente. Podemos utilizar la ganancia de información para determinar qué tan buena es la división de nodos en un árbol de decisión. En términos de entropía, la ganancia de información se define como:

Para entender esta idea, comencemos con un ejemplo en el que creamos un conjunto de datos simple y queremos ver si las mutaciones genéticas podrían estar relacionadas con pacientes con cáncer. Dadas cuatro mutaciones genéticas diferentes, así como siete muestras, el conjunto de entrenamiento para una decisión se puede crear de la siguiente manera:

En este conjunto de datos, un 1 significa que la muestra tiene la mutación (Verdadero), mientras que un 0 significa que la muestra no la tiene (Falso). Una muestra con C indica que se ha confirmado que es cancerosa, mientras que NC significa que no es cancerosa. Con estos datos, se puede crear un árbol de decisión con la ganancia de información utilizada para determinar las divisiones candidatas para cada nodo.

Para el siguiente paso, la entropía en el nodo padre t del árbol de decisión simple anterior se calcula como:

H( t ) = −[ p _C,t log ₂ ( p _C,t ) + p _NC,t log ₂ ( p _NC,t )] ^[3]
dónde,
probabilidad de seleccionar una muestra de clase 'C' en el nodo t, p _C,t = n ( t, C) / n ( t ),
probabilidad de seleccionar una muestra de clase 'NC' en el nodo t, p _NC,t = n ( t, NC) / n ( t ),
n ( t ), n ( t, C) y n ( t, NC) son el número de muestras totales, muestras 'C' y muestras 'NC' en el nodo t respectivamente .

Usando esto con el conjunto de entrenamiento de ejemplo, el proceso para encontrar información obtenida comenzando con la mutación 1 es el siguiente: $\mathrm {H} {(t)}$

pag _{C, t} = 4/7

p _{NC, t} = 3/7

\mathrm {H} {(t)}

= −(4/7 × log ₂ (4/7) + 3/7 × log ₂ (3/7)) = 0,985

Nota : será el mismo para todas las mutaciones en la raíz. $\mathrm {H} {(t)}$

El valor relativamente alto de entropía (1 es el valor óptimo) sugiere que el nodo raíz es altamente impuro y los constituyentes de la entrada en el nodo raíz se parecerían a la figura más a la izquierda en el diagrama de entropía anterior . Sin embargo, un conjunto de datos de este tipo es bueno para conocer los atributos de las mutaciones utilizadas para dividir el nodo. En un determinado nodo, cuando se produce la homogeneidad de los componentes de la entrada (como se muestra en la figura más a la derecha en el diagrama de entropía anterior), el conjunto de datos ya no sería bueno para el aprendizaje. $\mathrm {H} {(t)}=0.985$

Continuando, la entropía en los nodos secundarios izquierdo y derecho del árbol de decisión anterior se calcula mediante las fórmulas:

H( t _L ) = −[ p _C,L log ₂ ( p _C,L ) + p _NC,L log ₂ ( p _NC,L )] ^[1]

H( t _R ) = −[ p _C,R log ₂ ( p _C,R ) + p _NC,R log ₂ ( p _NC,R )] ^[1]

dónde,

probabilidad de seleccionar una muestra de clase 'C' en el nodo secundario izquierdo , p _C,L = n ( t _L , C) / n ( t _L ),

probabilidad de seleccionar una muestra de clase 'NC' en el nodo secundario izquierdo , p _NC,L = n ( t _L , NC) / n ( t _L ),

probabilidad de seleccionar una muestra de clase 'C' en el nodo secundario derecho , p _C,R = n ( t _R , C) / n ( t _R ),

probabilidad de seleccionar una muestra de clase 'NC' en el nodo secundario derecho , p _NC,R = n ( t _R , NC) / n ( t _R ),

n ( t _L ), n ( t _L , C) y n ( t _L , NC) son el número total de muestras, muestras 'C' y muestras 'NC' en el nodo secundario izquierdo, respectivamente,

n ( t _R ), n ( t _R , C) y n ( t _R , NC) son el número total de muestras, muestras 'C' y muestras 'NC' en el nodo secundario derecho, respectivamente .

Usando estas fórmulas, H(t _L ) y H(t _R ) para la mutación 1 se muestran a continuación:

H( t _L ) = −(3/4 × log ₂ (3/4) + 1/4 × log ₂ (1/4)) = 0,811

H( t _R ) = −(1/3 × log ₂ (1/3) + 2/3 × log ₂ (2/3)) = 0,918

A continuación, la entropía promedio de los nodos secundarios debido a la división en el nodo t del árbol de decisión anterior se calcula como:

H( s , t ) = P _L H ( t _L ) + P _R H ( t _R )
dónde,
probabilidad de muestras en el hijo izquierdo, P _L = n ( t _L ) / n ( t ),
probabilidad de muestras en el hijo correcto, P _R = n ( t _R ) / n ( t ),

Finalmente, H(s,t) junto con P _L y P _R para la mutación 1 son los siguientes:

PL ₌ 4/7

PR ₌ 3/7

H( s, t ) = (4/7 × 0,811) + (3/7 × 0,918) = 0,857

Así, por definición de la ecuación (i):

(Ganancia de información) = H( t ) - H( s , t )

Después de todos los pasos, ganancia( s ), donde s es una división candidata para el ejemplo es:

ganancia( s ) = 0,985 – 0,857 = 0,128

El uso de este mismo conjunto de fórmulas con las otras tres mutaciones conduce a una tabla de divisiones candidatas, clasificadas según su ganancia de información:

La mutación que proporciona la información más útil sería la mutación 3, por lo que se utilizará para dividir el nodo raíz del árbol de decisión. La raíz se puede dividir y todas las muestras se pueden pasar y agregar a los nodos secundarios. A la izquierda se muestra un árbol que describe la división.

Las muestras que están en el nodo izquierdo del árbol serían clasificadas como cancerosas por el árbol, mientras que las del derecho serían no cancerosas. Este árbol es relativamente preciso a la hora de clasificar las muestras que se utilizaron para construirlo (lo cual es un caso de sobreajuste ), pero aun así clasificaría la muestra C2 de forma incorrecta. Para remediar esto, el árbol se puede dividir nuevamente en los nodos secundarios para posiblemente lograr algo aún más preciso.

Para dividir el nodo correcto, se debe calcular nuevamente la ganancia de información para todas las posibles divisiones candidatas que no se utilizaron para los nodos anteriores. Entonces, las únicas opciones esta vez son las mutaciones 1, 2 y 4.

Nota : esta vez es diferente ya que solo hay cuatro muestras del niño correcto. $\mathrm {H} {(t)}$

PC _{, t} = 1/4

P _{NC, t} = 3/4

\mathrm {H} {(t)}

= -(1/4 × registro ₂ (1/4) + 3/4 × registro ₂ (3/4)) = 0,811

A partir de este nuevo , las divisiones candidatas se pueden calcular usando las mismas fórmulas que el nodo raíz: $\mathrm {H} {(t)}$

Por lo tanto, el hijo derecho se dividirá con la mutación 4. Todas las muestras que tengan la mutación se pasarán al hijo izquierdo y las que no la tengan se pasarán al hijo derecho.

Para dividir el nodo izquierdo, el proceso sería el mismo, excepto que solo habría 3 muestras para verificar. A veces, es posible que no sea necesario dividir un nodo en absoluto si es un conjunto puro , donde todas las muestras del nodo son simplemente cancerosas o no cancerosas. Dividir el nodo puede hacer que el árbol sea más inexacto y en este caso no se dividirá.

El árbol ahora alcanzaría una precisión del 100% si se probaran las muestras que se utilizaron para construirlo. Sin embargo, esto no es una buena idea, ya que el árbol sobreajustaría los datos. El mejor curso de acción es intentar probar el árbol en otras muestras, que no forman parte del conjunto original. A continuación se muestran dos muestras exteriores:

Siguiendo el árbol, NC10 se clasificó correctamente, pero C15 se clasificó como NC. Para otras muestras, este árbol ya no sería 100% exacto. Sin embargo, esto podría mejorarse con opciones como aumentar la profundidad del árbol o aumentar el tamaño del conjunto de entrenamiento.

Ventajas

La ganancia de información es el criterio básico para decidir si una característica debe usarse para dividir un nodo o no. La característica con la división óptima , es decir, el valor más alto de ganancia de información en un nodo de un árbol de decisión, se utiliza como característica para dividir el nodo.

El concepto de función de ganancia de información se incluye en el algoritmo C4.5 para generar árboles de decisión y seleccionar la división óptima para un nodo del árbol de decisión. ^[1] Algunas de sus ventajas incluyen:

Puede trabajar con variables continuas y discretas .
Debido al factor –[p ∗ log(p)] en la definición de entropía dada anteriormente, a los nodos hoja con un pequeño número de instancias se les asigna menos peso y favorece la división del resto de los datos en grupos más grandes pero homogéneos. Y así, a medida que profundizamos en la profundidad del árbol, el conjunto de datos se vuelve más homogéneo. Este enfoque suele ser más estable y elige las características de mayor impacto en los nodos. ^[4]

Inconvenientes y soluciones

Aunque la obtención de información suele ser una buena medida para decidir la relevancia de un atributo, no es perfecta. Un problema notable ocurre cuando la ganancia de información se aplica a atributos que pueden adoptar una gran cantidad de valores distintos. Por ejemplo, supongamos que estamos construyendo un árbol de decisiones para algunos datos que describen a los clientes de una empresa. La obtención de información se utiliza a menudo para decidir cuáles de los atributos son los más relevantes, de modo que puedan probarse cerca de la raíz del árbol. Uno de los atributos de entrada podría ser el número de membresía del cliente, si es miembro del programa de membresía de la empresa. Este atributo tiene una alta información mutua, porque identifica de forma única a cada cliente, pero no queremos incluirlo en el árbol de decisión. Es poco probable que decidir cómo tratar a un cliente en función de su número de membresía se generalice a clientes que no hemos visto antes ( sobreajuste ). Este problema también puede ocurrir si las muestras que se están probando tienen múltiples atributos con muchos valores distintos. En este caso, puede provocar que la ganancia de información de cada uno de estos atributos sea mucho mayor que la de aquellos sin tantos valores distintos.

Para contrarrestar este problema, Ross Quinlan propuso elegir el atributo con mayor índice de ganancia de información entre los atributos cuya ganancia de información es promedio o superior. ^[5] Esto desvía el árbol de decisión para que no considere atributos con una gran cantidad de valores distintos, sin dar una ventaja injusta a los atributos con un valor de información muy bajo, ya que el valor de la información es mayor o igual a la ganancia de información. ^[6]

Ver también

Ganancia de información más amplia
Aprendizaje del árbol de decisión
Contenido de la información , punto de partida de la teoría de la información y base de la entropía de Shannon
Relación de ganancia de información
algoritmo ID3
- Algoritmo C4.5
Análisis sorpresa

Referencias

^ abcd Larose, Daniel T. (2014). Descubrir el conocimiento en datos: una introducción a la minería de datos . Hoboken, Nueva Jersey: Wiley . págs. 174-179. ISBN 9780470908747.
^ ab Gopalan, Bhuvaneswari (10 de diciembre de 2020). "¿Qué es la entropía y la ganancia de información? ¿Cómo se utilizan para construir árboles de decisión?". Ninja engorroso . Consultado el 28 de noviembre de 2021 .
^ Jothikumar, R. (2018). "Predicción de la vida útil de un paciente con ataque cardíaco mediante el algoritmo de clasificación C4.5 mejorado". Revista de Investigación de Farmacia y Tecnología . 11 (5): 1951-1956. doi :10.5958/0974-360X.2018.00362.1.
^ "Aprendizaje automático: ¿por qué utilizamos la ganancia de información en lugar de la precisión como criterio de división en el árbol de decisiones?". Intercambio de pilas de ciencia de datos . Consultado el 9 de diciembre de 2021 .
^ Quinlan, J. Ross (1986). "Inducción de árboles de decisión". Aprendizaje automático . 1 (1): 81–106. doi : 10.1007/BF00116251 .
^ Milman, Oren (6 de agosto de 2018). "¿Cuál es el rango de índice de ganancia de información?". Intercambio de pila . Consultado el 9 de octubre de 2018 .

Otras lecturas

Nowozin, Sebastion (18 de junio de 2012). "Estimaciones mejoradas de ganancia de información para la inducción del árbol de decisiones". arXiv : 1206.4620v1 .
Shouman, Mai (2011). "Uso del árbol de decisiones para diagnosticar pacientes con enfermedades cardíacas" (PDF) . Actas de la Novena Conferencia de Minería de Datos de Australasia . 121 : 23–30.
Mitchell, Tom M. (1997). Aprendizaje automático. Las empresas McGraw-Hill, Inc. ISBN 978-0070428072.