Poda de árboles de decisión

La poda es una técnica de compresión de datos en el aprendizaje automático y los algoritmos de búsqueda que reduce el tamaño de los árboles de decisión al eliminar las secciones del árbol que no son críticas y son redundantes para clasificar las instancias. La poda reduce la complejidad del clasificador final y, por lo tanto, mejora la precisión predictiva al reducir el sobreajuste .

Una de las preguntas que surgen en un algoritmo de árbol de decisión es el tamaño óptimo del árbol final. Un árbol demasiado grande corre el riesgo de sobreajustar los datos de entrenamiento y generalizar de forma deficiente a nuevas muestras. Un árbol pequeño podría no capturar información estructural importante sobre el espacio muestral. Sin embargo, es difícil saber cuándo debe detenerse un algoritmo de árbol porque es imposible saber si la adición de un solo nodo adicional reducirá drásticamente el error. Este problema se conoce como el efecto horizonte . Una estrategia común es hacer crecer el árbol hasta que cada nodo contenga una pequeña cantidad de instancias y luego utilizar la poda para eliminar los nodos que no brinden información adicional. ^[1]

La poda debe reducir el tamaño de un árbol de aprendizaje sin reducir la precisión predictiva, medida mediante un conjunto de validación cruzada . Existen muchas técnicas de poda de árboles que difieren en la medición que se utiliza para optimizar el rendimiento.

Técnicas

Los procesos de poda se pueden dividir en dos tipos (pre y post poda).

Los procedimientos de prepoda evitan una inducción completa del conjunto de entrenamiento al reemplazar un criterio stop() en el algoritmo de inducción (por ejemplo, profundidad máxima del árbol o ganancia de información (Attr)> minGain). Se considera que los métodos de prepoda son más eficientes porque no inducen un conjunto completo, sino que los árboles permanecen pequeños desde el principio. Los métodos de prepoda comparten un problema común, el efecto horizonte. Esto debe entenderse como la terminación prematura no deseada de la inducción por el criterio stop().

La poda posterior (o simplemente poda) es la forma más común de simplificar los árboles. En este caso, los nodos y subárboles se reemplazan con hojas para reducir la complejidad. La poda no solo puede reducir significativamente el tamaño, sino que también mejora la precisión de la clasificación de objetos no vistos. Puede darse el caso de que la precisión de la asignación en el conjunto de entrenamiento se deteriore, pero la precisión de las propiedades de clasificación del árbol aumenta en general.

Los procedimientos se diferencian en función de su enfoque en el árbol (de arriba hacia abajo o de abajo hacia arriba).

Poda de abajo hacia arriba

Estos procedimientos comienzan en el último nodo del árbol (el punto más bajo). A continuación, de forma recursiva hacia arriba, determinan la relevancia de cada nodo individual. Si no se proporciona la relevancia para la clasificación, el nodo se elimina o se reemplaza por una hoja. La ventaja es que no se pueden perder subárboles relevantes con este método. Estos métodos incluyen la poda de error reducido (REP), la poda de complejidad de costo mínimo (MCCP) o la poda de error mínimo (MEP).

Poda de arriba hacia abajo

A diferencia del método ascendente, este método comienza en la raíz del árbol. Siguiendo la estructura que se muestra a continuación, se realiza una comprobación de relevancia que decide si un nodo es relevante para la clasificación de los n elementos o no. Al podar el árbol en un nodo interno, puede suceder que se elimine un subárbol completo (independientemente de su relevancia). Uno de estos ejemplos es la poda de errores pesimistas (PEP), que ofrece resultados bastante buenos con elementos no vistos.

Algoritmos de poda

Poda de errores reducida

Una de las formas más simples de poda es la poda de error reducido. Comenzando por las hojas, cada nodo se reemplaza con su clase más popular. Si la precisión de la predicción no se ve afectada, se conserva el cambio. Si bien es algo ingenua, la poda de error reducido tiene la ventaja de la simplicidad y la velocidad .

Poda de complejidad de costos

La poda de complejidad de costos genera una serie de árboles ⁠ ⁠ $T_{0}\puntos T_{m}$ donde ⁠ ⁠ $Estilo de visualización T_{0}$ es el árbol inicial y ⁠ ⁠ $Estilo de visualización T_{m}$ es solo la raíz. En el paso ⁠ ⁠ ${\estilo de visualización i}$ , el árbol se crea eliminando un subárbol del árbol ⁠ ⁠ ${\estilo de visualización i-1}$ y reemplazándolo con un nodo de hoja con valor elegido como en el algoritmo de construcción del árbol. El subárbol que se elimina se elige de la siguiente manera:

Define la tasa de error del árbol ⁠ ⁠ ${\estilo de visualización T}$ sobre el conjunto de datos ⁠ ⁠ ${\estilo de visualización S}$ como ⁠ ⁠ $\operatorname {err} (T,S)$ .
Se elige el subárbol que se minimiza para su eliminación. ${\estilo de visualización t}$ ${\frac {\operatorname {err} (\operatorname {podar} (T,t),S)-\operatorname {err} (T,S)}{\left\vert \operatorname {hojas} (T)\right\vert -\left\vert \operatorname {hojas} (\operatorname {podar} (T,t))\right\vert }}$

La función ⁠ ⁠ $\operatorname {podar} (T,t)$ define el árbol obtenido al podar los subárboles ⁠ ⁠ ${\estilo de visualización t}$ del árbol ⁠ ⁠ ${\estilo de visualización T}$ . Una vez creada la serie de árboles, se elige el mejor árbol por precisión generalizada medida por un conjunto de entrenamiento o validación cruzada.

Ejemplos

La poda se puede aplicar en un esquema de compresión de un algoritmo de aprendizaje para eliminar los detalles redundantes sin comprometer el rendimiento del modelo. En las redes neuronales, la poda elimina neuronas enteras o capas de neuronas.

Véase también

Referencias

Pearl, Judea (1984). Heurística: estrategias de búsqueda inteligente para la resolución de problemas informáticos . Addison-Wesley. ISBN 978-0-201-05594-8.
Mansour, Y. (1997). "Poda de árboles de decisión pesimistas basada en el tamaño del árbol". Proc. 14th International Conference on Machine Learning . págs. 195–201.
Breslow, LA; Aha, DW (1997). "Simplificación de árboles de decisión: una encuesta". The Knowledge Engineering Review . 12 (1): 1–47. doi :10.1017/S0269888997000015. S2CID 18782652.
Quinlan, JR (1986). "Inducción de árboles de decisión". Aprendizaje automático . 1 . Kluwer: 81–106. doi : 10.1007/BF00116251 .

^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2001). Los elementos del aprendizaje estadístico . Springer. págs. 269–272. ISBN 0-387-95284-5.

Lectura adicional

Poda de árboles de decisión basada en MDL Archivado el 29 de agosto de 2017 en Wayback Machine
Poda de árboles de decisión mediante redes neuronales de retropropagación

Enlaces externos

Algoritmo de poda de árboles de decisión rápido y de abajo hacia arriba
Introducción a la poda de árboles de decisión