stringtranslate.com

Árbol de decisión

Tradicionalmente, los árboles de decisión se han creado manualmente.

Un árbol de decisiones es un modelo jerárquico de apoyo a las decisiones que utiliza un modelo de decisiones similar a un árbol y sus posibles consecuencias, incluidos los resultados de eventos casuales , los costos de los recursos y la utilidad . Es una forma de mostrar un algoritmo que solo contiene declaraciones de control condicionales.

Los árboles de decisión se utilizan comúnmente en la investigación de operaciones , específicamente en el análisis de decisiones , [1] para ayudar a identificar una estrategia con mayor probabilidad de alcanzar un objetivo, pero también son una herramienta popular en el aprendizaje automático .

Descripción general

Un árbol de decisión es una estructura similar a un diagrama de flujo en la que cada nodo interno representa una "prueba" sobre un atributo (por ejemplo, si al lanzar una moneda sale cara o cruz), cada rama representa el resultado de la prueba y cada nodo hoja representa un etiqueta de clase (decisión tomada después de calcular todos los atributos). Los caminos desde la raíz hasta la hoja representan reglas de clasificación.

En el análisis de decisiones , un árbol de decisiones y el diagrama de influencia estrechamente relacionado se utilizan como herramienta visual y analítica de apoyo a las decisiones, donde se calculan los valores esperados (o la utilidad esperada ) de las alternativas en competencia.

Un árbol de decisión consta de tres tipos de nodos: [2]

  1. Nodos de decisión: normalmente representados por cuadrados
  2. Nodos de probabilidad: normalmente representados por círculos
  3. Nodos finales: normalmente representados por triángulos

Los árboles de decisión se utilizan comúnmente en la investigación y gestión de operaciones . Si, en la práctica, las decisiones deben tomarse en línea sin recordarlas con un conocimiento incompleto, un árbol de decisiones debe ir acompañado de un modelo de probabilidad como modelo de mejor elección o algoritmo de modelo de selección en línea . [ cita necesaria ] Otro uso de los árboles de decisión es como medio descriptivo para calcular probabilidades condicionales .

Los árboles de decisión, los diagramas de influencia , las funciones de utilidad y otras herramientas y métodos de análisis de decisiones se enseñan a estudiantes universitarios en escuelas de negocios, economía de la salud y salud pública, y son ejemplos de métodos de investigación de operaciones o ciencias de la gestión .

Bloques de construcción del árbol de decisiones

Elementos del árbol de decisiones

Dibujado de izquierda a derecha, un árbol de decisión solo tiene nodos de ráfaga (rutas divididas), pero ningún nodo sumidero (rutas convergentes). Si se usan manualmente, pueden crecer mucho y, a menudo, es difícil dibujarlos completamente a mano. Tradicionalmente, los árboles de decisión se han creado manualmente (como muestra el ejemplo al lado), aunque cada vez más se emplea software especializado.

Reglas de decisión

El árbol de decisión se puede linealizar en reglas de decisión , [3] donde el resultado es el contenido del nodo hoja y las condiciones a lo largo del camino forman una conjunción en la cláusula if. En general, las reglas tienen la forma:

si condición1 y condición2 y condición3 entonces resultado.

Las reglas de decisión se pueden generar construyendo reglas de asociación con la variable objetivo de la derecha. También pueden denotar relaciones temporales o causales. [4]

Árbol de decisión utilizando símbolos de diagrama de flujo

Por lo general, un árbol de decisión se dibuja utilizando símbolos de diagrama de flujo , ya que es más fácil de leer y comprender para muchos. Tenga en cuenta que hay un error conceptual en el cálculo "Continuar" del árbol que se muestra a continuación; el error se refiere al cálculo de las "costas" adjudicadas en un proceso judicial.

Ejemplo de análisis

El análisis puede tener en cuenta la preferencia o la función de utilidad de quien toma las decisiones (por ejemplo, la empresa) , por ejemplo:

La interpretación básica en esta situación es que la empresa prefiere el riesgo y los beneficios de B bajo coeficientes de preferencia de riesgo realistas (superiores a 400.000 dólares; en ese rango de aversión al riesgo, la empresa necesitaría modelar una tercera estrategia, "Ni A ni B"). .

Otro ejemplo, comúnmente utilizado en los cursos de investigación de operaciones , es la distribución de salvavidas en las playas (también conocido como el ejemplo "La vida es una playa"). [5] El ejemplo describe dos playas con socorristas que se distribuirán en cada playa. Existe un presupuesto máximo B que se puede distribuir entre las dos playas (en total), y utilizando una tabla de rendimientos marginales, los analistas pueden decidir cuántos salvavidas asignar a cada playa.

En este ejemplo, se puede dibujar un árbol de decisiones para ilustrar los principios de los rendimientos decrecientes en la playa número 1.

Árbol de decisión de playa

El árbol de decisión ilustra que al distribuir salvavidas secuencialmente, colocar un primer salvavidas en la playa #1 sería óptimo si solo hay presupuesto para 1 salvavidas. Pero si hay un presupuesto para dos guardias, entonces colocar a ambos en la playa número 2 evitaría más ahogamientos en general.

socorristas

Diagrama de influencia

Gran parte de la información de un árbol de decisiones se puede representar de forma más compacta como un diagrama de influencia , centrando la atención en los problemas y las relaciones entre eventos.

El rectángulo de la izquierda representa una decisión, los óvalos representan acciones y el diamante representa resultados.

Inducción de reglas de asociación

Los árboles de decisión también pueden verse como modelos generativos de reglas de inducción a partir de datos empíricos. Un árbol de decisión óptimo se define entonces como un árbol que representa la mayoría de los datos, minimizando al mismo tiempo el número de niveles (o "preguntas"). [6] Se han ideado varios algoritmos para generar dichos árboles óptimos, como ID3 /4/5, [7] CLS, ASSISTANT y CART.

Ventajas y desventajas

Entre las herramientas de apoyo a la toma de decisiones, los árboles de decisión (y los diagramas de influencia ) tienen varias ventajas. Árboles de decisión:

Desventajas de los árboles de decisión:

Optimización de un árbol de decisiones

Se deben considerar algunas cosas al mejorar la precisión del clasificador del árbol de decisión. Las siguientes son algunas posibles optimizaciones a considerar cuando se busca asegurarse de que el modelo de árbol de decisión producido tome la decisión o clasificación correcta. Tenga en cuenta que estas cosas no son las únicas a considerar, sino solo algunas.

Aumentar el número de niveles del árbol.

La precisión del árbol de decisión puede cambiar según la profundidad del árbol de decisión. En muchos casos, las hojas del árbol son nudos puros . [9] Cuando un nodo es puro, significa que todos los datos en ese nodo pertenecen a una sola clase. [10] Por ejemplo, si las clases en el conjunto de datos son Cáncer y No Cáncer, un nodo de hoja se consideraría puro cuando todos los datos de muestra en un nodo de hoja son parte de una sola clase, ya sea cancerosa o no cancerosa. Es importante señalar que un árbol más profundo no siempre es mejor a la hora de optimizar el árbol de decisión. Un árbol más profundo puede influir negativamente en el tiempo de ejecución. Si se utiliza un determinado algoritmo de clasificación, un árbol más profundo podría significar que el tiempo de ejecución de este algoritmo de clasificación es significativamente más lento. También existe la posibilidad de que el algoritmo real que construye el árbol de decisión se vuelva significativamente más lento a medida que el árbol se hace más profundo. Si el algoritmo de construcción de árboles que se utiliza divide nodos puros, entonces se podría experimentar una disminución en la precisión general del clasificador de árboles. En ocasiones, profundizar en el árbol puede provocar una disminución de la precisión en general, por lo que es muy importante probar modificando la profundidad del árbol de decisión y seleccionando la profundidad que produzca los mejores resultados. Para resumir, observe los puntos a continuación, definiremos el número D como la profundidad del árbol.

Posibles ventajas de aumentar el número D:

Posibles desventajas de aumentar D

La capacidad de probar las diferencias en los resultados de la clasificación al cambiar D es imperativa. Debemos poder cambiar y probar fácilmente las variables que podrían afectar la precisión y confiabilidad del modelo de árbol de decisión.

La elección de funciones de división de nodos.

La función de división de nodos utilizada puede tener un impacto en la mejora de la precisión del árbol de decisión. Por ejemplo, utilizar la función de ganancia de información puede producir mejores resultados que utilizar la función phi. La función phi se conoce como una medida de "bondad" de una división candidata en un nodo del árbol de decisión. La función de ganancia de información se conoce como medida de la “reducción de entropía ”. A continuación, construiremos dos árboles de decisión. Se construirá un árbol de decisión utilizando la función phi para dividir los nodos y se construirá un árbol de decisión utilizando la función de ganancia de información para dividir los nodos.

Las principales ventajas y desventajas de la ganancia de información y la función phi.

Esta es la fórmula de la función de ganancia de información. La fórmula establece que la ganancia de información es función de la entropía de un nodo del árbol de decisión menos la entropía de una división candidata en el nodo t de un árbol de decisión.

Esta es la fórmula de la función phi. La función phi se maximiza cuando la característica elegida divide las muestras de una manera que produce divisiones homogéneas y tiene aproximadamente la misma cantidad de muestras en cada división.

Estableceremos D, que es la profundidad del árbol de decisión que estamos construyendo, en tres (D = 3). También tenemos el siguiente conjunto de datos de muestras cancerosas y no cancerosas y las características de mutación que las muestras tienen o no. Si una muestra tiene una mutación característica, entonces la muestra es positiva para esa mutación y estará representada por uno. Si una muestra no tiene una mutación característica, entonces la muestra es negativa para esa mutación y estará representada por cero.

En resumen, C significa cáncer y NC significa no cáncer. La letra M significa mutación y, si una muestra tiene una mutación particular, aparecerá en la tabla como uno y, en caso contrario, como cero.

Ahora, podemos usar las fórmulas para calcular los valores de la función phi y los valores de ganancia de información para cada M en el conjunto de datos. Una vez calculados todos los valores, se puede producir el árbol. Lo primero que debe hacer es seleccionar el nodo raíz. En la ganancia de información y la función phi, consideramos que la división óptima es la mutación que produce el valor más alto para la ganancia de información o la función phi. Ahora supongamos que M1 tiene el valor de función phi más alto y M4 tiene el valor de ganancia de información más alto. La mutación M1 será la raíz de nuestro árbol de funciones phi y M4 será la raíz de nuestro árbol de ganancia de información. Puedes observar los nodos raíz a continuación.

Figure 1: The left node is the root node of the tree we are building using the phi function to split the nodes. The right node is the root node of the tree we are building using information gain to split the nodes.
Figura 1: El nodo izquierdo es el nodo raíz del árbol que estamos construyendo usando la función phi para dividir los nodos. El nodo derecho es el nodo raíz del árbol que estamos construyendo utilizando la ganancia de información para dividir los nodos.

Ahora, una vez que hayamos elegido el nodo raíz, podemos dividir las muestras en dos grupos según si una muestra es positiva o negativa para la mutación del nodo raíz. Los grupos se llamarán grupo A y grupo B. Por ejemplo, si usamos M1 para dividir las muestras en el nodo raíz obtenemos muestras NC2 y C2 en el grupo A y el resto de muestras NC4, NC3, NC1, C1 en el grupo. B.

Sin tener en cuenta la mutación elegida para el nodo raíz, proceda a colocar las siguientes mejores características que tengan los valores más altos de ganancia de información o la función phi en los nodos secundarios izquierdo o derecho del árbol de decisión. Una vez que elegimos el nodo raíz y los dos nodos secundarios para el árbol de profundidad = 3, simplemente podemos agregar las hojas. Las hojas representarán la decisión de clasificación final que el modelo ha producido en función de las mutaciones que una muestra tiene o no. El árbol de la izquierda es el árbol de decisión que obtenemos al usar la ganancia de información para dividir los nodos y el árbol de la derecha es lo que obtenemos al usar la función phi para dividir los nodos.

The resulting tree from using information gain to split the nodes
El árbol resultante del uso de la ganancia de información para dividir los nodos.

Ahora supongamos que los resultados de clasificación de ambos árboles se dan mediante una matriz de confusión .

Matriz de confusión de ganancia de información:

Matriz de confusión de la función Phi:

El árbol que utiliza la ganancia de información tiene los mismos resultados cuando utiliza la función phi al calcular la precisión. Cuando clasificamos las muestras según el modelo utilizando la ganancia de información, obtenemos un verdadero positivo, un falso positivo, cero falsos negativos y cuatro verdaderos negativos. Para el modelo que utiliza la función phi obtenemos dos verdaderos positivos, cero falsos positivos, un falso negativo y tres verdaderos negativos. El siguiente paso es evaluar la eficacia del árbol de decisiones utilizando algunas métricas clave que se analizarán en la sección sobre evaluación de un árbol de decisiones a continuación. Las métricas que se analizarán a continuación pueden ayudar a determinar los próximos pasos a seguir al optimizar el árbol de decisiones.

Otras técnicas

La información anterior no es donde termina para construir y optimizar un árbol de decisiones. Existen muchas técnicas para mejorar los modelos de clasificación de árboles de decisión que construimos. Una de las técnicas es crear nuestro modelo de árbol de decisiones a partir de un conjunto de datos iniciado . El conjunto de datos de arranque ayuda a eliminar el sesgo que se produce al crear un modelo de árbol de decisión con los mismos datos con los que se prueba el modelo. La capacidad de aprovechar el poder de los bosques aleatorios también puede ayudar a mejorar significativamente la precisión general del modelo que se está construyendo. Este método genera muchas decisiones a partir de muchos árboles de decisión y suma los votos de cada árbol de decisión para realizar la clasificación final. Existen muchas técnicas, pero el objetivo principal es probar la construcción de su modelo de árbol de decisión de diferentes maneras para asegurarse de que alcance el nivel de rendimiento más alto posible.

Evaluación de un árbol de decisión

Es importante conocer las medidas utilizadas para evaluar los árboles de decisión. Las principales métricas utilizadas son exactitud , sensibilidad , especificidad , precisión , tasa de errores , tasa de descubrimientos falsos y tasa de omisiones falsas . Todas estas medidas se derivan del número de verdaderos positivos , falsos positivos , verdaderos negativos y falsos negativos obtenidos al ejecutar un conjunto de muestras a través del modelo de clasificación del árbol de decisión. Además, se puede crear una matriz de confusión para mostrar estos resultados. Todas estas métricas principales dicen algo diferente sobre las fortalezas y debilidades del modelo de clasificación creado en base a su árbol de decisiones. Por ejemplo, una sensibilidad baja con una especificidad alta podría indicar que el modelo de clasificación creado a partir del árbol de decisión no identifica bien muestras cancerosas en comparación con muestras no cancerosas.

Tomemos la siguiente matriz de confusión. La matriz de confusión nos muestra que el clasificador del modelo de árbol de decisión construido arrojó 11 verdaderos positivos, 1 falso positivo, 45 falsos negativos y 105 verdaderos negativos.

Ahora calcularemos los valores de exactitud, sensibilidad, especificidad, precisión, tasa de errores, tasa de descubrimientos falsos y tasa de omisiones falsas.

Exactitud:

Sensibilidad (TPR – tasa de verdaderos positivos): [12]

Especificidad (TNR – tasa de verdaderos negativos):

Precisión (PPV – valor predictivo positivo):

Tasa de fallos (FNR – tasa de falsos negativos):

Tasa de falso descubrimiento (FDR):

Tasa de falsas omisiones (PARA):

Una vez que hayamos calculado las métricas clave podemos sacar algunas conclusiones iniciales sobre el rendimiento del modelo de árbol de decisión construido. La precisión que calculamos fue del 71,60%. El valor de precisión es bueno para empezar, pero nos gustaría que nuestros modelos sean lo más precisos posible manteniendo el rendimiento general. El valor de sensibilidad del 19,64% significa que de todos los que realmente dieron positivo en cáncer dieron positivo. Si observamos el valor de especificidad del 99,06%, sabemos que de todas las muestras que resultaron negativas para el cáncer, en realidad resultaron negativas. Cuando se trata de sensibilidad y especificidad, es importante tener un equilibrio entre los dos valores, por lo que si podemos disminuir nuestra especificidad para aumentar la sensibilidad, eso resultaría beneficioso. [13] Estos son solo algunos ejemplos sobre cómo usar estos valores y los significados detrás de ellos para evaluar el modelo de árbol de decisión y mejorar la siguiente iteración.

Ver también

Referencias

  1. ^ von Winterfeldt, Detlof; Edwards, sala (1986). "Árboles de decisión". Análisis de decisiones e investigación del comportamiento . Prensa de la Universidad de Cambridge. págs. 63–89. ISBN 0-521-27304-8.
  2. ^ Kamiński, B.; Jakubczyk, M.; Szufel, P. (2017). "Un marco para el análisis de sensibilidad de árboles de decisión". Revista Centroeuropea de Investigación de Operaciones . 26 (1): 135-159. doi :10.1007/s10100-017-0479-6. PMC 5767274 . PMID  29375266. 
  3. ^ Quinlan, JR (1987). "Simplificando árboles de decisión". Revista Internacional de Estudios Hombre-Máquina . 27 (3): 221–234. CiteSeerX 10.1.1.18.4267 . doi :10.1016/S0020-7373(87)80053-6. 
  4. ^ K. Karimi y HJ Hamilton (2011), "Generación e interpretación de reglas de decisión temporal", Revista internacional de sistemas de información informática y aplicaciones de gestión industrial, volumen 3
  5. ^ Wagner, Harvey M. (1 de septiembre de 1975). Principios de la investigación operativa: con aplicaciones a las decisiones gerenciales (2ª ed.). Englewood Cliffs, Nueva Jersey: Prentice Hall. ISBN 9780137095926.
  6. ^ R. Quinlan, "Aprendizaje de procedimientos de clasificación eficientes", Aprendizaje automático: un enfoque de inteligencia artificial , Michalski, Carbonell & Mitchell (eds.), Morgan Kaufmann, 1983, p. 463–482. doi :10.1007/978-3-662-12405-5_15
  7. ^ Utgoff, PE (1989). Inducción incremental de árboles de decisión. Aprendizaje automático, 4(2), 161–186. doi :10.1023/A:1022699900025
  8. ^ Deng, H.; Runger, G.; Tuv, E. (2011). Medidas de sesgo de importancia para atributos y soluciones multivaluados. Actas de la 21ª Conferencia Internacional sobre Redes Neuronales Artificiales (ICANN).
  9. ^ Larose, Chantal, Daniel (2014). Discovering Knowledge in Data. Hoboken, NJ: John Wiley & Sons. p. 167. ISBN 9780470908747.{{cite book}}: CS1 maint: multiple names: authors list (link)
  10. ^ Plapinger, Thomas (29 July 2017). "What is a Decision Tree?". Towards Data Science. Archived from the original on 10 December 2021. Retrieved 5 December 2021.
  11. ^ Tao, Christopher (6 September 2020). "Do Not Use Decision Tree Like Thus". Towards Data Science. Archived from the original on 10 December 2021. Retrieved 10 December 2021.
  12. ^ "False Positive Rate | Split Glossary". Split. Retrieved 10 December 2021.
  13. ^ "Sensitivity vs Specificity". Analysis & Separations from Technology Networks. Retrieved 10 December 2021.

External links