Técnica de aprendizaje del árbol de decisiones
La detección automática de interacción de chi-cuadrado ( CHAID ) [1] [2] [3] es una técnica de árbol de decisión basada en pruebas de significancia ajustadas ( corrección de Bonferroni , prueba de Holm-Bonferroni ). La técnica fue desarrollada en Sudáfrica en 1975 y publicada en 1980 por Gordon V. Kass, quien había completado una tesis doctoral sobre este tema. CHAID se puede utilizar para predicción (de manera similar al análisis de regresión , esta versión de CHAID se conocía originalmente como XAID) así como para clasificación, y para la detección de interacción entre variables. CHAID se basa en una extensión formal de los procedimientos AID (Automatic Interaction Detection) [4] y THAID (THeta Automatic Interaction Detection) [5] [6] de los años 1960 y 1970, que a su vez fueron extensiones de investigaciones anteriores, incluida la realizada por Belson en el Reino Unido en los años 1950. [7] Se puede encontrar un historial de métodos de árboles supervisados anteriores junto con una descripción detallada del algoritmo CHAID original y la extensión CHAID exhaustiva de Biggs, De Ville y Suen, [2] en Ritschard . [3]
En la práctica, CHAID se utiliza a menudo en el contexto del marketing directo para seleccionar grupos de consumidores y predecir cómo sus respuestas a algunas variables afectan a otras, aunque otras aplicaciones tempranas fueron en los campos de la investigación médica y psiquiátrica.
Al igual que otros árboles de decisión, las ventajas de CHAID son que su resultado es muy visual y fácil de interpretar. Debido a que utiliza divisiones multidireccionales de manera predeterminada, necesita tamaños de muestra bastante grandes para funcionar de manera eficaz, ya que con tamaños de muestra pequeños los grupos de encuestados pueden volverse rápidamente demasiado pequeños para un análisis confiable.
Una ventaja importante de CHAID sobre alternativas como la regresión múltiple es que no es paramétrico.
Véase también
Referencias
- ^ Kass, GV (1980). "Una técnica exploratoria para investigar grandes cantidades de datos categóricos". Applied Statistics . 29 (2): 119–127. doi :10.2307/2986296. JSTOR 2986296.
- ^ ab Biggs, David; De Ville, Barry; Suen, Ed (1991). "Un método para elegir particiones multidireccionales para árboles de clasificación y decisión". Journal of Applied Statistics . 18 (1): 49–62. doi :10.1080/02664769100000005. ISSN 0266-4763.
- ^ ab Ritschard, Gilbert (2013). "CHAID y métodos de árboles supervisados anteriores". Cuestiones contemporáneas en minería de datos exploratoria en las ciencias del comportamiento, McArdle, JJ y G. Ritschard (Eds) . Nueva York: Routledge: 48–74.
- ^ Morgan, James N.; Sonquist, John A. (1963). "Problemas en el análisis de datos de encuestas y una propuesta". Revista de la Asociación Estadounidense de Estadística . 58 (302): 415–434. doi :10.1080/01621459.1963.10500855. ISSN 0162-1459.
- ^ Messenger, Robert; Mandell, Lewis (1972). "Una técnica de búsqueda modal para el análisis multivariante predictivo de escala nominal". Revista de la Asociación Estadounidense de Estadística . 67 (340): 768–772. doi :10.1080/01621459.1972.10481290. ISSN 0162-1459.
- ^ Morgan, James N. (1973). THAID, un programa de análisis secuencial para el análisis de variables dependientes de escala nominal. Robert C. Messenger. Ann Arbor, Michigan. ISBN 0-87944-137-2.OCLC 666930 .
{{cite book}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace ) - ^ Belson, William A. (1959). "Coincidencia y predicción según el principio de clasificación biológica". Applied Statistics . 8 (2): 65–75. doi :10.2307/2985543. JSTOR 2985543.
Lectura adicional
- Press, Laurence I.; Rogers, Miles S.; y Shure, Gerald H.; Una técnica interactiva para el análisis de datos multivariados , Behavioral Science, vol. 14 (1969), págs. 364–370
- Hawkins, Douglas M.; y Kass, Gordon V.; Automatic Interaction Detection , en Hawkins, Douglas M. (ed.), Topics in Applied Multivariate Analysis , Cambridge University Press, Cambridge, 1982, págs. 269–302
- Hooton, Thomas M.; Haley, Robert W.; Culver, David H.; White, John W.; Morgan, W. Meade; y Carroll, Raymond J.; Las asociaciones conjuntas de múltiples factores de riesgo con la aparición de infecciones nosocomiales , American Journal of Medicine, vol. 70, (1981), págs. 960–970
- Brink, Susanne; y Van Schalkwyk, Dirk J.; Ferritina sérica y volumen corpuscular medio como predictores de las reservas de hierro en la médula ósea , South African Medical Journal, vol. 61, (1982), págs. 432–434
- McKenzie, Dean P.; McGorry, Patrick D.; Wallace, Chris S.; Low, Lee H.; Copolov, David L.; y Singh, Bruce S.; Construcción de un árbol de decisión diagnóstica mínimo , Métodos de información en medicina, vol. 32 (1993), págs. 161–166
- Magidson, Jay; El enfoque CHAID para el modelado de segmentación: detección automática de interacciones mediante chi-cuadrado , en Bagozzi, Richard P. (ed.); Métodos avanzados de investigación de marketing , Blackwell, Oxford, GB, 1994, págs. 118-159
- Hawkins, Douglas M.; Young, SS; y Rosinko, A.; Análisis de un gran conjunto de datos de estructura-actividad mediante particionamiento recursivo , Quantitative Structure-Activity Relationships, vol. 16, (1997), págs. 296-302
Software
- Luchman, JN; CHAID: Módulo Stata para realizar detección de interacción automatizada de chi-cuadrado , disponible para descarga gratuita o escriba dentro de Stata: ssc install chaid.
- Luchman, JN; CHAIDFOREST: módulo de Stata para realizar una clasificación aleatoria de conjuntos forestales basada en la detección automatizada de interacción de chi-cuadrado (CHAID) como aprendiz base , disponible para descarga gratuita o escriba dentro de Stata: ssc install chaidforest.
- IBM SPSS Decision Trees crea árboles CHAID exhaustivos, así como algunos otros tipos de árboles como CART.
- Un paquete R CHAID está disponible en R-Forge.