La partición recursiva es un método estadístico para el análisis multivariable . [1] La partición recursiva crea un árbol de decisiones que intenta clasificar correctamente a los miembros de la población dividiéndola en subpoblaciones en función de varias variables independientes dicotómicas . El proceso se denomina recursivo porque cada subpoblación puede, a su vez, dividirse una cantidad indefinida de veces hasta que el proceso de división finaliza después de que se alcanza un criterio de detención particular.
Los métodos de partición recursiva se han desarrollado desde la década de 1980. Entre los métodos de partición recursiva más conocidos se encuentran el algoritmo ID3 de Ross Quinlan y sus sucesores, C4.5 y C5.0 , y los árboles de clasificación y regresión (CART). Los métodos de aprendizaje por conjuntos, como los bosques aleatorios, ayudan a superar una crítica común a estos métodos (su vulnerabilidad al sobreajuste de los datos) al emplear diferentes algoritmos y combinar sus resultados de alguna manera.
Este artículo se centra en la partición recursiva para pruebas de diagnóstico médico , pero la técnica tiene aplicaciones mucho más amplias. Véase árbol de decisiones .
En comparación con el análisis de regresión, que crea una fórmula que los proveedores de atención médica pueden usar para calcular la probabilidad de que un paciente tenga una enfermedad, la partición recursiva crea una regla como "Si un paciente tiene el hallazgo x, y o z, probablemente tenga la enfermedad q".
Una variación es la “partición recursiva lineal de Cox”. [2]
Ventajas y desventajas
En comparación con otros métodos multivariables, la partición recursiva tiene ventajas y desventajas.
Las ventajas son:
Genera modelos clínicamente más intuitivos que no requieren que el usuario realice cálculos. [3]
Permite variar la priorización de las clasificaciones erróneas para crear una regla de decisión que tenga más sensibilidad o especificidad . [2]
Quizás sea más preciso. [4]
Las desventajas son:
No funciona bien para variables continuas [5]
Puede sobreajustar los datos.
Ejemplos
Existen ejemplos del uso de particiones recursivas en la investigación de pruebas diagnósticas. [6] [7] [8] [9] [10] [11] Goldman utilizó la partición recursiva para priorizar la sensibilidad en el diagnóstico de infarto de miocardio entre pacientes con dolor torácico en la sala de emergencias. [11]
^ Breiman, Leo (1984). Árboles de clasificación y regresión . Boca Raton: Chapman & Hall/CRC. ISBN 978-0-412-04841-8.
^ ab Cook EF, Goldman L (1984). "Comparación empírica de técnicas analíticas multivariadas: ventajas y desventajas del análisis de partición recursiva". Journal of Chronic Diseases . 37 (9–10): 721–31. doi :10.1016/0021-9681(84)90041-9. PMID 6501544.
^ James KE, White RF, Kraemer HC (2005). "Validación de muestras divididas repetidas para evaluar la regresión logística y la partición recursiva: una aplicación a la predicción del deterioro cognitivo". Estadísticas en Medicina . 24 (19): 3019–35. doi :10.1002/sim.2154. PMID 16149128.
^ Kattan MW, Hess KR, Beck JR (1998). "Experimentos para determinar si la partición recursiva (CART) o una red neuronal artificial supera las limitaciones teóricas de la regresión de riesgos proporcionales de Cox". Comput. Biomed. Res . 31 (5): 363–73. doi :10.1006/cbmr.1998.1488. PMID 9790741.
^ Lee JW, Um SH, Lee JB, Mun J, Cho H (2006). "Sistemas de puntuación y estadificación utilizando modelos de regresión lineal de Cox y particionamiento recursivo". Métodos de información en medicina . 45 (1): 37–43. doi :10.1055/s-0038-1634034. PMID 16482368.
^ Fonarow GC, Adams KF, Abraham WT, Yancy CW, Boscardin WJ (2005). "Estratificación del riesgo de mortalidad hospitalaria en insuficiencia cardíaca aguda descompensada: clasificación y análisis de árbol de regresión". JAMA . 293 (5): 572–80. doi : 10.1001/jama.293.5.572 . PMID 15687312.
^ Stiell IG, Wells GA, Vandemheen KL, et al. (2001). "La regla canadiense de la columna cervical para radiografía en pacientes con traumatismos alertas y estables". JAMA . 286 (15): 1841–8. doi : 10.1001/jama.286.15.1841 . PMID 11597285.
^ Haydel MJ, Preston CA, Mills TJ, Luber S, Blaudeau E, DeBlieux PM (2000). "Indicaciones para la tomografía computarizada en pacientes con traumatismo craneoencefálico leve". N. Engl. J. Med . 343 (2): 100–5. doi : 10.1056/NEJM200007133430204 . PMID 10891517.
^ Edworthy SM, Zatarain E, McShane DJ, Bloch DA (1988). "Análisis del conjunto de datos de criterios de lupus de la ARA de 1982 mediante una metodología de partición recursiva: nuevos conocimientos sobre el mérito relativo de los criterios individuales". J. Rheumatol . 15 (10): 1493–8. PMID 3060613.
^ Stiell IG, Greenberg GH, Wells GA, et al. (1996). "Validación prospectiva de una regla de decisión para el uso de la radiografía en lesiones agudas de rodilla". JAMA . 275 (8): 611–5. doi :10.1001/jama.275.8.611. PMID 8594242.
^ ab Goldman L, Weinberg M, Weisberg M, et al. (1982). "Un protocolo derivado por computadora para ayudar en el diagnóstico de pacientes de salas de emergencia con dolor torácico agudo". N. Engl. J. Med . 307 (10): 588–96. doi :10.1056/NEJM198209023071004. PMID 7110205.