Discretización de características continuas

En estadística y aprendizaje automático , la discretización se refiere al proceso de convertir o dividir atributos , características o variables continuas en atributos/características/variables/ intervalos discretizados o nominales . Esto puede ser útil al crear funciones de masa de probabilidad, formalmente, en la estimación de densidad . Es una forma de discretización en general y también de clasificación , como al hacer un histograma . Siempre que se discretizan datos continuos , existe una cierta cantidad de error de discretización . El objetivo es reducir la cantidad a un nivel considerado insignificante para los fines de modelado en cuestión.

Normalmente, los datos se discretizan en particiones de K longitudes/anchuras iguales (intervalos iguales) o K% de los datos totales (frecuencias iguales). ^[1]

Los mecanismos para discretizar datos continuos incluyen el método MDL de Fayyad e Irani ^[2], que utiliza información mutua para definir recursivamente los mejores contenedores, CAIM, CACC, Ameva y muchos otros ^[3].

Se sabe que muchos algoritmos de aprendizaje automático producen mejores modelos al discretizar atributos continuos. ^[4]

Software

Esta es una lista parcial del software que implementa el algoritmo MDL.

Herramienta discretize4crf diseñada para trabajar con implementaciones CRF populares ( C++ )
mdlp en la discretización del paquete R
Discretizar en el paquete RWeka

Véase también

Referencias

^ Clarke, EJ; Barton, BA (2000). "Entropía y discretización MDL de variables continuas para redes de creencias bayesianas" (PDF) . Revista internacional de sistemas inteligentes . 15 : 61–92. doi :10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O . Consultado el 10 de julio de 2008 .
^ Fayyad, Usama M.; Irani, Keki B. (1993) "Discretización multiintervalo de atributos con valores continuos para el aprendizaje de clasificación" (PDF) . 29 de julio de 2023. hdl :2014/35171., Acta de la 13.ª Conferencia Internacional Conjunta sobre Inteligencia Artificial (Q334 .I571 1993), págs. 1022-1027
^ Dougherty, J.; Kohavi, R.; Sahami, M. (1995). "Discretización supervisada y no supervisada de características continuas". En A. Prieditis y SJ Russell, eds. Trabajo . Morgan Kaufmann, págs. 194-202
^ Kotsiantis, S.; Kanellopoulos, D (2006). "Técnicas de discretización: una encuesta reciente". GESTS International Transactions on Computer Science and Engineering . 32 (1): 47–58. CiteSeerX 10.1.1.109.3084 .