En estadística y aprendizaje automático , la discretización se refiere al proceso de convertir o dividir atributos , características o variables continuas en atributos/características/variables/ intervalos discretizados o nominales . Esto puede ser útil al crear funciones de masa de probabilidad, formalmente, en la estimación de densidad . Es una forma de discretización en general y también de clasificación , como al hacer un histograma . Siempre que se discretizan datos continuos , existe una cierta cantidad de error de discretización . El objetivo es reducir la cantidad a un nivel considerado insignificante para los fines de modelado en cuestión.
Normalmente, los datos se discretizan en particiones de K longitudes/anchuras iguales (intervalos iguales) o K% de los datos totales (frecuencias iguales). [1]
Los mecanismos para discretizar datos continuos incluyen el método MDL de Fayyad e Irani [2], que utiliza información mutua para definir recursivamente los mejores contenedores, CAIM, CACC, Ameva y muchos otros [3].
Se sabe que muchos algoritmos de aprendizaje automático producen mejores modelos al discretizar atributos continuos. [4]
Esta es una lista parcial del software que implementa el algoritmo MDL.