La clasificación de datos , también llamada clasificación discreta de datos o agrupamiento de datos , es una técnica de preprocesamiento de datos que se utiliza para reducir los efectos de errores de observación menores . Los valores de datos originales que caen en un intervalo pequeño dado, una clasificación , se reemplazan por un valor representativo de ese intervalo, a menudo un valor central ( media o mediana ). [ cita requerida ] Está relacionado con la cuantificación : la clasificación de datos opera en el eje de abscisas mientras que la cuantificación opera en el eje de ordenadas . La clasificación es una generalización del redondeo .
La clasificación de datos estadísticos es una forma de agrupar cantidades de valores más o menos continuos en una cantidad menor de "clasificaciones". Por ejemplo, si tiene datos sobre un grupo de personas, es posible que desee organizar sus edades en una cantidad menor de intervalos de edad (por ejemplo, agrupando cada cinco años). También se puede utilizar en estadísticas multivariadas , agrupando en varias dimensiones a la vez.
En el procesamiento de imágenes digitales , el término "binning" tiene un significado muy diferente. El binning de píxeles es el proceso de combinar bloques de píxeles adyacentes en una imagen, sumando o promediando sus valores, durante o después de la lectura. Esto reduce la cantidad de datos y también reduce el nivel de ruido relativo en el resultado.
Los histogramas son un ejemplo de agrupamiento de datos que se utiliza para observar distribuciones de frecuencia subyacentes . Por lo general, se presentan en un espacio unidimensional y en intervalos iguales para facilitar la visualización.
La clasificación de datos se puede utilizar cuando pequeños cambios instrumentales en la dimensión espectral de los experimentos de espectrometría de masas (EM) o resonancia magnética nuclear (RMN) se interpretan erróneamente como la representación de componentes diferentes, cuando una colección de perfiles de datos se somete a un análisis de reconocimiento de patrones . Una forma sencilla de hacer frente a este problema es mediante el uso de técnicas de clasificación en las que se reduce la resolución del espectro en un grado suficiente para garantizar que un pico determinado permanezca en su casilla a pesar de pequeños cambios espectrales entre análisis. Por ejemplo, en RMN el eje de desplazamiento químico se puede discretizar y clasificar de forma aproximada, y en EM las precisiones espectrales se pueden redondear a valores unitarios de masa atómica enteros . Además, varios sistemas de cámaras digitales incorporan una función de clasificación automática de píxeles para mejorar el contraste de la imagen. [1]
El binning también se utiliza en el aprendizaje automático para acelerar [2] el método de impulso del árbol de decisiones para la clasificación supervisada y la regresión en algoritmos como LightGBM de Microsoft y el árbol de clasificación de impulso de gradiente basado en histograma de scikit-learn .