stringtranslate.com

Agrupación de datos

La agrupación de datos , también llamada agrupación discreta de datos o agrupación de datos , es una técnica de preprocesamiento de datos que se utiliza para reducir los efectos de errores menores de observación . Los valores de datos originales que caen en un intervalo pequeño dado, un contenedor , se reemplazan por un valor representativo de ese intervalo, a menudo un valor central ( media o mediana ). [ cita necesaria ] Está relacionado con la cuantificación : la agrupación de datos opera en el eje de abscisas mientras que la cuantificación opera en el eje de ordenadas . Binning es una generalización del redondeo .

La agrupación de datos estadísticos es una forma de agrupar números de valores más o menos continuos en un número menor de "contenedores". Por ejemplo, si tiene datos sobre un grupo de personas, es posible que desee organizar sus edades en un número menor de intervalos de edad (por ejemplo, agruparlos cada cinco años). También se puede utilizar en estadísticas multivariadas , agrupando varias dimensiones a la vez.

En el procesamiento de imágenes digitales , "binning" tiene un significado muy diferente. La agrupación de píxeles es el proceso de combinar bloques de píxeles adyacentes en una imagen, sumando o promediando sus valores, durante o después de la lectura. Reduce la cantidad de datos; Además, el nivel de ruido relativo en el resultado es menor.

Uso de ejemplo

Los histogramas son un ejemplo de agrupación de datos que se utiliza para observar distribuciones de frecuencia subyacentes . Por lo general, ocurren en un espacio unidimensional y en intervalos iguales para facilitar la visualización.

La agrupación de datos se puede utilizar cuando pequeños cambios instrumentales en la dimensión espectral de los experimentos de espectrometría de masas (MS) o resonancia magnética nuclear (RMN) se interpreten erróneamente como representantes de diferentes componentes, cuando una colección de perfiles de datos se somete a un análisis de reconocimiento de patrones . Una forma sencilla de afrontar este problema es utilizar técnicas de agrupamiento en las que se reduce la resolución del espectro en un grado suficiente para garantizar que un pico determinado permanezca en su contenedor a pesar de pequeños cambios espectrales entre análisis. Por ejemplo, en RMN el eje de desplazamiento químico puede discretizarse y agruparse de forma aproximada, y en MS las precisiones espectrales pueden redondearse a valores unitarios de masa atómica enteros . Además, varios sistemas de cámaras digitales incorporan una función de agrupación automática de píxeles para mejorar el contraste de la imagen. [1]

El binning también se utiliza en el aprendizaje automático para acelerar [2] el método de mejora del árbol de decisiones para la clasificación y regresión supervisadas en algoritmos como LightGBM de Microsoft y el árbol de clasificación de mejora de gradiente basado en histograma de scikit-learn .

Ver también

Referencias

  1. ^ "Uso de binning en fotografía". Nikon, ex Unión Soviética . Consultado el 18 de enero de 2011 .
  2. ^ "LightGBM: un árbol de decisiones de impulso de gradiente altamente eficiente". Sistemas de procesamiento de información neuronal (NIPS) . Consultado el 18 de diciembre de 2019 .