stringtranslate.com

Estimación de la densidad del grano variable.

En estadística , la estimación de la densidad del núcleo adaptativa o de "ancho de banda variable" es una forma de estimación de la densidad del núcleo en la que el tamaño de los núcleos utilizados en la estimación varía dependiendo de la ubicación de las muestras o de la ubicación del punto de prueba. Es una técnica particularmente eficaz cuando el espacio muestral es multidimensional. [1]

Razón fundamental

Dado un conjunto de muestras, deseamos estimar la densidad, en un punto de prueba ,:

donde n es el número de muestras, K es el "núcleo" , h es su ancho y D es el número de dimensiones . El núcleo puede considerarse como un filtro lineal simple .

Usar un ancho de filtro fijo puede significar que en regiones de baja densidad, todas las muestras caerán en las colas del filtro con una ponderación muy baja, mientras que en regiones de alta densidad encontrarán un número excesivo de muestras en la región central con una ponderación cercana a la unidad. . Para solucionar este problema, variamos el ancho del núcleo en diferentes regiones del espacio muestral. Hay dos métodos para hacer esto: estimación global y puntual. En un estimador de globo, el ancho del núcleo varía dependiendo de la ubicación del punto de prueba. En un estimador puntual, el ancho del núcleo varía dependiendo de la ubicación de la muestra. [1]

Para estimadores multivariados, el parámetro h se puede generalizar para variar no sólo el tamaño, sino también la forma del núcleo. Este enfoque más complicado no se tratará aquí.

Estimadores de globos

Un método común para variar el ancho del grano es hacerlo inversamente proporcional a la densidad en el punto de prueba:

donde k es una constante. Si sustituimos la PDF estimada y asumimos una función kernel gaussiana , podemos demostrar que W es una constante: [2]

Una derivación similar es válida para cualquier núcleo cuya función normalizadora sea del orden h D , aunque con un factor constante diferente en lugar del término (2 π) D/2 . Esto produce una generalización del algoritmo de k vecinos más cercanos . Es decir, una función del núcleo uniforme devolverá la técnica KNN. [2]

El error tiene dos componentes: un término de varianza y un término de sesgo. El término de varianza viene dado como: [1]

.

El término de sesgo se encuentra evaluando la función aproximada en el límite a medida que el ancho del núcleo se vuelve mucho mayor que el espaciado de la muestra. Al utilizar una expansión de Taylor para la función real, el término de sesgo desaparece:

De este modo se puede derivar un ancho de núcleo óptimo que minimice el error de cada estimación.

Uso para clasificación estadística.

El método es particularmente eficaz cuando se aplica a la clasificación estadística . Hay dos formas de proceder: la primera es calcular las PDF de cada clase por separado, utilizando diferentes parámetros de ancho de banda, y luego compararlas como en Taylor. [3] Alternativamente, podemos dividir la suma según la clase de cada muestra:

donde ci es la clase de la i- ésima muestra. La clase del punto de prueba se puede estimar mediante máxima verosimilitud .


enlaces externos

Referencias

  1. ^ abc Director General Terrell; DW Scott (1992). "Estimación de densidad de núcleo variable". Anales de Estadística . 20 (3): 1236–1265. doi : 10.1214/aos/1176348768 .
  2. ^ ab Mills, Peter (2011). "Clasificación estadística eficiente de mediciones satelitales". Revista Internacional de Percepción Remota . 32 (21): 6109–6132. arXiv : 1202.2194 . Código Bib : 2011IJRS...32.6109M. doi :10.1080/01431161.2010.507795. S2CID  88518570.
  3. ^ Taylor, Charles (1997). "Clasificación y estimación de la densidad del grano". Vistas en Astronomía . 41 (3): 411–417. Código Bib : 1997VA......41..411T. doi :10.1016/s0083-6656(97)00046-9.