La estimación de densidad kernel es una técnica no paramétrica para la estimación de densidad , es decir, la estimación de funciones de densidad de probabilidad , que es una de las cuestiones fundamentales en estadística . Puede verse como una generalización de la estimación de densidad de histograma con propiedades estadísticas mejoradas. Además de los histogramas, otros tipos de estimadores de densidad incluyen paramétricos , spline , wavelet y series de Fourier . Los estimadores de densidad kernel se introdujeron por primera vez en la literatura científica para datos univariados en los años 1950 y 1960 [1] [2] y posteriormente se han adoptado ampliamente. Pronto se reconoció que los estimadores análogos para datos multivariados serían una adición importante a las estadísticas multivariadas . Con base en la investigación realizada en los años 1990 y 2000, la estimación de densidad kernel multivariada ha alcanzado un nivel de madurez comparable a sus contrapartes univariadas. [3] [4] [5]
Tomamos un conjunto de datos bivariados sintéticos ilustrativos de 50 puntos para ilustrar la construcción de histogramas. Esto requiere la elección de un punto de anclaje (la esquina inferior izquierda de la cuadrícula del histograma). Para el histograma de la izquierda, elegimos (−1,5, −1,5); para el de la derecha, desplazamos el punto de anclaje en 0,125 en ambas direcciones a (−1,625, −1,625). Ambos histogramas tienen un ancho de bin de 0,5, por lo que cualquier diferencia se debe únicamente al cambio en el punto de anclaje. El código de colores indica la cantidad de puntos de datos que caen en un bin: 0 = blanco, 1 = amarillo pálido, 2 = amarillo brillante, 3 = naranja, 4 = rojo. El histograma de la izquierda parece indicar que la mitad superior tiene una mayor densidad que la mitad inferior, mientras que ocurre lo contrario en el histograma de la derecha, lo que confirma que los histogramas son muy sensibles a la ubicación del punto de anclaje. [6]
Una posible solución a este problema de colocación de puntos de anclaje es eliminar por completo la cuadrícula de clasificación del histograma. En la figura de la izquierda, un núcleo (representado por las líneas grises) está centrado en cada uno de los 50 puntos de datos anteriores. El resultado de sumar estos núcleos se muestra en la figura de la derecha, que es una estimación de la densidad del núcleo. La diferencia más llamativa entre las estimaciones de la densidad del núcleo y los histogramas es que los primeros son más fáciles de interpretar, ya que no contienen artificios inducidos por una cuadrícula de clasificación. Los contornos coloreados corresponden a la región más pequeña que contiene la respectiva masa de probabilidad: rojo = 25%, naranja + rojo = 50%, amarillo + naranja + rojo = 75%, lo que indica que una única región central contiene la densidad más alta.
El objetivo de la estimación de densidad es tomar una muestra finita de datos y hacer inferencias sobre la función de densidad de probabilidad subyacente en todas partes, incluso donde no se observan datos. En la estimación de densidad kernel, la contribución de cada punto de datos se suaviza desde un único punto hacia una región del espacio que lo rodea. La agregación de las contribuciones suavizadas individualmente proporciona una imagen general de la estructura de los datos y su función de densidad. En los detalles que siguen, mostramos que este enfoque conduce a una estimación razonable de la función de densidad subyacente.
La figura anterior es una representación gráfica de la estimación de la densidad de kernel, que ahora definimos de manera exacta. Sea x 1 , x 2 , ..., x n una muestra de vectores aleatorios de d variables extraídos de una distribución común descrita por la función de densidad ƒ . La estimación de la densidad de kernel se define como
dónde
La elección de la función kernel K no es crucial para la precisión de los estimadores de densidad kernel, por lo que utilizamos el kernel normal multivariado estándar en todo momento: , donde H desempeña el papel de la matriz de covarianza . Por otro lado, la elección de la matriz de ancho de banda H es el factor más importante que afecta a su precisión, ya que controla la cantidad y la orientación del suavizado inducido. [3] : 36–39 Que la matriz de ancho de banda también induzca una orientación es una diferencia básica entre la estimación de densidad kernel multivariada y su análogo univariante, ya que la orientación no está definida para kernels 1D. Esto conduce a la elección de la parametrización de esta matriz de ancho de banda. Las tres clases principales de parametrización (en orden creciente de complejidad) son S , la clase de escalares positivos multiplicados por la matriz identidad; D , matrices diagonales con entradas positivas en la diagonal principal; y F , matrices definidas positivas simétricas. Los núcleos de clase S tienen la misma cantidad de suavizado aplicado en todas las direcciones de coordenadas, los núcleos D permiten diferentes cantidades de suavizado en cada una de las coordenadas y los núcleos F permiten cantidades y orientaciones arbitrarias del suavizado. Históricamente, los núcleos S y D son los más extendidos debido a razones computacionales, pero las investigaciones indican que se pueden obtener importantes ganancias en precisión utilizando los núcleos de clase F más generales . [7] [8]
El criterio de optimalidad más comúnmente utilizado para seleccionar una matriz de ancho de banda es el MISE o error cuadrático medio integrado.
Esto en general no posee una expresión de forma cerrada , por lo que es habitual utilizar su aproximación asintótica (AMISE) como proxy.
dónde
La calidad de la aproximación AMISE al MISE [3] : 97 viene dada por
donde o indica la notación o minúscula habitual . Heurísticamente, esta afirmación implica que el AMISE es una "buena" aproximación del MISE ya que el tamaño de la muestra es n → ∞.
Se puede demostrar que cualquier selector de ancho de banda razonable H tiene H = O ( n −2/( d +4) ) donde la notación O grande se aplica elemento por elemento. Sustituyendo esto en la fórmula MISE se obtiene que el MISE óptimo es O ( n −4/( d +4) ). [3] : 99–100 Por lo tanto, cuando n → ∞, el MISE → 0, es decir, la estimación de densidad de kernel converge en el cuadrado medio y, por lo tanto, también en probabilidad a la densidad verdadera f . Estos modos de convergencia son una confirmación de la afirmación de la sección de motivación de que los métodos de kernel conducen a estimadores de densidad razonables. Un selector de ancho de banda óptimo ideal es
Dado que este selector ideal contiene la función de densidad desconocida ƒ , no se puede utilizar directamente. Las diferentes variedades de selectores de ancho de banda basados en datos surgen de los diferentes estimadores del AMISE. Nos concentramos en dos clases de selectores que han demostrado ser los más aplicables en la práctica: la validación cruzada suavizada y los selectores de complemento.
La estimación del complemento (PI) del AMISE se forma reemplazando Ψ 4 por su estimador
donde . Por lo tanto, es el selector de complemento. [9] [10] Estas referencias también contienen algoritmos sobre la estimación óptima de la matriz de ancho de banda piloto G y establecen que converge en probabilidad a H AMISE .
La validación cruzada suavizada (SCV) es un subconjunto de una clase más amplia de técnicas de validación cruzada . El estimador SCV se diferencia del estimador de complemento en el segundo término
Así es el selector SCV. [10] [11] Estas referencias también contienen algoritmos sobre la estimación óptima de la matriz de ancho de banda piloto G y establecen que converge en probabilidad a H AMISE .
La regla de oro de Silverman sugiere utilizar , donde es la desviación estándar de la variable i y es el número de dimensiones, y . La regla de Scott es .
En la sección de selección de ancho de banda óptimo, presentamos el MISE. Su construcción se basa en el valor esperado y la varianza del estimador de densidad [3] : 97
donde * es el operador de convolución entre dos funciones, y
Para que estas dos expresiones estén bien definidas, requerimos que todos los elementos de H tiendan a 0 y que n −1 | H | −1/2 tienda a 0 cuando n tiende a infinito. Suponiendo estas dos condiciones, vemos que el valor esperado tiende a la densidad verdadera f , es decir, el estimador de densidad kernel es asintóticamente insesgado ; y que la varianza tiende a cero. Utilizando la descomposición estándar del valor cuadrático medio
tenemos que el MSE tiende a 0, lo que implica que el estimador de densidad kernel es (cuadrado medio) consistente y, por lo tanto, converge en probabilidad a la densidad verdadera f . La tasa de convergencia del MSE a 0 es necesariamente la misma que la tasa MISE observada anteriormente O ( n −4/(d+4) ), por lo tanto, la tasa de convergencia del estimador de densidad a f es O p (n −2/( d +4) ) donde O p denota orden en probabilidad . Esto establece la convergencia puntual. La convergencia funcional se establece de manera similar considerando el comportamiento del MISE y notando que, bajo suficiente regularidad, la integración no afecta las tasas de convergencia.
Para los selectores de ancho de banda basados en datos considerados, el objetivo es la matriz de ancho de banda AMISE. Decimos que un selector basado en datos converge al selector AMISE a una tasa relativa O p ( n − α ), α > 0 si
Se ha establecido que los selectores de validación cruzada suavizados y enchufables (dado un único ancho de banda piloto G ) convergen a una tasa relativa de O p ( n −2/( d +6) ) [10] [12] , es decir, ambos selectores basados en datos son estimadores consistentes.
El paquete ks [13] en R implementa los selectores de plug-in y de validación cruzada suavizada (entre otros). Este conjunto de datos (incluido en la distribución base de R) contiene 272 registros con dos mediciones cada uno: el tiempo de duración de una erupción (minutos) y el tiempo de espera hasta la próxima erupción (minutos) del géiser Old Faithful en el Parque Nacional de Yellowstone, EE. UU.
El fragmento de código calcula la estimación de densidad de kernel con la matriz de ancho de banda del complemento. Nuevamente, los contornos coloreados corresponden a la región más pequeña que contiene la respectiva masa de probabilidad: rojo = 25 %, naranja + rojo = 50 %, amarillo + naranja + rojo = 75 %. Para calcular el selector SCV, se reemplaza con . Esto no se muestra aquí ya que es en su mayoría similar a la estimación del complemento para este ejemplo.Hpi
Hscv
biblioteca ( ks ) datos ( fiel ) H <- Hpi ( x = fiel ) fhat <- kde ( x = fiel , H = H ) gráfico ( fhat , display = "filled.contour" , drawpoints = TRUE , cex = 0.5 , pch = 16 , col.pt = 1 )
Consideramos estimar la densidad de la mezcla gaussiana (4 π ) −1 exp(− 1 ⁄ 2 ( x 1 2 + x 2 2 )) + (4 π ) −1 exp(− 1 ⁄ 2 (( x 1 - 3.5) 2 + x 2 2 )) , a partir de 500 puntos generados aleatoriamente. Empleamos la rutina de Matlab para datos bidimensionales. La rutina es un método de selección automática de ancho de banda diseñado específicamente para un núcleo gaussiano de segundo orden. [14] La figura muestra la estimación de densidad conjunta que resulta de usar el ancho de banda seleccionado automáticamente.
Script de Matlab para el ejemplo
Escriba los siguientes comandos en Matlab después de descargar y guardar la función kde2d.m en el directorio actual.
borrar todo % generar datos sintéticos datos =[ randn ( 500 , 2 ); randn ( 500 , 1 ) + 3.5 , randn ( 500 , 1 );]; % llamar a la rutina, que se ha guardado en el directorio actual [ ancho de banda , densidad , X , Y ]= kde2d ( datos ); % representar gráficamente los datos y la estimación de densidad contour3 ( X , Y , densidad , 50 ), mantener en plot ( datos (:, 1 ), datos (:, 2 ), 'r.' , 'MarkerSize' , 5 )
El MISE es la distancia L 2 integrada esperada entre la estimación de densidad y la función de densidad verdadera f . Es el más utilizado, principalmente debido a su manejabilidad y la mayoría del software implementa selectores de ancho de banda basados en MISE. Existen criterios de optimalidad alternativos, que intentan cubrir casos en los que MISE no es una medida apropiada. [4] : 34–37, 78 La medida L 1 equivalente , el error absoluto integrado medio, es
Su análisis matemático es considerablemente más difícil que el de MISE. En la práctica, la ganancia parece no ser significativa. [15] La norma L ∞ es el Error Absoluto Uniforme Medio
que se ha investigado sólo brevemente. [16] Los criterios de error de probabilidad incluyen aquellos basados en la divergencia media de Kullback-Leibler
y la distancia media de Hellinger
La KL se puede estimar utilizando un método de validación cruzada, aunque los selectores de validación cruzada de KL pueden ser subóptimos incluso si permanecen consistentes para funciones de densidad acotadas. [17] Los selectores de MH se han examinado brevemente en la literatura. [18]
Todos estos criterios de optimalidad son medidas basadas en la distancia y no siempre corresponden a nociones más intuitivas de cercanía, por lo que se han desarrollado criterios más visuales en respuesta a esta preocupación. [19]
Investigaciones recientes han demostrado que el kernel y su ancho de banda pueden elegirse de manera óptima y objetiva a partir de los datos de entrada sin hacer suposiciones sobre la forma de la distribución. [20] La estimación de densidad de kernel resultante converge rápidamente a la distribución de probabilidad real a medida que se agregan muestras: a una tasa cercana a la esperada para los estimadores paramétricos. [20] [21] [22] Este estimador de kernel funciona tanto para muestras univariadas como multivariadas. El kernel óptimo se define en el espacio de Fourier, como la función de amortiguamiento óptima (la transformada de Fourier del kernel ), en términos de la transformada de Fourier de los datos , la función característica empírica (ver Estimación de densidad de kernel ):
[22]
donde, N es el número de puntos de datos, d es el número de dimensiones (variables), y es un filtro que es igual a 1 para 'frecuencias aceptadas' y 0 en caso contrario. Hay varias formas de definir esta función de filtro, y una simple que funciona para muestras univariadas o multivariadas se llama 'filtro de hipervolumen contiguo más bajo'; se elige de modo que las únicas frecuencias aceptadas sean un subconjunto contiguo de frecuencias que rodean el origen para el cual (consulte [22] para una discusión de esta y otras funciones de filtro).
Cabe señalar que el cálculo directo de la función característica empírica (ECF) es lento, ya que implica esencialmente una transformada de Fourier directa de las muestras de datos. Sin embargo, se ha descubierto que la ECF se puede aproximar con precisión utilizando un método de transformada rápida de Fourier no uniforme (nuFFT), [21] [22] que aumenta la velocidad de cálculo en varios órdenes de magnitud (dependiendo de la dimensionalidad del problema). La combinación de este método KDE objetivo y la aproximación ECF basada en nuFFT se ha denominado fastKDE en la literatura. [22]
{{cite book}}
: CS1 maint: multiple names: authors list (link)