stringtranslate.com

Estimación de densidad de kernel multivariante

La estimación de densidad kernel es una técnica no paramétrica para la estimación de densidad , es decir, la estimación de funciones de densidad de probabilidad , que es una de las cuestiones fundamentales en estadística . Puede verse como una generalización de la estimación de densidad de histograma con propiedades estadísticas mejoradas. Además de los histogramas, otros tipos de estimadores de densidad incluyen paramétricos , spline , wavelet y series de Fourier . Los estimadores de densidad kernel se introdujeron por primera vez en la literatura científica para datos univariados en los años 1950 y 1960 [1] [2] y posteriormente se han adoptado ampliamente. Pronto se reconoció que los estimadores análogos para datos multivariados serían una adición importante a las estadísticas multivariadas . Con base en la investigación realizada en los años 1990 y 2000, la estimación de densidad kernel multivariada ha alcanzado un nivel de madurez comparable a sus contrapartes univariadas. [3] [4] [5]

Motivación

Tomamos un conjunto de datos bivariados sintéticos ilustrativos de 50 puntos para ilustrar la construcción de histogramas. Esto requiere la elección de un punto de anclaje (la esquina inferior izquierda de la cuadrícula del histograma). Para el histograma de la izquierda, elegimos (−1,5, −1,5); para el de la derecha, desplazamos el punto de anclaje en 0,125 en ambas direcciones a (−1,625, −1,625). Ambos histogramas tienen un ancho de bin de 0,5, por lo que cualquier diferencia se debe únicamente al cambio en el punto de anclaje. El código de colores indica la cantidad de puntos de datos que caen en un bin: 0 = blanco, 1 = amarillo pálido, 2 = amarillo brillante, 3 = naranja, 4 = rojo. El histograma de la izquierda parece indicar que la mitad superior tiene una mayor densidad que la mitad inferior, mientras que ocurre lo contrario en el histograma de la derecha, lo que confirma que los histogramas son muy sensibles a la ubicación del punto de anclaje. [6]

Izquierda. Histograma con punto de anclaje en (−1,5, -1,5). Derecha. Histograma con punto de anclaje en (−1,625, −1,625). Ambos histogramas tienen un ancho de intervalo de 0,5, por lo que las diferencias en la apariencia de los dos histogramas se deben a la ubicación del punto de anclaje.
Comparación de histogramas 2D. Izquierda. Histograma con punto de anclaje en (−1,5, -1,5). Derecha. Histograma con punto de anclaje en (−1,625, −1,625). Ambos histogramas tienen un ancho de bin de 0,5, por lo que las diferencias en la apariencia de los dos histogramas se deben a la ubicación del punto de anclaje.

Una posible solución a este problema de colocación de puntos de anclaje es eliminar por completo la cuadrícula de clasificación del histograma. En la figura de la izquierda, un núcleo (representado por las líneas grises) está centrado en cada uno de los 50 puntos de datos anteriores. El resultado de sumar estos núcleos se muestra en la figura de la derecha, que es una estimación de la densidad del núcleo. La diferencia más llamativa entre las estimaciones de la densidad del núcleo y los histogramas es que los primeros son más fáciles de interpretar, ya que no contienen artificios inducidos por una cuadrícula de clasificación. Los contornos coloreados corresponden a la región más pequeña que contiene la respectiva masa de probabilidad: rojo = 25%, naranja + rojo = 50%, amarillo + naranja + rojo = 75%, lo que indica que una única región central contiene la densidad más alta.

Izquierda: núcleos individuales. Derecha: estimación de la densidad de núcleos.
Construcción de una estimación de densidad de kernel 2D. Izquierda: kernels individuales. Derecha: estimación de densidad de kernel.

El objetivo de la estimación de densidad es tomar una muestra finita de datos y hacer inferencias sobre la función de densidad de probabilidad subyacente en todas partes, incluso donde no se observan datos. En la estimación de densidad kernel, la contribución de cada punto de datos se suaviza desde un único punto hacia una región del espacio que lo rodea. La agregación de las contribuciones suavizadas individualmente proporciona una imagen general de la estructura de los datos y su función de densidad. En los detalles que siguen, mostramos que este enfoque conduce a una estimación razonable de la función de densidad subyacente.

Definición

La figura anterior es una representación gráfica de la estimación de la densidad de kernel, que ahora definimos de manera exacta. Sea x 1 , x 2 , ..., x n una muestra de vectores aleatorios de d variables extraídos de una distribución común descrita por la función de densidad ƒ . La estimación de la densidad de kernel se define como

dónde

La elección de la función kernel K no es crucial para la precisión de los estimadores de densidad kernel, por lo que utilizamos el kernel normal multivariado estándar en todo momento: , donde H desempeña el papel de la matriz de covarianza . Por otro lado, la elección de la matriz de ancho de banda H es el factor más importante que afecta a su precisión, ya que controla la cantidad y la orientación del suavizado inducido. [3] : 36–39  Que la matriz de ancho de banda también induzca una orientación es una diferencia básica entre la estimación de densidad kernel multivariada y su análogo univariante, ya que la orientación no está definida para kernels 1D. Esto conduce a la elección de la parametrización de esta matriz de ancho de banda. Las tres clases principales de parametrización (en orden creciente de complejidad) son S , la clase de escalares positivos multiplicados por la matriz identidad; D , matrices diagonales con entradas positivas en la diagonal principal; y F , matrices definidas positivas simétricas. Los núcleos de clase S tienen la misma cantidad de suavizado aplicado en todas las direcciones de coordenadas, los núcleos D permiten diferentes cantidades de suavizado en cada una de las coordenadas y los núcleos F permiten cantidades y orientaciones arbitrarias del suavizado. Históricamente, los núcleos S y D son los más extendidos debido a razones computacionales, pero las investigaciones indican que se pueden obtener importantes ganancias en precisión utilizando los núcleos de clase F más generales . [7] [8]

Comparación de las tres clases principales de parametrización de matrices de ancho de banda. Izquierda. S multiplicación escalar positiva por la matriz identidad. Centro. D matriz diagonal con entradas positivas en la diagonal principal. Derecha. F matriz definida positiva simétrica.
Comparación de las tres clases principales de parametrización de matrices de ancho de banda. Izquierda. S multiplicación escalar positiva por la matriz identidad. Centro. D matriz diagonal con entradas positivas en la diagonal principal. Derecha. F matriz definida positiva simétrica.

Selección de la matriz de ancho de banda óptima

El criterio de optimalidad más comúnmente utilizado para seleccionar una matriz de ancho de banda es el MISE o error cuadrático medio integrado.

Esto en general no posee una expresión de forma cerrada , por lo que es habitual utilizar su aproximación asintótica (AMISE) como proxy.

dónde

donde I d es la matriz identidad d × d , con m 2 = 1 para el núcleo normal

La calidad de la aproximación AMISE al MISE [3] : 97  viene dada por

donde o indica la notación o minúscula habitual . Heurísticamente, esta afirmación implica que el AMISE es una "buena" aproximación del MISE ya que el tamaño de la muestra es n → ∞.

Se puede demostrar que cualquier selector de ancho de banda razonable H tiene H = O ( n −2/( d +4) ) donde la notación O grande se aplica elemento por elemento. Sustituyendo esto en la fórmula MISE se obtiene que el MISE óptimo es O ( n −4/( d +4) ). [3] : 99–100  Por lo tanto, cuando n → ∞, el MISE → 0, es decir, la estimación de densidad de kernel converge en el cuadrado medio y, por lo tanto, también en probabilidad a la densidad verdadera f . Estos modos de convergencia son una confirmación de la afirmación de la sección de motivación de que los métodos de kernel conducen a estimadores de densidad razonables. Un selector de ancho de banda óptimo ideal es

Dado que este selector ideal contiene la función de densidad desconocida ƒ , no se puede utilizar directamente. Las diferentes variedades de selectores de ancho de banda basados ​​en datos surgen de los diferentes estimadores del AMISE. Nos concentramos en dos clases de selectores que han demostrado ser los más aplicables en la práctica: la validación cruzada suavizada y los selectores de complemento.

Enchufar

La estimación del complemento (PI) del AMISE se forma reemplazando Ψ 4 por su estimador

donde . Por lo tanto, es el selector de complemento. [9] [10] Estas referencias también contienen algoritmos sobre la estimación óptima de la matriz de ancho de banda piloto G y establecen que converge en probabilidad a H AMISE .

Validación cruzada suavizada

La validación cruzada suavizada (SCV) es un subconjunto de una clase más amplia de técnicas de validación cruzada . El estimador SCV se diferencia del estimador de complemento en el segundo término

Así es el selector SCV. [10] [11] Estas referencias también contienen algoritmos sobre la estimación óptima de la matriz de ancho de banda piloto G y establecen que converge en probabilidad a H AMISE .

Regla de oro

La regla de oro de Silverman sugiere utilizar , donde es la desviación estándar de la variable i y es el número de dimensiones, y . La regla de Scott es .

Análisis asintótico

En la sección de selección de ancho de banda óptimo, presentamos el MISE. Su construcción se basa en el valor esperado y la varianza del estimador de densidad [3] : 97 

donde * es el operador de convolución entre dos funciones, y

Para que estas dos expresiones estén bien definidas, requerimos que todos los elementos de H tiendan a 0 y que n −1 | H | −1/2 tienda a 0 cuando n tiende a infinito. Suponiendo estas dos condiciones, vemos que el valor esperado tiende a la densidad verdadera f , es decir, el estimador de densidad kernel es asintóticamente insesgado ; y que la varianza tiende a cero. Utilizando la descomposición estándar del valor cuadrático medio

tenemos que el MSE tiende a 0, lo que implica que el estimador de densidad kernel es (cuadrado medio) consistente y, por lo tanto, converge en probabilidad a la densidad verdadera f . La tasa de convergencia del MSE a 0 es necesariamente la misma que la tasa MISE observada anteriormente O ( n −4/(d+4) ), por lo tanto, la tasa de convergencia del estimador de densidad a f es O p (n −2/( d +4) ) donde O p denota orden en probabilidad . Esto establece la convergencia puntual. La convergencia funcional se establece de manera similar considerando el comportamiento del MISE y notando que, bajo suficiente regularidad, la integración no afecta las tasas de convergencia.

Para los selectores de ancho de banda basados ​​en datos considerados, el objetivo es la matriz de ancho de banda AMISE. Decimos que un selector basado en datos converge al selector AMISE a una tasa relativa O p ( n α ), α > 0 si

Se ha establecido que los selectores de validación cruzada suavizados y enchufables (dado un único ancho de banda piloto G ) convergen a una tasa relativa de O p ( n −2/( d +6) ) [10] [12] , es decir, ambos selectores basados ​​en datos son estimadores consistentes.

Estimación de densidad con una matriz de ancho de banda completo

Estimación de la densidad del núcleo de datos del géiser Old Faithful con matriz de ancho de banda de complemento.
Estimación de la densidad del núcleo de datos del géiser Old Faithful con matriz de ancho de banda de complemento.

El paquete ks [13] en R implementa los selectores de plug-in y de validación cruzada suavizada (entre otros). Este conjunto de datos (incluido en la distribución base de R) contiene 272 registros con dos mediciones cada uno: el tiempo de duración de una erupción (minutos) y el tiempo de espera hasta la próxima erupción (minutos) del géiser Old Faithful en el Parque Nacional de Yellowstone, EE. UU.

El fragmento de código calcula la estimación de densidad de kernel con la matriz de ancho de banda del complemento. Nuevamente, los contornos coloreados corresponden a la región más pequeña que contiene la respectiva masa de probabilidad: rojo = 25 %, naranja + rojo = 50 %, amarillo + naranja + rojo = 75 %. Para calcular el selector SCV, se reemplaza con . Esto no se muestra aquí ya que es en su mayoría similar a la estimación del complemento para este ejemplo.HpiHscv

biblioteca ( ks ) datos ( fiel ) H <- Hpi ( x = fiel ) fhat <- kde ( x = fiel , H = H ) gráfico ( fhat , display = "filled.contour" , drawpoints = TRUE , cex = 0.5 , pch = 16 , col.pt = 1 )          

Estimación de densidad con una matriz de ancho de banda diagonal

Estimación de la densidad del kernel con ancho de banda diagonal para datos de mezcla normal sintética.
Estimación de la densidad del kernel con ancho de banda diagonal para datos de mezcla normal sintética.

Consideramos estimar la densidad de la mezcla gaussiana (4 π ) −1  exp(− 12 ( x 1 2 + x 2 2 )) + (4 π ) −1  exp(− 12 (( x 1 - 3.5) 2 + x 2 2 )) , a partir de 500 puntos generados aleatoriamente. Empleamos la rutina de Matlab para datos bidimensionales. La rutina es un método de selección automática de ancho de banda diseñado específicamente para un núcleo gaussiano de segundo orden. [14] La figura muestra la estimación de densidad conjunta que resulta de usar el ancho de banda seleccionado automáticamente.

Script de Matlab para el ejemplo

Escriba los siguientes comandos en Matlab después de descargar y guardar la función kde2d.m en el directorio actual.

 borrar todo % generar datos sintéticos datos =[ randn ( 500 , 2 ); randn ( 500 , 1 ) + 3.5 , randn ( 500 , 1 );]; % llamar a la rutina, que se ha guardado en el directorio actual [ ancho de banda , densidad , X , Y ]= kde2d ( datos ); % representar gráficamente los datos y la estimación de densidad contour3 ( X , Y , densidad , 50 ), mantener en plot ( datos (:, 1 ), datos (:, 2 ), 'r.' , 'MarkerSize' , 5 )             

Criterios alternativos de optimalidad

El MISE es la distancia L 2 integrada esperada entre la estimación de densidad y la función de densidad verdadera f . Es el más utilizado, principalmente debido a su manejabilidad y la mayoría del software implementa selectores de ancho de banda basados ​​en MISE. Existen criterios de optimalidad alternativos, que intentan cubrir casos en los que MISE no es una medida apropiada. [4] : 34–37, 78  La medida L 1 equivalente , el error absoluto integrado medio, es

Su análisis matemático es considerablemente más difícil que el de MISE. En la práctica, la ganancia parece no ser significativa. [15] La norma L es el Error Absoluto Uniforme Medio

que se ha investigado sólo brevemente. [16] Los criterios de error de probabilidad incluyen aquellos basados ​​en la divergencia media de Kullback-Leibler

y la distancia media de Hellinger

La KL se puede estimar utilizando un método de validación cruzada, aunque los selectores de validación cruzada de KL pueden ser subóptimos incluso si permanecen consistentes para funciones de densidad acotadas. [17] Los selectores de MH se han examinado brevemente en la literatura. [18]

Todos estos criterios de optimalidad son medidas basadas en la distancia y no siempre corresponden a nociones más intuitivas de cercanía, por lo que se han desarrollado criterios más visuales en respuesta a esta preocupación. [19]

Selección de kernel objetiva y basada en datos

Una región en forma de x de función característica empírica en el espacio de Fourier.
Demostración de la función de filtro . El cuadrado de la función de distribución empírica de N = 10 000 muestras de la "distribución de transición" analizada en la Sección 3.2 (y mostrada en la Fig. 4), para . Hay dos esquemas de color presentes en esta figura. La región "en forma de X" de colores predominantemente oscuros y multicolores en el centro corresponde a valores de para el hipervolumen contiguo más bajo (el área que contiene el origen); la barra de colores a la derecha se aplica a los colores en esta región. Las áreas monótonas de colores claros alejadas del primer hipervolumen contiguo corresponden a hipervolúmenes contiguos adicionales (áreas) con . Los colores de estas áreas son arbitrarios y solo sirven para diferenciar visualmente las áreas contiguas cercanas entre sí.

Investigaciones recientes han demostrado que el kernel y su ancho de banda pueden elegirse de manera óptima y objetiva a partir de los datos de entrada sin hacer suposiciones sobre la forma de la distribución. [20] La estimación de densidad de kernel resultante converge rápidamente a la distribución de probabilidad real a medida que se agregan muestras: a una tasa cercana a la esperada para los estimadores paramétricos. [20] [21] [22] Este estimador de kernel funciona tanto para muestras univariadas como multivariadas. El kernel óptimo se define en el espacio de Fourier, como la función de amortiguamiento óptima (la transformada de Fourier del kernel ), en términos de la transformada de Fourier de los datos , la función característica empírica (ver Estimación de densidad de kernel ):

[22]

donde, N es el número de puntos de datos, d es el número de dimensiones (variables), y es un filtro que es igual a 1 para 'frecuencias aceptadas' y 0 en caso contrario. Hay varias formas de definir esta función de filtro, y una simple que funciona para muestras univariadas o multivariadas se llama 'filtro de hipervolumen contiguo más bajo'; se elige de modo que las únicas frecuencias aceptadas sean un subconjunto contiguo de frecuencias que rodean el origen para el cual (consulte [22] para una discusión de esta y otras funciones de filtro).

Cabe señalar que el cálculo directo de la función característica empírica (ECF) es lento, ya que implica esencialmente una transformada de Fourier directa de las muestras de datos. Sin embargo, se ha descubierto que la ECF se puede aproximar con precisión utilizando un método de transformada rápida de Fourier no uniforme (nuFFT), [21] [22] que aumenta la velocidad de cálculo en varios órdenes de magnitud (dependiendo de la dimensionalidad del problema). La combinación de este método KDE objetivo y la aproximación ECF basada en nuFFT se ha denominado fastKDE en la literatura. [22]

Una mezcla no trivial de distribuciones normales: (a) la PDF subyacente, (b) una estimación fastKDE en 1.000.000 de muestras y (c) una estimación fastKDE en 10.000 muestras.

Véase también

Referencias

  1. ^ Rosenblatt, M. (1956). "Observaciones sobre algunas estimaciones no paramétricas de una función de densidad". Anales de estadística matemática . 27 (3): 832–837. doi : 10.1214/aoms/1177728190 .
  2. ^ Parzen, E. (1962). "Sobre la estimación de una función de densidad de probabilidad y moda". Anales de estadística matemática . 33 (3): 1065–1076. doi : 10.1214/aoms/1177704472 .
  3. ^ abcde Wand, MP; Jones, MC (1995). Suavizado de núcleo . Londres: Chapman & Hall/CRC. ISBN 9780412552700.
  4. ^ de Simonoff, JS (1996). Métodos de suavizado en estadística . Springer. ISBN 9780387947167.
  5. ^ Chacón, JE y Duong, T. (2018). Suavizado de núcleo multivariante y sus aplicaciones . Chapman & Hall/CRC. ISBN 9781498763011.{{cite book}}: CS1 maint: multiple names: authors list (link)
  6. ^ Silverman, BW (1986). Estimación de densidad para estadísticas y análisis de datos . Chapman & Hall/CRC. págs. 7–11. ISBN 9780412246203.
  7. ^ Wand, MP; Jones, MC (1993). "Comparación de parametrizaciones de suavizado en la estimación de densidad de kernel bivariada". Revista de la Asociación Estadounidense de Estadística . 88 (422): 520–528. doi :10.1080/01621459.1993.10476303. JSTOR  2290332.
  8. ^ Duong, T.; Hazelton, ML (2003). "Matrices de ancho de banda de complemento para la estimación de densidad de kernel bivariada". Journal of Nonparametric Statistics . 15 : 17–30. doi :10.1080/10485250306039.
  9. ^ Wand, MP; Jones, MC (1994). "Selección de ancho de banda de complemento multivariante". Computational Statistics . 9 : 97–177.
  10. ^ abc Duong, T.; Hazelton, ML (2005). "Matrices de ancho de banda de validación cruzada para estimación de densidad de kernel multivariante". Revista Escandinava de Estadística . 32 (3): 485–506. doi :10.1111/j.1467-9469.2005.00445.x.
  11. ^ Hall, P.; Marron, J.; Park, B. (1992). "Validación cruzada suavizada". Teoría de la probabilidad y campos relacionados . 92 : 1–20. doi : 10.1007/BF01205233 .
  12. ^ Duong, T.; Hazelton, ML (2005). "Tasas de convergencia para selectores de matriz de ancho de banda sin restricciones en la estimación de densidad de kernel multivariante". Journal of Multivariate Analysis . 93 (2): 417–433. doi : 10.1016/j.jmva.2004.04.004 .
  13. ^ Duong, T. (2007). "ks: Estimación de densidad de kernel y análisis discriminante de kernel en R". Journal of Statistical Software . 21 (7). doi : 10.18637/jss.v021.i07 .
  14. ^ Botev, ZI; Grotowski, JF; Kroese, DP (2010). "Estimación de la densidad del núcleo mediante difusión". Anales de estadística . 38 (5): 2916–2957. arXiv : 1011.2602 . doi :10.1214/10-AOS799.
  15. ^ Hall, P.; Wand, MP (1988). "Minimización de la distancia L1 en la estimación de densidad no paramétrica". Journal of Multivariate Analysis . 26 : 59–88. doi : 10.1016/0047-259X(88)90073-5 .
  16. ^ Cao, R.; Cuevas, A.; Manteiga, WG (1994). "Estudio comparativo de varios métodos de suavizado en la estimación de densidad". Estadística computacional y análisis de datos . 17 (2): 153–176. doi :10.1016/0167-9473(92)00066-Z.
  17. ^ Hall, P. (1989). "Sobre la pérdida de Kullback-Leibler y la estimación de la densidad". Anales de Estadística . 15 (4): 589–605. doi : 10.1214/aos/1176350606 .
  18. ^ Ahmad, IA; Mugdadi, AR (2006). "Distancia de Hellinger ponderada como criterio de error para la selección del ancho de banda en la estimación del núcleo". Journal of Nonparametric Statistics . 18 (2): 215–226. doi :10.1080/10485250600712008.
  19. ^ Marron, JS; Tsybakov, A. (1996). "Criterios de error visual para suavizado cualitativo". Revista de la Asociación Estadounidense de Estadística . 90 (430): 499–507. doi :10.2307/2291060. JSTOR  2291060.
  20. ^ ab Bernacchia, Alberto; Pigolotti, Simone (1 de junio de 2011). "Método autoconsistente para la estimación de densidad". Revista de la Royal Statistical Society, Serie B. 73 ( 3): 407–422. arXiv : 0908.3856 . doi :10.1111/j.1467-9868.2011.00772.x. ISSN  1467-9868.
  21. ^ ab O'Brien, Travis A.; Collins, William D.; Rauscher, Sara A.; Ringler, Todd D. (1 de noviembre de 2014). "Reducción del coste computacional de la ECF utilizando una nuFFT: un método de estimación de densidad de probabilidad rápido y objetivo". Computational Statistics & Data Analysis . 79 : 222–234. doi : 10.1016/j.csda.2014.06.002 .
  22. ^ abcde O'Brien, Travis A.; Kashinath, Karthik; Cavanaugh, Nicholas R.; Collins, William D.; O'Brien, John P. (2016). "Un método rápido y objetivo de estimación de densidad de kernel multidimensional: fastKDE" (PDF) . Computational Statistics & Data Analysis . 101 : 148–160. doi : 10.1016/j.csda.2016.02.014 .

Enlaces externos