stringtranslate.com

Estimación de la densidad del grano.

Estimación de la densidad del kernel de 100 números aleatorios distribuidos normalmente utilizando diferentes anchos de banda de suavizado.

En estadística , la estimación de densidad de kernel ( KDE ) es la aplicación del suavizado de kernel para la estimación de densidad de probabilidad , es decir, un método no paramétrico para estimar la función de densidad de probabilidad de una variable aleatoria basada en kernels como ponderaciones . KDE responde a un problema fundamental de suavizado de datos en el que se hacen inferencias sobre la población basándose en una muestra de datos finita . En algunos campos, como el procesamiento de señales y la econometría, también se le denomina método de ventana de Parzen-Rosenblatt , en honor a Emanuel Parzen y Murray Rosenblatt , a quienes generalmente se les atribuye haberlo creado de forma independiente en su forma actual. [1] [2] Una de las aplicaciones famosas de la estimación de la densidad del núcleo es la estimación de las densidades marginales de datos condicionales de clase cuando se utiliza un clasificador Bayes ingenuo , [3] [4] que puede mejorar la precisión de su predicción. [3]

Definición

Sean ( x 1 , x 2 , ..., x n ) muestras independientes e idénticamente distribuidas extraídas de alguna distribución univariada con una densidad desconocida ƒ en cualquier punto x dado . Estamos interesados ​​en estimar la forma de esta función ƒ . Su estimador de densidad de núcleo es

donde K es el núcleo (una función no negativa) y h > 0 es un parámetro de suavizado llamado ancho de banda . Un núcleo con subíndice h se llama núcleo escalado y se define como K h ( x ) = K ( ) . Intuitivamente uno quiere elegir h tan pequeño como lo permitan los datos; sin embargo, siempre existe un equilibrio entre el sesgo del estimador y su varianza. La elección del ancho de banda se analiza con más detalle a continuación.

Comúnmente se utiliza una variedad de funciones del kernel : uniforme, triangular, biweight, triweight, Epanechnikov, normal y otras. El núcleo de Epanechnikov es óptimo en el sentido del error cuadrático medio, [5] aunque la pérdida de eficiencia es pequeña para los núcleos enumerados anteriormente. [6] Debido a sus convenientes propiedades matemáticas, el núcleo normal se usa a menudo, lo que significa K ( x ) = ϕ ( x ) , donde ϕ es la función de densidad normal estándar .

La construcción de una estimación de la densidad del núcleo encuentra interpretaciones en campos fuera de la estimación de la densidad. [7] Por ejemplo, en termodinámica , esto es equivalente a la cantidad de calor generado cuando los núcleos de calor (la solución fundamental de la ecuación de calor ) se colocan en cada ubicación de punto de datos xi . Se utilizan métodos similares para construir operadores de Laplace discretos en nubes de puntos para aprendizaje múltiple (por ejemplo, mapa de difusión ).

Ejemplo

Las estimaciones de densidad del kernel están estrechamente relacionadas con los histogramas , pero se les pueden dotar de propiedades como suavidad o continuidad mediante el uso de un kernel adecuado. El siguiente diagrama basado en estos 6 puntos de datos ilustra esta relación:

Para el histograma, primero, el eje horizontal se divide en subintervalos o contenedores que cubren el rango de datos: en este caso, seis contenedores cada uno de ancho 2. Siempre que un punto de datos cae dentro de este intervalo, se crea un cuadro de altura 1 /12 se coloca allí. Si más de un punto de datos cae dentro del mismo contenedor, las cajas se apilan una encima de la otra.

Para la estimación de la densidad de granos, se colocan granos normales con una desviación estándar de 1,5 (indicada por las líneas discontinuas rojas) en cada uno de los puntos de datos xi . Los granos se suman para hacer la estimación de la densidad de los granos (curva azul continua). La suavidad de la estimación de la densidad del núcleo (en comparación con la discreción del histograma) ilustra cómo las estimaciones de la densidad del núcleo convergen más rápidamente a la verdadera densidad subyacente para variables aleatorias continuas. [8]

Comparación del histograma (izquierda) y la estimación de densidad del núcleo (derecha) construida con los mismos datos. Los seis granos individuales son las curvas discontinuas rojas, la estimación de la densidad de los granos son las curvas azules. Los puntos de datos son el diagrama de alfombra en el eje horizontal.
Comparación del histograma (izquierda) y la estimación de densidad del núcleo (derecha) construida con los mismos datos. Los seis granos individuales son las curvas discontinuas rojas, la estimación de la densidad de los granos son las curvas azules. Los puntos de datos son el diagrama de alfombra en el eje horizontal.

Selección de ancho de banda

Estimación de la densidad del kernel (KDE) con diferentes anchos de banda de una muestra aleatoria de 100 puntos de una distribución normal estándar. Gris: densidad real (estándar normal). Rojo: KDE con h=0,05. Negro: KDE con h=0,337. Verde: KDE con h=2.

El ancho de banda del núcleo es un parámetro libre que presenta una fuerte influencia en la estimación resultante. Para ilustrar su efecto, tomamos una muestra aleatoria simulada de la distribución normal estándar (trazada en los picos azules en el diagrama de alfombra en el eje horizontal). La curva gris es la densidad verdadera (una densidad normal con media 0 y varianza 1). En comparación, la curva roja no está suficientemente suavizada ya que contiene demasiados artefactos de datos espurios que surgen del uso de un ancho de banda h = 0,05, que es demasiado pequeño. La curva verde está demasiado suavizada ya que el uso del ancho de banda h = 2 oscurece gran parte de la estructura subyacente. Se considera que la curva negra con un ancho de banda de h = 0,337 está óptimamente suavizada ya que su estimación de densidad está cerca de la densidad real. Se encuentra una situación extrema en el límite (sin suavizado), donde la estimación es una suma de n funciones delta centradas en las coordenadas de las muestras analizadas. En el otro límite extremo la estimación conserva la forma del grano utilizado, centrado en la media de las muestras (completamente liso).

El criterio de optimización más común utilizado para seleccionar este parámetro es la función de riesgo L2 esperada , también denominada error cuadrático integrado medio :

Bajo supuestos débiles sobre ƒ y K , ( ƒ es la función de densidad real, generalmente desconocida), [1] [2]

donde o es la pequeña notación o y n el tamaño de la muestra (como arriba). La AMISE es la MISE asintótica, es decir. mi. los dos términos principales,

donde para una función g , y es la segunda derivada de y es el núcleo. El mínimo de esta AMISE es la solución de esta ecuación diferencial

o

Ni las fórmulas AMISE ni h AMISE se pueden utilizar directamente ya que involucran la función de densidad desconocida o su segunda derivada . Para superar esa dificultad, se han desarrollado una variedad de métodos automáticos basados ​​en datos para seleccionar el ancho de banda. Se han realizado varios estudios de revisión para comparar sus eficacias, [9] [10] [11] [12] [13] [14] [15] con el consenso general de que los selectores de complementos [7] [16] [17 ] y los selectores de validación cruzada [18] [19] [20] son ​​los más útiles en una amplia gama de conjuntos de datos.

Sustituyendo cualquier ancho de banda h que tenga el mismo orden asintótico n −1/5 que h AMISE en AMISE se obtiene que AMISE( h ) = O ( n −4/5 ), donde O es la notación O grande . Se puede demostrar que, bajo supuestos débiles, no puede existir un estimador no paramétrico que converja a un ritmo más rápido que el estimador kernel. [21] Tenga en cuenta que la tasa n −4/5 es más lenta que la tasa de convergencia típica n −1 de los métodos paramétricos.

Si el ancho de banda no se mantiene fijo, sino que varía dependiendo de la ubicación de la estimación (estimador de globo) o de las muestras (estimador puntual), esto produce un método particularmente poderoso denominado estimación de densidad del kernel de ancho de banda variable o adaptativo .

La selección del ancho de banda para la estimación de la densidad del núcleo de distribuciones de cola pesada es relativamente difícil. [22]

Un estimador de ancho de banda de regla general

Si se utilizan funciones de base gaussianas para aproximar datos univariados y la densidad subyacente que se estima es gaussiana, la elección óptima para h (es decir, el ancho de banda que minimiza el error cuadrático integrado medio ) es: [23]

Un valor se considera más robusto cuando mejora el ajuste para distribuciones asimétricas y de cola larga o para distribuciones mixtas bimodales. A menudo, esto se hace empíricamente reemplazando la desviación estándar por el siguiente parámetro:

donde IQR es el rango intercuartil.
Comparación entre la regla general y el ancho de banda de resolución de ecuaciones
Comparación entre la regla general y el ancho de banda de resolución de ecuaciones.

Otra modificación que mejorará el modelo es reducir el factor de 1,06 a 0,9. Entonces la fórmula final sería:

¿Dónde está el tamaño de la muestra?

Esta aproximación se denomina aproximación de distribución normal , aproximación gaussiana o regla general de Silverman . [23] Si bien esta regla general es fácil de calcular, debe usarse con precaución, ya que puede producir estimaciones muy inexactas cuando la densidad no está cerca de ser normal. Por ejemplo, al estimar el modelo de mezcla gaussiana bimodal

A partir de una muestra de 200 puntos, la figura de la derecha muestra la densidad real y dos estimaciones de densidad del núcleo: una que utiliza el ancho de banda de la regla general y la otra que utiliza un ancho de banda de resolución de ecuaciones. [7] [17] La ​​estimación basada en la regla general del ancho de banda está significativamente sobresuavizada.

Relación con la función característica estimador de densidad.

Dada la muestra ( x 1 , x 2 , ..., x n ), es natural estimar la función característica φ ( t ) = E[ e itX ] como

Conociendo la función característica, es posible encontrar la función de densidad de probabilidad correspondiente mediante la fórmula de la transformada de Fourier . Una dificultad al aplicar esta fórmula de inversión es que conduce a una integral divergente, ya que la estimación no es confiable para t grandes . Para evitar este problema, el estimador se multiplica por una función de amortiguación ψ h ( t ) = ψ ( ht ) , que es igual a 1 en el origen y luego cae a 0 en el infinito. El “parámetro de ancho de banda” h controla qué tan rápido intentamos amortiguar la función . En particular, cuando h es pequeño, entonces ψ h ( t ) será aproximadamente uno para un rango grande de t , lo que significa que permanece prácticamente inalterado en la región más importante de t .

La elección más común para la función ψ es la función uniforme ψ ( t ) = 1 {−1 ≤ t ≤ 1 }, lo que efectivamente significa truncar el intervalo de integración en la fórmula de inversión a [−1/ h , 1/ h ] , o la función gaussiana ψ ( t ) = e - π t 2 . Una vez elegida la función ψ , se podrá aplicar la fórmula de inversión y el estimador de densidad será

donde K es la transformada de Fourier de la función de amortiguación ψ . Por tanto, el estimador de densidad del kernel coincide con el estimador de densidad de la función característica.

Características geométricas y topológicas.

Podemos extender la definición del modo (global) a un sentido local y definir los modos locales:

Es decir, es el conjunto de puntos para los cuales la función de densidad se maximiza localmente. Un estimador natural de es un complemento de KDE, [24] [25] donde y son la versión de KDE de y . Bajo supuestos suaves, es un estimador consistente de . Tenga en cuenta que se puede utilizar el algoritmo de desplazamiento medio [26] [27] [28] para calcular el estimador numéricamente.

Implementación estadística

Una lista no exhaustiva de implementaciones de software de estimadores de densidad del kernel incluye:

Ver también

Otras lecturas

Referencias

  1. ^ ab Rosenblatt, M. (1956). "Observaciones sobre algunas estimaciones no paramétricas de una función de densidad". Los anales de la estadística matemática . 27 (3): 832–837. doi : 10.1214/aoms/1177728190 .
  2. ^ ab Parzen, E. (1962). "En la estimación de una función de densidad de probabilidad y el modo". Los anales de la estadística matemática . 33 (3): 1065-1076. doi : 10.1214/aoms/1177704472 . JSTOR  2237880.
  3. ^ ab Piryonesi S. Madeh; El-Diraby Tamer E. (1 de junio de 2020). "Papel del análisis de datos en la gestión de activos de infraestructura: superar los problemas de calidad y tamaño de los datos". Revista de Ingeniería del Transporte, Parte B: Pavimentos . 146 (2): 04020022. doi : 10.1061/JPEODX.0000175. S2CID  216485629.
  4. ^ Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome H. (2001). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción: con 200 ilustraciones a todo color . Nueva York: Springer. ISBN 0-387-95284-5. OCLC  46809224.
  5. ^ Epanechnikov, VA (1969). "Estimación no paramétrica de una densidad de probabilidad multivariada". Teoría de la probabilidad y sus aplicaciones . 14 : 153-158. doi :10.1137/1114019.
  6. ^ Varita, diputado; Jones, MC (1995). Suavizado de granos . Londres: Chapman & Hall/CRC. ISBN 978-0-412-55270-0.
  7. ^ abcd Botev, Zdravko (2007). Estimación de densidad no paramétrica mediante mezcla por difusión (informe técnico). Universidad de Queensland.
  8. ^ Scott, D. (1979). "Sobre histogramas óptimos y basados ​​en datos". Biometrika . 66 (3): 605–610. doi :10.1093/biomet/66.3.605.
  9. ^ Parque, BU; Marrón, JS (1990). "Comparación de selectores de ancho de banda basados ​​en datos". Revista de la Asociación Estadounidense de Estadística . 85 (409): 66–72. CiteSeerX 10.1.1.154.7321 . doi :10.1080/01621459.1990.10475307. JSTOR  2289526. 
  10. ^ Parque, BU; Turlach, Licenciado en Letras (1992). "Rendimiento práctico de varios selectores de ancho de banda basados ​​en datos (con discusión)". Estadística Computacional . 7 : 251–270.
  11. ^ Cao, R.; Cuevas, A.; Manteiga, WG (1994). "Un estudio comparativo de varios métodos de suavizado en la estimación de densidad". Estadística Computacional y Análisis de Datos . 17 (2): 153–176. doi :10.1016/0167-9473(92)00066-Z.
  12. ^ Jones, MC; Marrón, JS; Funda, SJ (1996). "Un breve estudio sobre la selección del ancho de banda para la estimación de la densidad". Revista de la Asociación Estadounidense de Estadística . 91 (433): 401–407. doi :10.2307/2291420. JSTOR  2291420.
  13. ^ Funda, SJ (1992). "El rendimiento de seis métodos populares de selección de ancho de banda en algunos conjuntos de datos reales (con discusión)". Estadística Computacional . 7 : 225–250, 271–281.
  14. ^ Agarwal, N.; Aluru, NR (2010). "Un enfoque de colocación estocástica basada en datos para la cuantificación de la incertidumbre en MEMS" (PDF) . Revista internacional de métodos numéricos en ingeniería . 83 (5): 575–597. Código Bib : 2010IJNME..83..575A. doi :10.1002/nme.2844. S2CID  84834908.
  15. ^ Xu, X.; Yan, Z.; Xu, S. (2015). "Estimación de la distribución de probabilidad de la velocidad del viento mediante el método de densidad del núcleo basado en difusión". Investigación de sistemas de energía eléctrica . 121 : 28–37. Código Bib : 2015EPSR..121...28X. doi :10.1016/j.epsr.2014.11.029.
  16. ^ Botev, ZI; Grotowski, JF; Kroese, DP (2010). "Estimación de la densidad del grano mediante difusión". Anales de Estadística . 38 (5): 2916–2957. arXiv : 1011.2602 . doi :10.1214/10-AOS799. S2CID  41350591.
  17. ^ ab Funda, SJ; Jones, MC (1991). "Un método confiable de selección de ancho de banda basado en datos para la estimación de la densidad del núcleo". Revista de la Royal Statistical Society, Serie B. 53 (3): 683–690. doi :10.1111/j.2517-6161.1991.tb01857.x. JSTOR  2345597.
  18. ^ Rudemo, M. (1982). "Elección empírica de histogramas y estimadores de densidad del núcleo". Revista escandinava de estadística . 9 (2): 65–78. JSTOR  4615859.
  19. ^ Bowman, AW (1984). "Un método alternativo de validación cruzada para suavizar las estimaciones de densidad". Biometrika . 71 (2): 353–360. doi :10.1093/biomet/71.2.353.
  20. ^ Salón, P.; Marrón, JS; Park, BU (1992). "Validación cruzada suavizada". Teoría de la probabilidad y campos relacionados . 92 : 1–20. doi : 10.1007/BF01205233 . S2CID  121181481.
  21. ^ Wahba, G. (1975). "Propiedades de convergencia óptimas de los métodos de series ortogonales, de núcleo y de nudo variable para la estimación de densidad". Anales de Estadística . 3 (1): 15–29. doi : 10.1214/aos/1176342997 .
  22. ^ Buch-Larsen, TINE (2005). "Estimación de la densidad del kernel para distribuciones de cola pesada utilizando la transformación de Champernowne". Estadísticas . 39 (6): 503–518. CiteSeerX 10.1.1.457.1544 . doi :10.1080/02331880500439782. S2CID  219697435. 
  23. ^ ab Silverman, BW (1986). Estimación de densidad para estadística y análisis de datos . Londres: Chapman & Hall/CRC. pag. 45.ISBN 978-0-412-24620-3.
  24. ^ Chen, Yen-Chi; Genovese, Christopher R.; Wasserman, Larry (2016). "Un enfoque integral para la agrupación de modos". Revista Electrónica de Estadística . 10 (1): 210–241. arXiv : 1406.1780 . doi : 10.1214/15-ejs1102 . ISSN  1935-7524.
  25. ^ Chazal, Federico; Fasy, Bretaña Terese; Lecci, Fabricio; Rinaldo, Alejandro; Wasserman, Larry (2014). "Convergencia estocástica de paisajes y siluetas de persistencia". Actas del trigésimo simposio anual sobre geometría computacional . vol. 6. Nueva York, Nueva York, Estados Unidos: ACM Press. págs. 474–483. doi :10.1145/2582112.2582128. ISBN 978-1-4503-2594-3. S2CID  6029340.
  26. ^ Fukunaga, K.; Hostetler, L. (enero de 1975). "La estimación del gradiente de una función de densidad, con aplicaciones en reconocimiento de patrones". Transacciones IEEE sobre teoría de la información . 21 (1): 32–40. doi :10.1109/tit.1975.1055330. ISSN  0018-9448.
  27. ^ Yizong Cheng (1995). "Cambio de media, búsqueda de modo y agrupación". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 17 (8): 790–799. CiteSeerX 10.1.1.510.1222 . doi : 10.1109/34.400568. ISSN  0162-8828. 
  28. ^ Comaniciu, D.; Meer, P. (mayo de 2002). "Cambio medio: un enfoque sólido hacia el análisis del espacio de características". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 24 (5): 603–619. doi :10.1109/34.1000236. ISSN  0162-8828. S2CID  691081.
  29. ^ Janert, Philipp K (2009). Gnuplot en acción: comprensión de datos con gráficos . Connecticut, Estados Unidos: Publicaciones Manning. ISBN 978-1-933988-39-9.Consulte la sección 13.2.2 titulada Estimaciones de densidad del grano .
  30. ^ "Estimación de la función de suavizado del kernel para datos univariados y bivariados - MATLAB ksdensity". www.mathworks.com . Consultado el 5 de noviembre de 2020 .
  31. ^ Horová, I.; Koláček, J.; Zelinka, J. (2012). Suavizado de kernel en MATLAB: teoría y práctica del suavizado de kernel . Singapur: World Scientific Publishing. ISBN 978-981-4405-48-5.
  32. ^ "SmoothKernelDistribution: documentación de Wolfram Language". referencia.wolfram.com . Consultado el 5 de noviembre de 2020 .
  33. ^ "KernelMixtureDistribution: documentación de Wolfram Language". referencia.wolfram.com . Consultado el 5 de noviembre de 2020 .
  34. ^ "Software para calcular la densidad del núcleo". www.rsc.org . Consultado el 5 de noviembre de 2020 .
  35. ^ El grupo de algoritmos numéricos. "Documento de rutina de la biblioteca NAG: nagf_smooth_kerndens_gauss (g10baf)" (PDF) . Manual de la biblioteca NAG, Marcos 23 . Consultado el 16 de febrero de 2012 .
  36. ^ El grupo de algoritmos numéricos. "Documento de rutina de la biblioteca NAG: nag_kernel_density_estim (g10bac)" (PDF) . Manual de la biblioteca NAG, Marcos 9 . Archivado desde el original (PDF) el 24 de noviembre de 2011 . Consultado el 16 de febrero de 2012 .
  37. ^ Vanderplas, Jake (1 de diciembre de 2013). "Estimación de la densidad del kernel en Python" . Consultado el 12 de marzo de 2014 .
  38. ^ "seaborn.kdeplot - documentación de seaborn 0.10.1". seaborn.pydata.org . Consultado el 12 de mayo de 2020 .
  39. ^ "Kde-gpu: implementamos la densidad del kernel de Nadaray Waston y el estimador de probabilidad condicional del kernel usando cuda a cupy. Es mucho más rápido que la versión de CPU, pero requiere GPU con mucha memoria".
  40. ^ "Estadísticas básicas - API basada en RDD - Documentación de Spark 3.0.1". spark.apache.org . Consultado el 5 de noviembre de 2020 .
  41. ^ "kdensity: estimación univariada de la densidad del núcleo" (PDF) . Manual de Stata 15 .
  42. ^ Jann, Ben (26 de mayo de 2008), "KDENS: módulo Stata para estimación univariada de la densidad del kernel", Componentes de software estadístico , Departamento de Economía de Boston College , consultado el 15 de octubre de 2022

enlaces externos