El término kernel se utiliza en el análisis estadístico para referirse a una función de ventana . El término "kernel" tiene varios significados distintos en diferentes ramas de la estadística.
En estadística, especialmente en estadística bayesiana , el núcleo de una función de densidad de probabilidad (pdf) o función de masa de probabilidad (pmf) es la forma de la pdf o pmf en la que se omiten todos los factores que no son funciones de ninguna de las variables del dominio. [1] Nótese que dichos factores pueden ser funciones de los parámetros de la pdf o pmf. Estos factores forman parte del factor de normalización de la distribución de probabilidad y son innecesarios en muchas situaciones. Por ejemplo, en el muestreo de números pseudoaleatorios , la mayoría de los algoritmos de muestreo ignoran el factor de normalización. Además, en el análisis bayesiano de distribuciones previas conjugadas , los factores de normalización generalmente se ignoran durante los cálculos y solo se considera el núcleo. Al final, se examina la forma del núcleo y, si coincide con una distribución conocida, se puede restablecer el factor de normalización. De lo contrario, puede ser innecesario (por ejemplo, si solo es necesario muestrear la distribución).
Para muchas distribuciones, el núcleo se puede escribir en forma cerrada, pero no la constante de normalización.
Un ejemplo es la distribución normal . Su función de densidad de probabilidad es
y el núcleo asociado es
Tenga en cuenta que se ha omitido el factor delante del exponencial, aunque contiene el parámetro , porque no es una función de la variable de dominio .
El núcleo de un espacio de Hilbert de núcleo reproductor se utiliza en el conjunto de técnicas conocidas como métodos de núcleo para realizar tareas como clasificación estadística , análisis de regresión y análisis de conglomerados en datos en un espacio implícito. Este uso es particularmente común en el aprendizaje automático .
En estadística no paramétrica , un kernel es una función de ponderación utilizada en técnicas de estimación no paramétrica . Los kernels se utilizan en la estimación de densidad de kernel para estimar las funciones de densidad de variables aleatorias , o en la regresión de kernel para estimar la esperanza condicional de una variable aleatoria. Los kernels también se utilizan en series temporales , en el uso del periodograma para estimar la densidad espectral donde se conocen como funciones de ventana . Un uso adicional es en la estimación de una intensidad variable en el tiempo para un proceso puntual donde las funciones de ventana (kernels) se convolucionan con datos de series temporales.
Comúnmente, los anchos de kernel también deben especificarse cuando se ejecuta una estimación no paramétrica.
Un núcleo es una función integrable de valor real no negativo K. Para la mayoría de las aplicaciones, es deseable definir la función para satisfacer dos requisitos adicionales:
El primer requisito garantiza que el método de estimación de la densidad kernel dé como resultado una función de densidad de probabilidad . El segundo requisito garantiza que el promedio de la distribución correspondiente sea igual al de la muestra utilizada.
Si K es un núcleo, entonces también lo es la función K * definida por K *( u ) = λ K (λ u ), donde λ > 0. Esto se puede utilizar para seleccionar una escala que sea apropiada para los datos.
Se utilizan comúnmente varios tipos de funciones kernel: uniforme, triangular, de Epanechnikov, [2] cuártica (biweight), tricube, [3] triweight, gaussiana, cuadrática [4] y coseno.
En la siguiente tabla, si se da con un soporte acotado , entonces para valores de u que se encuentran fuera del soporte.