Suavizado de núcleos

Un suavizador de kernel es una técnica estadística para estimar una función de valor real como el promedio ponderado de datos observados vecinos. El peso está definido por el kernel , de modo que los puntos más cercanos reciben pesos más altos. La función estimada es suave y el nivel de suavidad se establece mediante un único parámetro. El suavizado de kernel es un tipo de promedio móvil ponderado . $f:\mathbb {R} ^{p}\to \mathbb {R}$

Definiciones

Sea un núcleo definido por $K_{h_{\lambda}}(X_{0},X)$

K_{h_{\lambda }}(X_{0},X)=D\left({\frac {\left\|X-X_{0}\right\|}{h_{\lambda }(X_{0})}}\right)

dónde:

$X,X_{0}\in \mathbb {R} ^{p}$
$\izquierda\|\cdot \derecha\|$ es la norma euclidiana
$estilo de visualización h_{\lambda}(X_{0})}$ es un parámetro (radio del núcleo)
D ( t ) es típicamente una función de valor real positivo, cuyo valor es decreciente (o no aumenta) a medida que aumenta la distancia entre X y X ₀ .

Los núcleos populares utilizados para suavizar incluyen los núcleos parabólicos (Epanechnikov), Tricube y Gaussianos .

Sea una función continua de X . Para cada , el promedio ponderado por kernel de Nadaraya-Watson (estimación suave de Y ( X )) se define por $Y(X):\mathbb {R} ^{p}\to \mathbb {R}$ $X_{0}\in \mathbb {R} ^{p}$

{\hat {Y}}(X_{0})={\frac {\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})Y(X_{i})}}{\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})}}}

dónde:

N es el número de puntos observados
Y ( X _i ) son las observaciones en los puntos X _i .

En las siguientes secciones describimos algunos casos particulares de suavizadores de kernel.

Suavizado de núcleo gaussiano

El kernel gaussiano es uno de los kernels más utilizados y se expresa con la siguiente ecuación.

K(x^{*},x_{i})=\exp \left(-{\frac {(x^{*}-x_{i})^{2}}{2b^{2}}}\right)

Aquí, b es la escala de longitud para el espacio de entrada.

El vecino más cercano es más suave

La idea del suavizador de vecinos más próximos es la siguiente: para cada punto X ₀ , tome m vecinos más próximos y estime el valor de Y ( X ₀ ) promediando los valores de estos vecinos.

Formalmente, , donde es el m ésimo vecino más cercano a X _{0 , y} $h_{m}(X_{0})=\left\|X_{0}-X_{[m]}\right\|$ $Estilo de visualización X_{[m]}}$

D(t)={\begin{cases}1/m&{\text{if }}|t|\leq 1\\0&{\text{otherwise}}\end{cases}}

Ejemplo:

En este ejemplo, X es unidimensional. Para cada X ₀ , hay un valor promedio de 16 puntos más cercanos a X ₀ (indicados en rojo). ${\hat {Y}}(X_{0})$

Promedio de kernel más suave

La idea del suavizador de promedios de kernel es la siguiente: para cada punto de datos X ₀ , elija un tamaño de distancia constante λ (radio de kernel o ancho de ventana para p = 1 dimensión) y calcule un promedio ponderado para todos los puntos de datos que estén más cerca de X 0 ₍ los puntos más cercanos a X ₀ obtienen pesos más altos). $\lambda$

Formalmente, D ( t ) es uno de los núcleos más populares. $h_{\lambda }(X_{0})=\lambda ={\text{constant}},$

Ejemplo:

Para cada X ₀ el ancho de la ventana es constante, y el peso de cada punto en la ventana se denota esquemáticamente por la figura amarilla en el gráfico. Se puede ver que la estimación es suave, pero los puntos límite están sesgados. La razón de esto es la cantidad desigual de puntos (desde la derecha y desde la izquierda hasta X ₀ ) en la ventana, cuando X ₀ está lo suficientemente cerca del límite.

Regresión lineal local

En las dos secciones anteriores asumimos que la función subyacente Y(X) es localmente constante, por lo tanto pudimos usar el promedio ponderado para la estimación. La idea de la regresión lineal local es ajustar localmente una línea recta (o un hiperplano para dimensiones superiores), y no la constante (línea horizontal). Después de ajustar la línea, la estimación la proporciona el valor de esta línea en el punto X ₀ . Al repetir este procedimiento para cada X ₀ , se puede obtener la función de estimación . Como en la sección anterior, el ancho de la ventana es constante Formalmente, la regresión lineal local se calcula resolviendo un problema de mínimos cuadrados ponderados. ${\hat {Y}}(X_{0})$ ${\hat {Y}}(X)$ $h_{\lambda }(X_{0})=\lambda ={\text{constant}}.$

Para una dimensión ( p = 1):

${\begin{aligned}&\min _{\alpha (X_{0}),\beta (X_{0})}\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-\alpha (X_{0})-\beta (X_{0})X_{i}\right)^{2}}\\&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\Downarrow \\&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,{\hat {Y}}(X_{0})=\alpha (X_{0})+\beta (X_{0})X_{0}\\\end{aligned}}$

La solución en forma cerrada viene dada por:

{\hat {Y}}(X_{0})=\left(1,X_{0}\right)\left(B^{T}W(X_{0})B\right)^{-1}B^{T}W(X_{0})y

dónde:

$y=\left(Y(X_{1}),\dots ,Y(X_{N})\right)^{T}$
$W(X_{0})=\operatorname {diag} \left(K_{h_{\lambda }}(X_{0},X_{i})\right)_{N\times N}$
$B^{T}=\left({\begin{matrix}1&1&\dots &1\\X_{1}&X_{2}&\dots &X_{N}\\\end{matrix}}\right)$

Ejemplo:

La función resultante es suave y se reduce el problema con los puntos límite sesgados.

La regresión lineal local se puede aplicar a cualquier espacio dimensional, aunque la cuestión de qué es una vecindad local se vuelve más complicada. Es común utilizar k puntos de entrenamiento más cercanos a un punto de prueba para ajustar la regresión lineal local. Esto puede generar una alta varianza de la función ajustada. Para limitar la varianza, el conjunto de puntos de entrenamiento debe contener el punto de prueba en su envoltura convexa (consulte la referencia de Gupta et al.).

Regresión polinómica local

En lugar de ajustar funciones localmente lineales, se pueden ajustar funciones polinómicas.

Para p=1, se debe minimizar:

${\underset {\alpha (X_{0}),\beta _{j}(X_{0}),j=1,...,d}{\mathop {\min } }}\,\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-\alpha (X_{0})-\sum \limits _{j=1}^{d}{\beta _{j}(X_{0})X_{i}^{j}}\right)^{2}}$

con ${\hat {Y}}(X_{0})=\alpha (X_{0})+\sum \limits _{j=1}^{d}{\beta _{j}(X_{0})X_{0}^{j}}$

En el caso general (p>1), se debe minimizar:

${\begin{aligned}&{\hat {\beta }}(X_{0})={\underset {\beta (X_{0})}{\mathop {\arg \min } }}\,\sum \limits _{i=1}^{N}{K_{h_{\lambda }}(X_{0},X_{i})\left(Y(X_{i})-b(X_{i})^{T}\beta (X_{0})\right)}^{2}\\&b(X)=\left({\begin{matrix}1,&X_{1},&X_{2},...&X_{1}^{2},&X_{2}^{2},...&X_{1}X_{2}\,\,\,...\\\end{matrix}}\right)\\&{\hat {Y}}(X_{0})=b(X_{0})^{T}{\hat {\beta }}(X_{0})\\\end{aligned}}$

Véase también

Referencias

Li, Q. y JS Racine. Econometría no paramétrica: teoría y práctica . Princeton University Press, 2007, ISBN 0-691-12161-3 .
T. Hastie, R. Tibshirani y J. Friedman, The Elements of Statistical Learning , Capítulo 6, Springer, 2001. ISBN 0-387-95284-5 (sitio del libro complementario).
M. Gupta, E. Garcia y E. Chin, "Regresión lineal local adaptativa con aplicación a la gestión del color de la impresora", IEEE Trans. Image Processing 2008.