Algoritmo de adaptación posterior

En estadística , el algoritmo de ajuste retrospectivo es un procedimiento iterativo simple que se utiliza para ajustar un modelo aditivo generalizado . Fue introducido en 1985 por Leo Breiman y Jerome Friedman junto con los modelos aditivos generalizados. En la mayoría de los casos, el algoritmo de ajuste retrospectivo es equivalente al método de Gauss-Seidel , un algoritmo utilizado para resolver un determinado sistema lineal de ecuaciones .

Algoritmo

Los modelos aditivos son una clase de modelos de regresión no paramétricos de la forma:

Y_{i}=\alpha +\sum _{j=1}^{p}f_{j}(X_{ij})+\epsilon _{i}

donde cada una es una variable en nuestro predictor -dimensional , y es nuestra variable de resultado. representa nuestro error inherente, que se supone que tiene media cero. Las representan funciones suaves no especificadas de un solo . Dada la flexibilidad en el , normalmente no tenemos una solución única: se deja sin identificar ya que se puede agregar cualquier constante a cualquiera de los y restar este valor de . Es común rectificar esto restringiendo $X_{1},X_{2},\ldots ,X_{p}$ ${\estilo de visualización p}$ ${\estilo de visualización X}$ ${\estilo de visualización Y}$ $\épsilon$ $estilo de visualización f_ {j}}$ $Estilo de visualización X_ {j}}$ $estilo de visualización f_ {j}}$ ${\estilo de visualización \alpha}$ $estilo de visualización f_ {j}}$ ${\estilo de visualización \alpha}$

\suma _{i=1}^{N}f_{j}(X_{ij})=0

a pesar de

{\estilo de visualización j}

partida

\alpha =1/N\sum _ {i=1}^{N}y_ {i}

necesariamente.

El algoritmo de retroajuste es entonces:

 Inicializar , Hacer hasta converger: Para cada predictor j : (a) (paso de retroajuste) (b) (centrado medio de la función estimada) ${\hat {\alpha }}=1/N\sum _{i=1}^{N}y_{i},{\hat {f_{j}}}\equiv 0$  $\para todos j$   ${\sombrero {f_{j}}}$   ${\hat {f_{j}}}\leftarrow {\text{Suave}}[\lbrace y_{i}-{\hat {\alpha }}-\sum _{k\neq j}{\hat {f_{k}}}(x_{ik})\rbrace _{1}^{N}]$   ${\hat {f_{j}}}\leftarrow {\hat {f_{j}}}-1/N\sum _{i=1}^{N}{\hat {f_{j}} }(x_{ij})$

¿Dónde está nuestro operador de suavizado? Normalmente, se elige como suavizador de spline cúbico, pero puede ser cualquier otra operación de ajuste adecuada, como: ${\text{Suave}}$

regresión polinomial local
métodos de suavizado del núcleo
operadores más complejos, como suavizadores de superficies para interacciones de segundo orden y de orden superior

En teoría, el paso (b) del algoritmo no es necesario, ya que las estimaciones de la función están limitadas a sumar cero. Sin embargo, debido a cuestiones numéricas, esto podría convertirse en un problema en la práctica. ^[1]

Motivación

Si consideramos el problema de minimizar el error cuadrático esperado:

\min E[Y-(\alpha +\sum _{j=1}^{p}f_{j}(X_{j}))]^{2}

Existe una solución única por la teoría de proyecciones dada por:

f_{i}(X_{i})=E[Y-(\alpha +\sum _{j\neq i}^{p}f_{j}(X_{j}))|X_{i}]

para i = 1, 2, ..., p .

Esto da la interpretación de la matriz:

{\begin{pmatrix}I&P_{1}&\cdots &P_{1}\\P_{2}&I&\cdots &P_{2}\\\vdots &&\ddots &\vdots \\P_{p}&\cdots &P_{p}&I\end{pmatrix}}{\begin{pmatrix}f_{1}(X_{1})\\f_{2}(X_{2})\\\vdots \\f_{p}(X_{p})\end{pmatrix}}={\begin{pmatrix}P_{1}Y\\P_{2}Y\\\vdots \\P_{p}Y\end{pmatrix}}

donde . En este contexto podemos imaginar una matriz más suave, , que se aproxima a nuestra y da una estimación, , de $P_{i}(\cdot )=E(\cdot |X_{i})$ $Estilo de visualización S_{i}}$ $Estilo de visualización P_{i}}$ $Estilo de visualización: S_{i}Y$ $E(Y|X)$

{\begin{pmatrix}I&S_{1}&\cdots &S_{1}\\S_{2}&I&\cdots &S_{2}\\\vdots &&\ddots &\vdots \\S_{p}&\cdots &S_{p}&I\end{pmatrix}}{\begin{pmatrix}f_{1}\\f_{2}\\\vdots \\f_{p}\end{pmatrix}}={\begin{pmatrix}S_{1}Y\\S_{2}Y\\\vdots \\S_{p}Y\end{pmatrix}}

o en forma abreviada

{\hat {S}}f=QY\,

No es posible calcular una solución exacta para un valor np grande , por lo que se utiliza la técnica iterativa de ajuste retrospectivo. Tomamos estimaciones iniciales y actualizamos cada una de ellas para que sea el ajuste suavizado de los residuos de todas las demás: $f_{j}^{(0)}$ $f_{j}^{(\ell )}$

{\hat {f_{j}}}^{(\ell )}\leftarrow {\text{Suave}}[\lbrace y_{i}-{\hat {\alpha }}-\sum _{k\neq j}{\hat {f_{k}}}(x_{ik})\rbrace _{1}^{N}]

Mirando la forma abreviada es fácil ver que el algoritmo de retroajuste es equivalente al método de Gauss-Seidel para operadores de suavizado lineal S .

Derivación explícita para dos dimensiones

A continuación, ^[2] podemos formular el algoritmo de ajuste retrospectivo explícitamente para el caso bidimensional. Tenemos:

f_{1}=S_{1}(Y-f_{2}),f_{2}=S_{2}(Y-f_{1})

Si denotamos como la estimación de en el i -ésimo paso de actualización, los pasos de retroajuste son ${\sombrero {f}}_{1}^{(i)}$ $estilo de visualización f_{1}}$

{\hat {f}}_{1}^{(i)}=S_{1}[Y-{\hat {f}}_{2}^{(i-1)}],{\hat {f}}_{2}^{(i)}=S_{2}[Y-{\hat {f}}_{1}^{(i)}]

Por inducción obtenemos

{\hat {f}}_{1}^{(i)}=Y-\sum _{\alpha =0}^{i-1}(S_{1}S_{2})^{\alpha }(I-S_{1})Y-(S_{1}S_{2})^{i-1}S_{1}{\hat {f}}_{2}^{(0)}

{\hat {f}}_{2}^{(i)}=S_{2}\sum _{\alpha =0}^{i-1}(S_{1}S_{2})^{\alpha }(I-S_{1})Y+S_{2}(S_{1}S_{2})^{i-1}S_{1}{\hat {f}}_{2}^{(0)}

Si lo establecemos entonces obtenemos ${\hat {f}}_{2}^{(0)}=0$

{\hat {f}}_{1}^{(i)}=Y-S_{2}^{-1}{\hat {f}}_{2}^{(i)}=[I-\sum _{\alpha =0}^{i-1}(S_{1}S_{2})^{\alpha }(I-S_{1})]Y

{\hat {f}}_{2}^{(i)}=[S_{2}\sum _{\alpha =0}^{i-1}(S_{1}S_{2})^{\alpha }(I-S_{1})]Y

Donde lo hemos resuelto conectando directamente desde . ${\hat {f}}_{1}^{(i)}$ $f_{2}=S_{2}(Y-f_{1})$

Tenemos convergencia si . En este caso, siendo : $\|S_{1}S_{2}\|<1$ ${\hat {f}}_{1}^{(i)},{\hat {f}}_{2}^{(i)}{\xrightarrow {}}{\hat {f}}_{1}^{(\infty )},{\hat {f}}_{2}^{(\infty )}$

{\hat {f}}_{1}^{(\infty )}=Y-S_{2}^{-1}{\hat {f}}_{2}^{(\infty )}=Y-(I-S_{1}S_{2})^{-1}(I-S_{1})Y

{\hat {f}}_{2}^{(\infty )}=S_{2}(I-S_{1}S_{2})^{-1}(I-S_{1})Y

Podemos comprobar que esta es una solución al problema, es decir, que y convergen a y correspondientemente, introduciendo estas expresiones en las ecuaciones originales. ${\hat {f}}_{1}^{(i)}$ ${\hat {f}}_{2}^{(i)}$ $f_{1}$ $f_{2}$

Asuntos

La elección de cuándo detener el algoritmo es arbitraria y es difícil saber a priori cuánto tiempo llevará alcanzar un umbral de convergencia específico. Además, el modelo final depende del orden en que se ajusten las variables predictoras. $X_{i}$

Además, la solución encontrada mediante el procedimiento de ajuste no es única. Si es un vector tal que desde arriba, entonces si es una solución, entonces también es una solución para cualquier . Una modificación del algoritmo de ajuste que implica proyecciones sobre el espacio propio de S puede solucionar este problema. $b$ ${\hat {S}}b=0$ ${\hat {f}}$ ${\hat {f}}+\alpha b$ $\alpha \in \mathbb {R}$

Algoritmo modificado

Podemos modificar el algoritmo de ajuste para facilitar la obtención de una solución única. Sea el espacio abarcado por todos los vectores propios de S _i que corresponden al valor propio 1. Entonces, cualquier b que satisfaga tiene y Ahora, si tomamos como una matriz que se proyecta ortogonalmente sobre , obtenemos el siguiente algoritmo de ajuste modificado: ${\mathcal {V}}_{1}(S_{i})$ ${\hat {S}}b=0$ $b_{i}\in {\mathcal {V}}_{1}(S_{i})\forall i=1,\dots ,p$ $\sum _{i=1}^{p}b_{i}=0.$ $A$ ${\mathcal {V}}_{1}(S_{1})+\dots +{\mathcal {V}}_{1}(S_{p})$

 Inicializar , , Hacer hasta converger: ${\hat {\alpha }}=1/N\sum _{1}^{N}y_{i},{\hat {f_{j}}}\equiv 0$  $\forall i,j$  ${\hat {f_{+}}}=\alpha +{\hat {f_{1}}}+\dots +{\hat {f_{p}}}$   ${\hat {f_{j}}}$  Regresar al espacio , estableciendo para cada predictor j : $y-{\hat {f_{+}}}$  ${\mathcal {V}}_{1}(S_{i})+\dots +{\mathcal {V}}_{1}(S_{p})$  $a=A(Y-{\hat {f_{+}}})$   Aplique la actualización de retroajuste al usar el operador de suavizado , lo que produce nuevas estimaciones para $(Y-a)$  $(I-A_{i})S_{i}$  ${\hat {f_{j}}}$

Referencias

^ Hastie, Trevor , Robert Tibshirani y Jerome Friedman (2001). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción . Springer, ISBN 0-387-95284-5 .
^ Härdle, Wolfgang; et al. (9 de junio de 2004). "Backfitting". Archivado desde el original el 10 de mayo de 2015. Consultado el 19 de agosto de 2015.

Breiman, L. y Friedman, JH (1985). "Estimación de transformaciones óptimas para regresión múltiple y correlaciones (con discusión)". Revista de la Asociación Estadounidense de Estadística . 80 (391): 580–619. doi :10.2307/2288473. JSTOR 2288473.
Hastie, TJ y Tibshirani, RJ (1990). "Modelos aditivos generalizados". Monografías sobre estadística y probabilidad aplicada . 43 .
Härdle, Wolfgang; et al. (9 de junio de 2004). "Backfitting". Archivado desde el original el 10 de mayo de 2015. Consultado el 19 de agosto de 2015 .

Enlaces externos

Paquete R para la adaptación de GAM
Paquete R para la adaptación posterior de BRUTO