Regresión de búsqueda de proyección

En estadística , la regresión de búsqueda de proyección (PPR) es un modelo estadístico desarrollado por Jerome H. Friedman y Werner Stuetzle que amplía los modelos aditivos . Este modelo adapta los modelos aditivos en el sentido de que primero proyecta la matriz de datos de las variables explicativas en la dirección óptima antes de aplicar funciones de suavizado a estas variables explicativas.

Descripción general del modelo

El modelo consta de combinaciones lineales de funciones de cresta : transformaciones no lineales de combinaciones lineales de las variables explicativas. El modelo básico toma la forma

y_ {i}=\beta _ {0}+\sum _ {j=1}^{r}f_ {j}(\beta _ {j}^{\mathrm {T} }x_ {i} )+\varepsilon _{i},

donde x _i es una fila de 1 × p de la matriz de diseño que contiene las variables explicativas, por ejemplo i , y _i es una predicción de 1 × 1, { β _j } es una colección de r vectores (cada uno de ellos un vector unitario de longitud p ) que contienen los parámetros desconocidos, { f _j } es una colección de r funciones suaves inicialmente desconocidas que se asignan desde , y r es un hiperparámetro. Se pueden determinar buenos valores para r mediante validación cruzada o una estrategia por etapas que se detiene cuando el ajuste del modelo no se puede mejorar significativamente. A medida que r tiende a infinito y con un conjunto apropiado de funciones { f _j }, el modelo PPR es un estimador universal , ya que puede aproximarse a cualquier función continua en . $\mathbb {R} \rightarrow \mathbb {R}$ $\mathbb {R} ^{p}$

Estimación del modelo

Para un conjunto de datos dado , el objetivo es minimizar la función de error. $\{(y_{i},x_{i})\}_{i=1}^{n}$

S=\sum _{i=1}^{n}\left[y_{i}-\sum _{j=1}^{r}f_{j}(\beta _{j}^{ \mathrm {T} }x_{i})\right]^{2}

sobre las funciones y vectores . No existe ningún método para resolver todas las variables a la vez, pero se puede resolver mediante optimización alterna. Primero, considere cada par individualmente: deje que todos los demás parámetros sean fijos y encuentre un "residual", la varianza de la producción no contabilizada por esos otros parámetros, dada por ${\ Displaystyle f_ {j}}$ $\beta _ {j}$ ${\ Displaystyle (f_ {j}, \ beta _ {j})}$

r_{i}=y_{i}-\sum _{l\neq j}f_{l}(\beta _{l}^{\mathrm {T} }x_{i})

La tarea de minimizar la función de error ahora se reduce a resolver

\min _{f_{j},\beta _{j}}S'=\min _{f_{j},\beta _{j}}\sum _{i=1}^{n} \left[r_{i}-f_{j}(\beta _{j}^{\mathrm {T} }x_{i})\right]^{2}

para cada j por turno. Por lo general, se agregan nuevos pares al modelo en una etapa avanzada. ${\ Displaystyle (f_ {j}, \ beta _ {j})}$

Aparte: los pares previamente ajustados se pueden reajustar después de que se determinen nuevos pares ajustados mediante un algoritmo conocido como backfitting , que implica reconsiderar un par anterior, recalcular el residual teniendo en cuenta cómo han cambiado otros pares, reajustarlo para tener en cuenta esa nueva información y luego realizar un ciclo. a través de todos los pares de ajuste de esta manera hasta que los parámetros converjan. Este proceso generalmente da como resultado un modelo que funciona mejor con menos pares de ajustes, aunque lleva más tiempo entrenarlo y, por lo general, es posible lograr el mismo rendimiento omitiendo el ajuste posterior y simplemente agregando más ajustes al modelo (aumentando r ).

Resolver la función de error simplificada para determinar un par se puede hacer con optimización alterna, donde primero se usa un azar para proyectar en un espacio 1D, y luego se encuentra el óptimo para describir la relación entre esa proyección y los residuos a través de su diagrama de dispersión favorito. método de regresión. Entonces, si se mantiene constante, suponiendo que alguna vez sea diferenciable, los pesos actualizados óptimos se pueden encontrar mediante el método de Gauss-Newton , un método cuasi-Newton en el que se descarta la parte del hessiano que involucra la segunda derivada. Para derivar esto, primero expanda Taylor , luego conecte la expansión nuevamente a la función de error simplificada y haga alguna manipulación algebraica para ponerla en la forma ${\ Displaystyle (f_ {j}, \ beta _ {j})}$ $\beta _ {j}$ $X$ ${\ Displaystyle f_ {j}}$ ${\ Displaystyle f_ {j}}$ ${\ Displaystyle f_ {j}}$ $\beta _ {j}$ $f_{j}(\beta _{j}^{T}x_{i})\approx f_{j}(\beta _{j,old}^{T}x_{i})+{\ punto {f_{j}}}(\beta _{j,old}^{T}x_{i})(\beta _{j}^{T}x_{i}-\beta _{j,old} ^{T}x_{i})$ $S'$

\min _{\beta _{j}}S'\approx \min _{\beta _{j}}\sum _{i=1}^{n}\underbrace {{\dot {f_{ j}}}(\beta _{j,old}^{T}x_{i})^{2}} _{w}{\Bigg [}{\bigg (}\underbrace {\beta _{j, antiguo}^{T}x_{i}+{\frac {r_{i}-f_{j}(\beta _{j,old}^{T}x_{i})}{{\dot {f_{ j}}}(\beta _{j,old}^{T}x_{i})}}} _{\hat {b}}{\bigg )}-\beta _{j}^{T}x_ {i}{\Bigg ]}^{2}

Este es un problema de mínimos cuadrados ponderados . Si resolvemos todos los pesos y los colocamos en una matriz diagonal , apilamos todos los objetivos nuevos en un vector y usamos la matriz de datos completa en lugar de un solo ejemplo , entonces el óptimo viene dado por la forma cerrada. $w$ $W$ ${\sombrero {b}}$ $X$ $x_{i}$ $\beta _ {j}$

{\underset {\beta _{j}}{\operatorname {arg\,min} }}{\Big \|}{\vec {\hat {b}}}-X\beta _{j} {\Grande \|}_{W}^{2}=(X^{\mathrm {T} }WX)^{-1}X^{\mathrm {T} }W{\vec {\hat {b }}}

Utilice esta actualización para encontrar una nueva proyección y reajustarla al nuevo diagrama de dispersión. Luego use ese nuevo para actualizar resolviendo lo anterior y continúe este proceso alterno hasta que converja. $\beta _ {j}$ $X$ ${\ Displaystyle f_ {j}}$ ${\ Displaystyle f_ {j}}$ $\beta _ {j}$ ${\ Displaystyle (f_ {j}, \ beta _ {j})}$

Se ha demostrado que la tasa de convergencia, el sesgo y la varianza se ven afectados por la estimación de y . $\beta _ {j}$ ${\ Displaystyle f_ {j}}$

Discusión

El modelo PPR toma la forma de un modelo aditivo básico pero con un componente adicional, por lo que cada uno se ajusta a un diagrama de dispersión versus el residual (varianza inexplicable) durante el entrenamiento en lugar de utilizar las entradas sin procesar. Esto limita el problema de encontrar cada uno a una dimensión baja, lo que lo hace solucionable con mínimos cuadrados comunes o métodos de ajuste de splines y evita la maldición de la dimensionalidad durante el entrenamiento. Debido a que se toma una proyección de , el resultado parece una "cresta" ortogonal a la dimensión de la proyección, por lo que a menudo se las denomina "funciones de cresta". Las direcciones se eligen para optimizar el ajuste de sus correspondientes funciones de cresta. $\beta _ {j}$ ${\ Displaystyle f_ {j}}$ $\beta _ {j}^{T}X^{T}$ ${\ Displaystyle f_ {j}}$ ${\ Displaystyle f_ {j}}$ $X$ $\{f_{j}\}$ $\beta _ {j}$

Tenga en cuenta que debido a que PPR intenta ajustar las proyecciones de los datos, puede resultar difícil interpretar el modelo ajustado en su conjunto, porque cada variable de entrada se ha contabilizado de una manera compleja y multifacética. Esto puede hacer que el modelo sea más útil para la predicción que para comprender los datos, aunque visualizar funciones de cresta individuales y considerar qué proyecciones está descubriendo el modelo puede arrojar alguna información.

Ventajas de la estimación del PPR

Utiliza funciones de regresión univariadas en lugar de su forma multivariada, lidiando así eficazmente con la maldición de la dimensionalidad.
La regresión univariada permite una estimación simple y eficiente
En relación con los modelos aditivos generalizados , PPR puede estimar una clase de funciones mucho más rica
A diferencia de los métodos de promedio local (como los k vecinos más cercanos ), PPR puede ignorar variables con bajo poder explicativo.

Desventajas de la estimación del PPR

PPR requiere examinar un espacio de parámetros de dimensión M para poder estimar . $\beta _ {j}$
Se debe seleccionar el parámetro de suavizado para . ${\ Displaystyle f_ {j}}$
El modelo suele ser difícil de interpretar.

Extensiones de PPR

Se han sugerido suavizadores alternativos, como la función radial, la función armónica y la función aditiva, y su rendimiento varía según los conjuntos de datos utilizados.
También se han utilizado criterios de optimización alternativos, como desviaciones absolutas estándar y desviaciones absolutas medias .
Se pueden utilizar mínimos cuadrados ordinarios para simplificar los cálculos, ya que a menudo los datos no tienen fuertes no linealidades.
Se ha utilizado la regresión inversa en rodajas (SIR) para elegir los vectores de dirección para PPR.
El PPR generalizado combina el PPR regular con mínimos cuadrados reponderados iterativamente (IRLS) y una función de enlace para estimar datos binarios.

PPR frente a redes neuronales (NN)

Tanto la regresión de búsqueda de proyección como las redes neuronales completamente conectadas con una única capa oculta proyectan el vector de entrada en un hiperplano unidimensional y luego aplican una transformación no lineal de las variables de entrada que luego se agregan de forma lineal. Así ambos siguen los mismos pasos para superar la maldición de la dimensionalidad. La principal diferencia es que las funciones que se ajustan en PPR pueden ser diferentes para cada combinación de variables de entrada y se estiman una a la vez y luego se actualizan con las ponderaciones, mientras que en NN todas se especifican por adelantado y se estiman simultáneamente. ${\ Displaystyle f_ {j}}$

Por lo tanto, en la estimación de PPR las transformaciones de variables en PPR están impulsadas por datos, mientras que en una red neuronal de una sola capa estas transformaciones son fijas.

Ver también

Seguimiento de proyección

Referencias

Friedman, JH y Stuetzle, W. (1981) Regresión de búsqueda de proyección. Revista de la Asociación Estadounidense de Estadística, 76, 817–823.
Hand, D., Mannila, H. y Smyth, P, (2001) Principios de minería de datos. Prensa del MIT. ISBN 0-262-08290-X
Hall, P. (1988) Estimación de la dirección en la que un conjunto de datos es más interesante, Probab. Campos relacionados con la teoría, 80, 51–77.
Hastie, TJ, Tibshirani, RJ y Friedman, JH (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Saltador. ISBN 978-0-387-84857-0
Klinke, S. y Grassmann, J. (2000) 'Projection Pursuit Regression' en Suavizado y regresión: enfoques, cálculo y aplicación. Ed. Schimek, MG. Wiley Interciencia.
Lingjarde, OC y Liestol, K. (1998) Regresión de búsqueda de proyección generalizada. Revista SIAM de Computación Científica, 20, 844–857.