stringtranslate.com

Regresión de búsqueda de proyección

En estadística , la regresión de búsqueda de proyección (PPR) es un modelo estadístico desarrollado por Jerome H. Friedman y Werner Stuetzle que amplía los modelos aditivos . Este modelo adapta los modelos aditivos en el sentido de que primero proyecta la matriz de datos de las variables explicativas en la dirección óptima antes de aplicar funciones de suavizado a estas variables explicativas.

Descripción general del modelo

El modelo consta de combinaciones lineales de funciones de cresta : transformaciones no lineales de combinaciones lineales de las variables explicativas. El modelo básico toma la forma

donde x i es una fila de 1 × p de la matriz de diseño que contiene las variables explicativas, por ejemplo i , y i es una predicción de 1 × 1, { β j } es una colección de r vectores (cada uno de ellos un vector unitario de longitud p ) que contienen los parámetros desconocidos, { f j } es una colección de r funciones suaves inicialmente desconocidas que se asignan desde , y r es un hiperparámetro. Se pueden determinar buenos valores para r mediante validación cruzada o una estrategia por etapas que se detiene cuando el ajuste del modelo no se puede mejorar significativamente. A medida que r tiende a infinito y con un conjunto apropiado de funciones { f j }, el modelo PPR es un estimador universal , ya que puede aproximarse a cualquier función continua en .

Estimación del modelo

Para un conjunto de datos dado , el objetivo es minimizar la función de error.

sobre las funciones y vectores . No existe ningún método para resolver todas las variables a la vez, pero se puede resolver mediante optimización alterna. Primero, considere cada par individualmente: deje que todos los demás parámetros sean fijos y encuentre un "residual", la varianza de la producción no contabilizada por esos otros parámetros, dada por

La tarea de minimizar la función de error ahora se reduce a resolver

para cada j por turno. Por lo general, se agregan nuevos pares al modelo en una etapa avanzada.

Aparte: los pares previamente ajustados se pueden reajustar después de que se determinen nuevos pares ajustados mediante un algoritmo conocido como backfitting , que implica reconsiderar un par anterior, recalcular el residual teniendo en cuenta cómo han cambiado otros pares, reajustarlo para tener en cuenta esa nueva información y luego realizar un ciclo. a través de todos los pares de ajuste de esta manera hasta que los parámetros converjan. Este proceso generalmente da como resultado un modelo que funciona mejor con menos pares de ajustes, aunque lleva más tiempo entrenarlo y, por lo general, es posible lograr el mismo rendimiento omitiendo el ajuste posterior y simplemente agregando más ajustes al modelo (aumentando r ).

Resolver la función de error simplificada para determinar un par se puede hacer con optimización alterna, donde primero se usa un azar para proyectar en un espacio 1D, y luego se encuentra el óptimo para describir la relación entre esa proyección y los residuos a través de su diagrama de dispersión favorito. método de regresión. Entonces, si se mantiene constante, suponiendo que alguna vez sea diferenciable, los pesos actualizados óptimos se pueden encontrar mediante el método de Gauss-Newton , un método cuasi-Newton en el que se descarta la parte del hessiano que involucra la segunda derivada. Para derivar esto, primero expanda Taylor , luego conecte la expansión nuevamente a la función de error simplificada y haga alguna manipulación algebraica para ponerla en la forma

Este es un problema de mínimos cuadrados ponderados . Si resolvemos todos los pesos y los colocamos en una matriz diagonal , apilamos todos los objetivos nuevos en un vector y usamos la matriz de datos completa en lugar de un solo ejemplo , entonces el óptimo viene dado por la forma cerrada.

Utilice esta actualización para encontrar una nueva proyección y reajustarla al nuevo diagrama de dispersión. Luego use ese nuevo para actualizar resolviendo lo anterior y continúe este proceso alterno hasta que converja.

Se ha demostrado que la tasa de convergencia, el sesgo y la varianza se ven afectados por la estimación de y .

Discusión

El modelo PPR toma la forma de un modelo aditivo básico pero con un componente adicional, por lo que cada uno se ajusta a un diagrama de dispersión versus el residual (varianza inexplicable) durante el entrenamiento en lugar de utilizar las entradas sin procesar. Esto limita el problema de encontrar cada uno a una dimensión baja, lo que lo hace solucionable con mínimos cuadrados comunes o métodos de ajuste de splines y evita la maldición de la dimensionalidad durante el entrenamiento. Debido a que se toma una proyección de , el resultado parece una "cresta" ortogonal a la dimensión de la proyección, por lo que a menudo se las denomina "funciones de cresta". Las direcciones se eligen para optimizar el ajuste de sus correspondientes funciones de cresta.

Tenga en cuenta que debido a que PPR intenta ajustar las proyecciones de los datos, puede resultar difícil interpretar el modelo ajustado en su conjunto, porque cada variable de entrada se ha contabilizado de una manera compleja y multifacética. Esto puede hacer que el modelo sea más útil para la predicción que para comprender los datos, aunque visualizar funciones de cresta individuales y considerar qué proyecciones está descubriendo el modelo puede arrojar alguna información.

Ventajas de la estimación del PPR

Desventajas de la estimación del PPR

Extensiones de PPR

PPR frente a redes neuronales (NN)

Tanto la regresión de búsqueda de proyección como las redes neuronales completamente conectadas con una única capa oculta proyectan el vector de entrada en un hiperplano unidimensional y luego aplican una transformación no lineal de las variables de entrada que luego se agregan de forma lineal. Así ambos siguen los mismos pasos para superar la maldición de la dimensionalidad. La principal diferencia es que las funciones que se ajustan en PPR pueden ser diferentes para cada combinación de variables de entrada y se estiman una a la vez y luego se actualizan con las ponderaciones, mientras que en NN todas se especifican por adelantado y se estiman simultáneamente.

Por lo tanto, en la estimación de PPR las transformaciones de variables en PPR están impulsadas por datos, mientras que en una red neuronal de una sola capa estas transformaciones son fijas.

Ver también

Referencias