Regresión Ridge

[1]​ Se ha utilizado en muchos campos, como la econometría, la química y la ingeniería.

[nota 1]​ Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal, que se produce comúnmente en modelos con un gran número de parámetros.

Esto proporciona una estimación más precisa de los parámetros de la cresta, ya que su varianza y estimador cuadrático medio son a menudo más pequeños que los estimadores mínimos cuadrados derivados anteriormente.

se alivia añadiendo elementos positivos a las diagonales, con lo que disminuye su número de condición.

[9]​ Puede demostrarse que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción

, en el que la restricción no es vinculante, el estimador de cresta se reduce a mínimos cuadrados ordinarios.

El caso de dimensión finita fue expuesto por Arthur E. Hoerl, que adoptó un enfoque estadístico,[17]​ y por Manus Foster, que interpretó este método como un filtro de Wiener-Kolmogorov (Kriging).

El enfoque estándar es la regresión lineal por mínimos cuadrados ordinarios.

lo satisface, es decir, la solución no es única, se dice que el problema está mal planteado.

En tales casos, la estimación por mínimos cuadrados ordinarios conduce a un sistema de ecuaciones sobredeterminado o, más a menudo, subdeterminado.

Por lo tanto, al resolver el problema inverso, el mapeado inverso funciona como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido (los valores propios / valores singulares son mayores en la cartografía inversa donde eran menores en la cartografía directa).

, en lugar de permitir que un modelo se utilice como prior para

Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:

, dando preferencia a las soluciones con normas más pequeñas; esto se conoce como regularización L2 .

Esta regularización mejora el condicionamiento del problema, permitiendo así una solución numérica directa.

se reduce a la solución por mínimos cuadrados no regularizada, siempre que (ATA)-1 exista.

Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza.

En algunas situaciones, se puede evitar el uso de la transposición

, que puede utilizarse para establecer la norma ponderada al cuadrado

en la regularización generalizada de Tikhonov, lo que lleva a minimizar:

que no es sino la solución del problema generalizado de Tikhonov donde

suele ser desconocida y, a menudo, en los problemas prácticos se determina mediante un método ad hoc.

Otros enfoques son el principio de discrepancia, la validación cruzada, el método de la curva en L,[27]​ la máxima verosimilitud restringida y el estimador insesgado del riesgo predictivo.

Grace Wahba demostró que el parámetro óptimo, en el sentido de la validación cruzada dejando uno fuera minimiza.

que representa las incertidumbres a priori sobre los parámetros del modelo, y una matriz de covarianza

[30]​ En el caso especial de que estas dos matrices sean diagonales e isótropas,

parece bastante arbitrario, el proceso puede justificarse desde un punto de vista bayesiano.

a veces se considera una distribución normal multivariante.

En aras de la simplicidad, se parte de los siguientes supuestos: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación típica

también se suponen independientes con media y desviación típica nulas