Técnica de regularización para problemas mal planteados
La regresión de cresta es un método para estimar los coeficientes de modelos de regresión múltiple en escenarios donde las variables independientes están altamente correlacionadas. [1] Se ha utilizado en muchos campos, incluidos la econometría, la química y la ingeniería. [2] También conocida como regularización de Tikhonov , llamada así por Andrey Tikhonov , es un método de regularización de problemas mal planteados . [a] Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal , que ocurre comúnmente en modelos con un gran número de parámetros. [3] En general, el método proporciona una eficiencia mejorada en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza ). [4]
La teoría fue introducida por primera vez por Hoerl y Kennard en 1970 en sus artículos de Technometrics "Ridge regressions: biased estimation of nonorthogonal problems" y "Ridge regressions: applications in nonorthogonal problems". [5] [6] [1] Este fue el resultado de diez años de investigación en el campo del análisis de crestas. [7]
La regresión de cresta se desarrolló como una posible solución a la imprecisión de los estimadores de mínimos cuadrados cuando los modelos de regresión lineal tienen algunas variables independientes multicolineales (altamente correlacionadas), mediante la creación de un estimador de regresión de cresta (RR). Esto proporciona una estimación más precisa de los parámetros de cresta, ya que su varianza y estimador cuadrático medio suelen ser más pequeños que los estimadores de mínimos cuadrados derivados previamente. [8] [2]
Descripción general
En el caso más simple, el problema de una matriz de momento casi singular se alivia añadiendo elementos positivos a las diagonales , disminuyendo así su número de condición . De forma análoga al estimador de mínimos cuadrados ordinarios , el estimador de cresta simple viene dado por
donde es el regresado , es la matriz de diseño , es la matriz identidad , y el parámetro de cresta sirve como la constante que desplaza las diagonales de la matriz de momento. [9] Se puede demostrar que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción , que se puede expresar como un lagrangiano:
lo que demuestra que no es más que el multiplicador de Lagrange de la restricción. [10] Normalmente, se elige según un criterio heurístico, de modo que la restricción no se satisfaga exactamente. Específicamente en el caso de , en el que la restricción no es vinculante , el estimador de cresta se reduce a mínimos cuadrados ordinarios . A continuación se analiza un enfoque más general para la regularización de Tikhonov.
Historia
La regularización de Tikhonov se inventó de forma independiente en muchos contextos diferentes. Se hizo ampliamente conocida a través de su aplicación a ecuaciones integrales en los trabajos de Andrey Tikhonov [11] [12] [13] [14] [15] y David L. Phillips. [16] Algunos autores utilizan el término regularización de Tikhonov-Phillips . El caso de dimensión finita fue expuesto por Arthur E. Hoerl, quien adoptó un enfoque estadístico, [17] y por Manus Foster, quien interpretó este método como un filtro de Wiener-Kolmogorov (Kriging) . [18] Siguiendo a Hoerl, se conoce en la literatura estadística como regresión de cresta, [19] llamada así por el análisis de cresta ("cresta" se refiere a la trayectoria desde el máximo restringido). [20]
Regularización de Tikhonov
Supongamos que para una matriz y un vector reales conocidos , deseamos encontrar un vector tal que
y puedan tener diferentes tamaños y no ser cuadrados.
El enfoque estándar es la regresión lineal de mínimos cuadrados ordinarios . [ aclaración necesaria ] Sin embargo, si no satisface la ecuación o más de uno lo hace, es decir, la solución no es única, se dice que el problema está mal planteado . En tales casos, la estimación de mínimos cuadrados ordinarios conduce a un sistema de ecuaciones sobredeterminado o, más a menudo, subdeterminado . La mayoría de los fenómenos del mundo real tienen el efecto de filtros de paso bajo [ aclaración necesaria ] en la dirección hacia adelante donde se asigna a . Por lo tanto, al resolver el problema inverso, la asignación inversa opera como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido ( los valores propios / valores singulares son más grandes en la asignación inversa donde eran más pequeños en la asignación hacia adelante). Además, los mínimos cuadrados ordinarios anulan implícitamente cada elemento de la versión reconstruida de que está en el espacio nulo de , en lugar de permitir que se use un modelo como anterior para . Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos cuadrados , lo que puede escribirse de forma compacta como
donde es la norma euclidiana .
Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:
para alguna matriz de Tikhonov adecuadamente elegida . En muchos casos, esta matriz se elige como un múltiplo escalar de la matriz identidad ( ), dando preferencia a soluciones con normas más pequeñas ; esto se conoce como regularización L 2 . [21] En otros casos, se pueden usar operadores de paso alto (por ejemplo, un operador de diferencia o un operador de Fourier ponderado ) para imponer suavidad si se cree que el vector subyacente es mayoritariamente continuo. Esta regularización mejora el condicionamiento del problema, lo que permite una solución numérica directa. Una solución explícita, denotada por , viene dada por
El efecto de la regularización puede variar según la escala de la matriz . Para esto se reduce a la solución de mínimos cuadrados no regularizada, siempre que exista ( A T A ) −1 . Nótese que en el caso de una matriz compleja , como es habitual, la transpuesta debe reemplazarse por la matriz hermítica .
La regularización L2 se utiliza en muchos contextos además de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte [22] y la factorización matricial. [23 ]
Aplicación a resultados de ajuste existentes
Dado que la regularización de Tikhonov simplemente agrega un término cuadrático a la función objetivo en los problemas de optimización, es posible hacerlo después de que se haya realizado la optimización no regularizada. Por ejemplo, si el problema anterior con produce la solución , la solución en presencia de se puede expresar como:
con la "matriz de regularización" .
Si el ajuste del parámetro viene con una matriz de covarianza de las incertidumbres estimadas de los parámetros , entonces la matriz de regularización será
y el resultado regularizado tendrá una nueva covarianza.
En el contexto de ajustes de probabilidad arbitrarios, esto es válido siempre que la aproximación cuadrática de la función de probabilidad sea válida. Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza. No se necesita un conocimiento detallado de la función de probabilidad subyacente. [24]
Regularización generalizada de Tikhonov
Para distribuciones normales multivariadas generales para y el error de datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De manera equivalente, se puede buscar un para minimizar
donde hemos usado para representar la norma ponderada al cuadrado (comparar con la distancia de Mahalanobis ). En la interpretación bayesiana es la matriz de covarianza inversa de , es el valor esperado de , y es la matriz de covarianza inversa de . La matriz de Tikhonov se da entonces como una factorización de la matriz (por ejemplo, la factorización de Cholesky ) y se considera un filtro blanqueador .
Este problema generalizado tiene una solución óptima que puede escribirse explícitamente utilizando la fórmula
o de manera equivalente, cuando Q no es una matriz nula:
Regularización de Lavrentyev
En algunas situaciones, se puede evitar el uso de la transpuesta , como lo propuso Mikhail Lavrentyev . [25] Por ejemplo, si es definida positiva simétrica, es decir , también lo es su inversa , que puede usarse para establecer la norma ponderada al cuadrado en la regularización generalizada de Tikhonov, lo que lleva a minimizar
o, equivalentemente hasta un término constante,
Este problema de minimización tiene una solución óptima que puede escribirse explícitamente usando la fórmula
que no es otra cosa que la solución del problema generalizado de Tikhonov donde
La regularización de Lavrentyev, si es aplicable, es ventajosa con respecto a la regularización original de Tikhonov, ya que la matriz de Lavrentyev puede estar mejor condicionada, es decir, tener un número de condición más pequeño , en comparación con la matriz de Tikhonov.
Regularización en el espacio de Hilbert
Los problemas lineales discretos mal condicionados son típicamente el resultado de la discretización de ecuaciones integrales , y se puede formular una regularización de Tikhonov en el contexto original de dimensión infinita. En lo anterior podemos interpretar como un operador compacto en espacios de Hilbert , y y como elementos en el dominio y rango de . El operador es entonces un operador invertible autoadjunto y acotado.
Relación con la descomposición en valores singulares y el filtro de Wiener
Con , esta solución de mínimos cuadrados se puede analizar de una manera especial utilizando la descomposición en valores singulares . Dada la descomposición en valores singulares
con valores singulares , la solución regularizada de Tikhonov se puede expresar como
donde tiene valores diagonales
y es cero en el resto del problema regularizado. Esto demuestra el efecto del parámetro de Tikhonov en el número de condición del problema regularizado. Para el caso generalizado, se puede derivar una representación similar utilizando una descomposición en valores singulares generalizada . [26]
Por último, está relacionado con el filtro de Wiener :
donde los pesos de Wiener son y es el rango de .
Determinación del factor Tikhonov
El parámetro de regularización óptimo suele ser desconocido y, a menudo, en problemas prácticos se determina mediante un método ad hoc . Un enfoque posible se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques incluyen el principio de discrepancia, la validación cruzada , el método de la curva L, [27] la máxima verosimilitud restringida y el estimador de riesgo predictivo imparcial. Grace Wahba demostró que el parámetro óptimo, en el sentido de la validación cruzada de dejar uno fuera, minimiza [28] [29]
donde es la suma residual de los cuadrados y es el número efectivo de grados de libertad .
Usando la descomposición SVD anterior, podemos simplificar la expresión anterior:
y
Relación con la formulación probabilística
La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianza que representa las incertidumbres a priori de los parámetros del modelo, y una matriz de covarianza que representa las incertidumbres de los parámetros observados. [30] En el caso especial en que estas dos matrices son diagonales e isótropas, y , y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con .
Interpretación bayesiana
Aunque a primera vista la elección de la solución a este problema regularizado puede parecer artificial, y de hecho la matriz parece bastante arbitraria, el proceso puede justificarse desde un punto de vista bayesiano . [31] Nótese que para un problema mal planteado uno debe necesariamente introducir algunos supuestos adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad previa de a veces se toma como una distribución normal multivariante . Para simplificar aquí, se hacen los siguientes supuestos: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación estándar . Los datos también están sujetos a errores, y los errores en también se supone que son independientes con media y desviación estándar cero . Bajo estos supuestos la solución regularizada por Tikhonov es la solución más probable dados los datos y la distribución a priori de , según el teorema de Bayes . [32]
Si el supuesto de normalidad se reemplaza por supuestos de homocedasticidad y falta de correlación de errores , y si uno todavía asume una media cero, entonces el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo . [33]
Véase también
Notas
Referencias
- ^ ab Hilt, Donald E.; Seegrist, Donald W. (1977). Ridge, un programa informático para calcular estimaciones de regresión de cresta. doi :10.5962/bhl.title.68934.[ página necesaria ]
- ^ ab Gruber, Marvin (1998). Mejora de la eficiencia mediante la contracción: los estimadores de regresión de James-Stein y Ridge. CRC Press. p. 2. ISBN 978-0-8247-0156-7.
- ^ Kennedy, Peter (2003). A Guide to Econometrics (Quinta edición). Cambridge: The MIT Press. Págs. 205-206. ISBN. 0-262-61183-X.
- ^ Gruber, Marvin (1998). Mejora de la eficiencia mediante la contracción: los estimadores de regresión de James-Stein y Ridge. Boca Raton: CRC Press. pp. 7-15. ISBN 0-8247-0156-9.
- ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). "Regresión de cresta: estimación sesgada para problemas no ortogonales". Technometrics . 12 (1): 55–67. doi :10.2307/1267351. JSTOR 1267351.
- ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). "Regresión de cresta: aplicaciones a problemas no ortogonales". Technometrics . 12 (1): 69–82. doi :10.2307/1267352. JSTOR 1267352.
- ^ Beck, James Vere; Arnold, Kenneth J. (1977). Estimación de parámetros en ingeniería y ciencia. James Beck. pág. 287. ISBN 978-0-471-06118-2.
- ^ Jolliffe, IT (2006). Análisis de componentes principales. Springer Science & Business Media. pág. 178. ISBN 978-0-387-22440-4.
- ^ Para la elección en la práctica, véase Khalaf, Ghadban; Shukur, Ghazi (2005). "Elección del parámetro de cresta para problemas de regresión". Communications in Statistics – Theory and Methods . 34 (5): 1177–1182. doi :10.1081/STA-200056836. S2CID 122983724.
- ^ van Wieringen, Wessel (31 de mayo de 2021). "Apuntes de conferencias sobre regresión de crestas". arXiv : 1509.09169 [estad.ME].
- ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [Sobre la estabilidad de problemas inversos]. Doklady Akademii Nauk SSSR . 39 (5): 195-198. Archivado desde el original el 27 de febrero de 2005.
- ^ Tikhonov, AN (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR . 151 : 501–504.. Traducido en "Solución de problemas incorrectamente formulados y el método de regularización". Matemáticas soviéticas . 4 : 1035–1038.
- ^ Tikhonov, AN; VY Arsenin (1977). Solución de problemas mal planteados . Washington: Winston & Sons. ISBN 0-470-99124-0.
- ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, VV; Yagola, Anatolij Grigorevic (30 de junio de 1995). Métodos numéricos para la solución de problemas mal planteados. Países Bajos: Springer Netherlands. ISBN 0-7923-3583-X. Recuperado el 9 de agosto de 2018 .
- ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (1998). Problemas no lineales mal planteados. Londres: Chapman & Hall. ISBN 0-412-78660-5. Recuperado el 9 de agosto de 2018 .
- ^ Phillips, DL (1962). "Una técnica para la solución numérica de ciertas ecuaciones integrales de primera especie". Revista de la ACM . 9 : 84–97. doi : 10.1145/321105.321114 . S2CID 35368397.
- ^ Hoerl, Arthur E. (1962). "Aplicación del análisis de crestas a problemas de regresión". Chemical Engineering Progress . 58 (3): 54–59.
- ^ Foster, M. (1961). "Una aplicación de la teoría de suavizado de Wiener-Kolmogorov a la inversión de matrices". Revista de la Sociedad de Matemáticas Industriales y Aplicadas . 9 (3): 387–392. doi :10.1137/0109031.
- ^ Hoerl, AE; RW Kennard (1970). "Regresión de cresta: estimación sesgada para problemas no ortogonales". Technometrics . 12 (1): 55–67. doi :10.1080/00401706.1970.10488634.
- ^ Hoerl, Roger W. (1 de octubre de 2020). "Regresión de cresta: un contexto histórico". Technometrics . 62 (4): 420–425. doi :10.1080/00401706.2020.1742207. ISSN 0040-1706.
- ^ Ng, Andrew Y. (2004). Selección de características, regularización L1 vs. L2 e invariancia rotacional (PDF) . Proc. ICML .
- ^ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). "LIBLINEAR: Una biblioteca para clasificación lineal de gran tamaño". Revista de investigación en aprendizaje automático . 9 : 1871–1874.
- ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (2012). "Factorización de matrices no negativas en línea con aproximación estocástica robusta". IEEE Transactions on Neural Networks and Learning Systems . 23 (7): 1087–1099. doi :10.1109/TNNLS.2012.2197827. PMID 24807135. S2CID 8755408.
- ^ Koch, Lukas (2022). "Regularización post-hoc de mediciones de secciones transversales desplegadas". Journal of Instrumentation . 17 (10): 10021. arXiv : 2207.02125 . Código Bibliográfico :2022JInst..17P0021K. doi :10.1088/1748-0221/17/10/P10021.
- ^ Lavrentiev, MM (1967). Algunos problemas de física matemática mal planteados . Nueva York: Springer.
- ^ Hansen, Per Christian (1 de enero de 1998). Problemas deficientes en rango y discretos mal planteados: aspectos numéricos de la inversión lineal (1.ª ed.). Filadelfia, EE. UU.: SIAM. ISBN 978-0-89871-403-6.
- ^ PC Hansen, "La curva L y su uso en el tratamiento numérico de problemas inversos", [1]
- ^ Wahba, G. (1990). "Modelos spline para datos observacionales". Serie de conferencias regionales CBMS-NSF sobre matemáticas aplicadas . Sociedad de matemáticas industriales y aplicadas. Código bibliográfico :1990smod.conf.....W.
- ^ Golub, G.; Heath, M.; Wahba, G. (1979). "Validación cruzada generalizada como método para elegir un buen parámetro de cresta" (PDF) . Technometrics . 21 (2): 215–223. doi :10.1080/00401706.1979.10489751.
- ^ Tarantola, Albert (2005). Teoría del problema inverso y métodos para la estimación de parámetros de modelos (1.ª ed.). Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas (SIAM). ISBN 0-89871-792-2. Recuperado el 9 de agosto de 2018 .
- ^ Greenberg, Edward; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente hacia la literatura . Nueva York: John Wiley & Sons. págs. 207-213. ISBN 0-471-09077-8.
- ^ Vogel, Curtis R. (2002). Métodos computacionales para problemas inversos . Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas. ISBN 0-89871-550-4.
- ^ Amemiya, Takeshi (1985). Econometría avanzada . Harvard University Press. págs. 60-61. ISBN 0-674-00560-0.
Lectura adicional
- Gruber, Marvin (1998). Mejora de la eficiencia mediante la contracción: los estimadores de regresión de James-Stein y Ridge. Boca Raton: CRC Press. ISBN 0-8247-0156-9.
- Kress, Rainer (1998). "Regularización de Tikhonov". Análisis numérico . Nueva York: Springer. pp. 86–90. ISBN 0-387-98408-9.
- Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 19.5. Métodos de regularización lineal". Recetas numéricas: el arte de la computación científica (3.ª ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-88068-8.
- Saleh, AK Md. Ehsanes; Arashi, Mohammad; Kibria, BM Golam (2019). Teoría de la estimación de regresión de cresta con aplicaciones. Nueva York: John Wiley & Sons. ISBN 978-1-118-64461-4.
- Taddy, Matt (2019). "Regularización". Ciencia de datos empresariales: combinación de aprendizaje automático y economía para optimizar, automatizar y acelerar las decisiones empresariales . Nueva York: McGraw-Hill. págs. 69–104. ISBN 978-1-260-45277-8.