stringtranslate.com

Regresión de cresta

La regresión de crestas es un método para estimar los coeficientes de modelos de regresión múltiple en escenarios donde las variables independientes están altamente correlacionadas. [1] Se ha utilizado en muchos campos, incluidos la econometría, la química y la ingeniería. [2] También conocido como regularización de Tikhonov , llamado así por Andrey Tikhonov , es un método de regularización de problemas mal planteados . [a] Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal , que ocurre comúnmente en modelos con una gran cantidad de parámetros. [3] En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza ). [4]

La teoría fue introducida por primera vez por Hoerl y Kennard en 1970 en sus artículos de Technometrics "Regresiones de crestas: estimación sesgada de problemas no ortogonales" y "Regresiones de crestas: aplicaciones en problemas no ortogonales". [5] [6] [1] Este fue el resultado de diez años de investigación en el campo del análisis de crestas. [7]

La regresión de cresta se desarrolló como una posible solución a la imprecisión de los estimadores de mínimos cuadrados cuando los modelos de regresión lineal tienen algunas variables independientes multicolineales (altamente correlacionadas), mediante la creación de un estimador de regresión de cresta (RR). Esto proporciona una estimación más precisa de los parámetros de la cresta, ya que su varianza y su estimador cuadrático medio son a menudo más pequeños que los estimadores de mínimos cuadrados derivados previamente. [8] [2]

Descripción general

En el caso más simple, el problema de una matriz de momento casi singular se alivia agregando elementos positivos a las diagonales , disminuyendo así su número de condición . De manera análoga al estimador de mínimos cuadrados ordinario , el estimador de cresta simple viene dado por dónde está el regresado , es la matriz de diseño , es la matriz identidad y el parámetro de cresta sirve como constante que desplaza las diagonales de la matriz de momento. [9] Se puede demostrar que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción , que puede expresarse como un lagrangiano: lo que demuestra que no es más que el multiplicador de Lagrange de la restricción. [10] Normalmente, se elige según un criterio heurístico, de modo que la restricción no se satisfaga exactamente. Específicamente en el caso de , en el que la restricción no es vinculante , el estimador de cresta se reduce a mínimos cuadrados ordinarios . A continuación se analiza un enfoque más general para la regularización de Tikhonov.

Historia

La regularización de Tikhonov se inventó de forma independiente en muchos contextos diferentes. Se hizo ampliamente conocido gracias a su aplicación a ecuaciones integrales en los trabajos de Andrey Tikhonov [11] [12] [13] [14] [15] y David L. Phillips. [16] Algunos autores utilizan el término regularización de Tikhonov-Phillips . El caso de dimensión finita fue expuesto por Arthur E. Hoerl, quien adoptó un enfoque estadístico, [17] y por Manus Foster, quien interpretó este método como un filtro Wiener-Kolmogorov (Kriging) . [18] Siguiendo a Hoerl, se conoce en la literatura estadística como regresión de crestas, [19] llamada así por el análisis de crestas ("cresta" se refiere a la ruta desde el máximo restringido). [20]

Regularización de Tikhonov

Supongamos que para una matriz y un vector conocidos , deseamos encontrar un vector tal que donde y pueda ser de diferentes tamaños y no cuadrado.

El método estándar es la regresión lineal de mínimos cuadrados ordinarios . [ se necesita aclaración ] Sin embargo, si ninguno satisface la ecuación o más de uno lo hace (es decir, la solución no es única), se dice que el problema está mal planteado . En tales casos, la estimación de mínimos cuadrados ordinarios conduce a un sistema de ecuaciones sobredeterminado o, más a menudo, subdeterminado . La mayoría de los fenómenos del mundo real tienen el efecto de filtros de paso bajo [ se necesita aclaración ] en la dirección de avance hacia donde se asigna . Por lo tanto, al resolver el problema inverso, el mapeo inverso opera como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido ( los valores propios /valores singulares son mayores en el mapeo inverso donde eran más pequeños en el mapeo directo). Además, los mínimos cuadrados ordinarios anulan implícitamente todos los elementos de la versión reconstruida que se encuentran en el espacio nulo de , en lugar de permitir que se utilice un modelo como anterior para . Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos al cuadrado , que se puede escribir de forma compacta como donde está la norma euclidiana .

Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización: para alguna matriz de Tikhonov adecuadamente elegida . En muchos casos, esta matriz se elige como múltiplo escalar de la matriz identidad ( ), dando preferencia a soluciones con normas más pequeñas ; esto se conoce como regularización L 2 . [21] En otros casos, se pueden utilizar operadores de paso alto (por ejemplo, un operador de diferencia o un operador de Fourier ponderado ) para imponer la suavidad si se cree que el vector subyacente es mayoritariamente continuo. Esta regularización mejora el condicionamiento del problema, permitiendo así una solución numérica directa. Una solución explícita, denotada por , viene dada por El efecto de la regularización puede variar según la escala de la matriz . Porque esto se reduce a la solución de mínimos cuadrados no regularizada, siempre que exista ( A T A ) −1 .

La regularización L 2 se utiliza en muchos contextos además de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte , [22] y la factorización matricial. [23]

Aplicación a resultados de ajuste existentes

Dado que la regularización de Tikhonov simplemente agrega un término cuadrático a la función objetivo en problemas de optimización, es posible hacerlo después de que haya tenido lugar la optimización no regularizada. Por ejemplo, si el problema anterior produce la solución , la solución en presencia de puede expresarse como: con la "matriz de regularización" .

Si el ajuste de parámetros viene con una matriz de covarianza de las incertidumbres de los parámetros estimados , entonces la matriz de regularización será y el resultado regularizado tendrá una nueva covarianza.

En el contexto de ajustes de probabilidad arbitrarios, esto es válido, siempre que la aproximación cuadrática de la función de probabilidad sea válida. Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza. No se necesita ningún conocimiento detallado de la función de probabilidad subyacente. [24]

Regularización generalizada de Tikhonov

Para distribuciones normales multivariadas generales para y el error de datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De manera equivalente, se puede buscar minimizar el lugar donde solíamos representar la norma ponderada al cuadrado (compárese con la distancia de Mahalanobis ). En la interpretación bayesiana es la matriz de covarianza inversa de , es el valor esperado de y es la matriz de covarianza inversa de . La matriz de Tikhonov se proporciona entonces como una factorización de la matriz (por ejemplo, la factorización de Cholesky ) y se considera un filtro blanqueador .

Este problema generalizado tiene una solución óptima que se puede escribir explícitamente usando la fórmula o de manera equivalente, cuando Q no es una matriz nula:

Regularización de Lavrentyev

En algunas situaciones, se puede evitar el uso de la transposición , como propone Mikhail Lavrentyev . [25] Por ejemplo, si es simétrico positivo definido, es decir , también lo es su inverso , que puede usarse para establecer la norma ponderada al cuadrado en la regularización generalizada de Tikhonov, lo que lleva a minimizar o, equivalentemente, hasta un término constante,

Este problema de minimización tiene una solución óptima que se puede escribir explícitamente usando la fórmula que no es más que la solución del problema generalizado de Tikhonov donde

La regularización de Lavrentyev, si corresponde, es ventajosa para la regularización de Tikhonov original, ya que la matriz de Lavrentyev puede estar mejor condicionada, es decir, tener un número de condición más pequeño , en comparación con la matriz de Tikhonov.

Regularización en el espacio de Hilbert.

Normalmente, los problemas lineales discretos mal condicionados resultan de la discretización de ecuaciones integrales , y se puede formular una regularización de Tikhonov en el contexto original de dimensión infinita. En lo anterior podemos interpretarlo como un operador compacto en espacios de Hilbert , y y como elementos en el dominio y rango de . El operador es entonces un operador invertible acotado autoadjunto .

Relación con la descomposición de valores singulares y el filtro de Wiener

Con , esta solución de mínimos cuadrados se puede analizar de una manera especial utilizando la descomposición en valores singulares . Dada la descomposición del valor singular con valores singulares , la solución regularizada de Tikhonov se puede expresar como donde tiene valores diagonales y es cero en otros lugares. Esto demuestra el efecto del parámetro Tikhonov sobre el número de condición del problema regularizado. Para el caso generalizado, se puede derivar una representación similar utilizando una descomposición generalizada en valores singulares . [26]

Finalmente, está relacionado con el filtro Wiener : donde están los pesos Wiener y es el rango de .

Determinación del factor Tikhonov.

El parámetro de regularización óptimo suele ser desconocido y, a menudo, en problemas prácticos se determina mediante un método ad hoc . Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques incluyen el principio de discrepancia, la validación cruzada , el método de la curva L, [27] la máxima verosimilitud restringida y el estimador de riesgo predictivo insesgado. Grace Wahba demostró que el parámetro óptimo, en el sentido de validación cruzada con exclusión de uno, minimiza [28] [29] donde es la suma residual de cuadrados y es el número efectivo de grados de libertad .

Usando la descomposición SVD anterior, podemos simplificar la expresión anterior: y

Relación con la formulación probabilística

La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianza que representa las incertidumbres a priori de los parámetros del modelo y una matriz de covarianza que representa las incertidumbres de los parámetros observados. [30] En el caso especial cuando estas dos matrices son diagonales e isotrópicas, y , y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con .

Interpretación bayesiana

Aunque al principio la elección de la solución a este problema regularizado puede parecer artificial y, de hecho, la matriz parece bastante arbitraria, el proceso puede justificarse desde un punto de vista bayesiano . [31] Tenga en cuenta que para un problema mal planteado uno necesariamente debe introducir algunas suposiciones adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad previa de a veces se considera una distribución normal multivariada . Para simplificar, se hacen los siguientes supuestos: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación estándar . Los datos también están sujetos a errores, y también se supone que los errores son independientes con media cero y desviación estándar . Bajo estos supuestos, la solución regularizada de Tikhonov es la solución más probable dados los datos y la distribución a priori de , según el teorema de Bayes . [32]

Si el supuesto de normalidad se reemplaza por supuestos de homocedasticidad y falta de correlación de los errores , y si todavía se supone una media cero, entonces el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo . [33]

Ver también

Notas

  1. ^ En estadística , el método se conoce como regresión de crestas , en el aprendizaje automático , este y sus modificaciones se conocen como caída de peso y, con múltiples descubrimientos independientes, también se conoce como método de Tikhonov-Miller , método de Phillips-Twomey , método de inversión lineal restringida , regularización L 2 y método de regularización lineal . Está relacionado con el algoritmo de Levenberg-Marquardt para problemas de mínimos cuadrados no lineales .

Referencias

  1. ^ ab Hilt, Donald E.; Seegrist, Donald W. (1977). Ridge, un programa informático para calcular estimaciones de regresión de crestas. doi : 10.5962/bhl.title.68934.[ página necesaria ]
  2. ^ ab Gruber, Marvin (1998). Mejora de la eficiencia mediante contracción: estimadores de regresión de James-Stein y Ridge. Prensa CRC. pag. 2.ISBN 978-0-8247-0156-7.
  3. ^ Kennedy, Peter (2003). Una guía de econometría (Quinta ed.). Cambridge: Prensa del MIT. págs. 205-206. ISBN 0-262-61183-X.
  4. ^ Gruber, Marvin (1998). Mejora de la eficiencia mediante contracción: estimadores de regresión de James-Stein y Ridge. Boca Ratón: CRC Press. págs. 7-15. ISBN 0-8247-0156-9.
  5. ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). "Regresión de crestas: estimación sesgada para problemas no ortogonales". Tecnometría . 12 (1): 55–67. doi :10.2307/1267351. JSTOR  1267351.
  6. ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). "Regresión de crestas: aplicaciones a problemas no ortogonales". Tecnometría . 12 (1): 69–82. doi :10.2307/1267352. JSTOR  1267352.
  7. ^ Beck, James Vere; Arnold, Kenneth J. (1977). Estimación de parámetros en ingeniería y ciencia. James Beck. pag. 287.ISBN 978-0-471-06118-2.
  8. ^ Jolliffe, ESO (2006). Análisis de componentes principales. Medios de ciencia y negocios de Springer. pag. 178.ISBN 978-0-387-22440-4.
  9. ^ Para conocer la elección en la práctica, consulte Khalaf, Ghadban; Shukur, Ghazi (2005). "Elección del parámetro Ridge para problemas de regresión". Comunicaciones en estadística: teoría y métodos . 34 (5): 1177–1182. doi :10.1081/STA-200056836. S2CID  122983724.
  10. ^ van Wieringen, Wessel (31 de mayo de 2021). "Apuntes de conferencias sobre regresión de crestas". arXiv : 1509.09169 [estad.ME].
  11. ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [Sobre la estabilidad de problemas inversos]. Doklady Akademii Nauk SSSR . 39 (5): 195-198. Archivado desde el original el 27 de febrero de 2005.
  12. ^ Tikhonov, AN (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR . 151 : 501–504.. Traducido en "Solución de problemas mal formulados y método de regularización". Matemáticas soviéticas . 4 : 1035-1038.
  13. ^ Tikhonov, AN; VY Arsenin (1977). Solución de problemas mal planteados . Washington: Winston e hijos. ISBN 0-470-99124-0.
  14. ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, VV; Yagola, Anatolij Grigorevic (30 de junio de 1995). Métodos numéricos para la solución de problemas mal planteados. Países Bajos: Springer Países Bajos. ISBN 0-7923-3583-X. Consultado el 9 de agosto de 2018 .
  15. ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (1998). Problemas no lineales mal planteados. Londres: Chapman & Hall. ISBN 0-412-78660-5. Consultado el 9 de agosto de 2018 .
  16. ^ Phillips, DL (1962). "Una técnica para la solución numérica de determinadas ecuaciones integrales de primer tipo". Revista de la ACM . 9 : 84–97. doi : 10.1145/321105.321114 . S2CID  35368397.
  17. ^ Hoerl, Arthur E. (1962). "Aplicación del análisis de crestas a problemas de regresión". Progreso de la ingeniería química . 58 (3): 54–59.
  18. ^ Foster, M. (1961). "Una aplicación de la teoría del suavizado de Wiener-Kolmogorov a la inversión de matrices". Revista de la Sociedad de Matemáticas Industriales y Aplicadas . 9 (3): 387–392. doi :10.1137/0109031.
  19. ^ Hoerl, AE; RW Kennard (1970). "Regresión de crestas: estimación sesgada para problemas no ortogonales". Tecnometría . 12 (1): 55–67. doi :10.1080/00401706.1970.10488634.
  20. ^ Hoerl, Roger W. (1 de octubre de 2020). "Regresión de crestas: un contexto histórico". Tecnometría . 62 (4): 420–425. doi :10.1080/00401706.2020.1742207. ISSN  0040-1706.
  21. ^ Ng, Andrew Y. (2004). Selección de funciones, regularización L1 frente a L2 e invariancia rotacional (PDF) . Proc. ICML .
  22. ^ R.-E. Admirador; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). "LIBLINEAR: Una biblioteca para clasificación lineal grande". Revista de investigación sobre aprendizaje automático . 9 : 1871–1874.
  23. ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (2012). "Factorización matricial no negativa online con aproximación estocástica robusta". Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . 23 (7): 1087–1099. doi :10.1109/TNNLS.2012.2197827. PMID  24807135. S2CID  8755408.
  24. ^ Koch, Lucas (2022). "Regularización post-hoc de medidas de sección transversal desplegada". Revista de instrumentación . 17 (10): P10021. arXiv : 2207.02125 . doi :10.1088/1748-0221/17/10/P10021.
  25. ^ Lavrentiev, MM (1967). Algunos problemas de física matemática planteados incorrectamente . Nueva York: Springer.
  26. ^ Hansen, Per Christian (1 de enero de 1998). Problemas discretos y con deficiencia de rangos mal planteados: aspectos numéricos de la inversión lineal (1ª ed.). Filadelfia, Estados Unidos: SIAM. ISBN 978-0-89871-403-6.
  27. ^ PC Hansen, "La curva L y su uso en el tratamiento numérico de problemas inversos", [1]
  28. ^ Wahba, G. (1990). "Modelos spline para datos de observación". Serie de conferencias regionales CBMS-NSF sobre matemáticas aplicadas . Sociedad de Matemática Industrial y Aplicada. Código Bib : 1990smod.conf.....W.
  29. ^ Golub, G.; Heath, M.; Wahba, G. (1979). "Validación cruzada generalizada como método para elegir un buen parámetro de cresta" (PDF) . Tecnometría . 21 (2): 215–223. doi :10.1080/00401706.1979.10489751.
  30. ^ Tarantola, Albert (2005). Teoría del problema inverso y métodos para la estimación de parámetros del modelo (1ª ed.). Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas (SIAM). ISBN 0-89871-792-2. Consultado el 9 de agosto de 2018 .
  31. ^ Greenberg, Eduardo; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente hacia la literatura . Nueva York: John Wiley & Sons. págs. 207-213. ISBN 0-471-09077-8.
  32. ^ Vogel, Curtis R. (2002). Métodos computacionales para problemas inversos . Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas. ISBN 0-89871-550-4.
  33. ^ Amemiya, Takeshi (1985). Econometría avanzada . Prensa de la Universidad de Harvard. págs. 60–61. ISBN 0-674-00560-0.

Otras lecturas