stringtranslate.com

Regresión de cresta

La regresión de crestas es un método para estimar los coeficientes de modelos de regresión múltiple en escenarios donde las variables independientes están altamente correlacionadas. [1] Se ha utilizado en muchos campos, incluidos la econometría, la química y la ingeniería. [2] También conocido como regularización de Tikhonov , llamado así por Andrey Tikhonov , es un método de regularización de problemas mal planteados . [a] Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal , que ocurre comúnmente en modelos con una gran cantidad de parámetros. [3] En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza ). [4]

La teoría fue introducida por primera vez por Hoerl y Kennard en 1970 en sus artículos de Technometrics "Regresiones de crestas: estimación sesgada de problemas no ortogonales" y "Regresiones de crestas: aplicaciones en problemas no ortogonales". [5] [6] [1] Este fue el resultado de diez años de investigación en el campo del análisis de crestas. [7]

La regresión de cresta se desarrolló como una posible solución a la imprecisión de los estimadores de mínimos cuadrados cuando los modelos de regresión lineal tienen algunas variables independientes multicolineales (altamente correlacionadas), mediante la creación de un estimador de regresión de cresta (RR). Esto proporciona una estimación más precisa de los parámetros de la cresta, ya que su varianza y su estimador cuadrático medio son a menudo más pequeños que los estimadores de mínimos cuadrados derivados previamente. [8] [2]

Descripción general

En el caso más simple, el problema de una matriz de momento casi singular se alivia agregando elementos positivos a las diagonales , disminuyendo así su número de condición . De manera análoga al estimador de mínimos cuadrados ordinario , el estimador de cresta simple viene dado por

regresormatriz de diseñomatriz de identidad[9]de mínimos cuadradosrestricción
multiplicador de Lagrange[10]restricción no es vinculantemínimos cuadrados ordinarios

Historia

La regularización de Tikhonov se inventó de forma independiente en muchos contextos diferentes. Se hizo ampliamente conocido gracias a su aplicación a ecuaciones integrales en los trabajos de Andrey Tikhonov [11] [12] [13] [14] [15] y David L. Phillips. [16] Algunos autores utilizan el término regularización de Tikhonov-Phillips . El caso de dimensión finita fue expuesto por Arthur E. Hoerl, quien adoptó un enfoque estadístico, [17] y por Manus Foster, quien interpretó este método como un filtro Wiener-Kolmogorov (Kriging) . [18] Siguiendo a Hoerl, se conoce en la literatura estadística como regresión de crestas, [19] llamada así por el análisis de crestas ("cresta" se refiere a la ruta desde el máximo restringido). [20]

Regularización de Tikhonov

Supongamos que para una matriz y un vector conocidos , deseamos encontrar un vector tal que

El método estándar es la regresión lineal de mínimos cuadrados ordinarios . [ se necesita aclaración ] Sin embargo, si ninguno satisface la ecuación o más de uno lo hace (es decir, la solución no es única), se dice que el problema está mal planteado . En tales casos, la estimación de mínimos cuadrados ordinarios conduce a un sistema de ecuaciones sobredeterminado o, más a menudo, subdeterminado . La mayoría de los fenómenos del mundo real tienen el efecto de filtros de paso bajo [ se necesita aclaración ] en la dirección de avance hacia donde se asigna . Por lo tanto, al resolver el problema inverso, el mapeo inverso opera como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido ( los valores propios /valores singulares son mayores en el mapeo inverso mientras que eran más pequeños en el mapeo directo). Además, los mínimos cuadrados ordinarios anulan implícitamente todos los elementos de la versión reconstruida de que se encuentran en el espacio nulo de , en lugar de permitir que se utilice un modelo como anterior para . Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos cuadrados , que se pueden escribir de forma compacta como

norma euclidiana

Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:

matriz de Tikhonovmatriz identidadnormasregularización L 2[21]operador de diferenciaoperador de Fourier
A T A−1

La regularización L 2 se utiliza en muchos contextos además de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte , [22] y la factorización matricial. [23]

Aplicación a resultados de ajuste existentes

Dado que la regularización de Tikhonov simplemente agrega un término cuadrático a la función objetivo en problemas de optimización, es posible hacerlo después de que haya tenido lugar la optimización no regularizada. Por ejemplo, si el problema anterior produce la solución , la solución en presencia de puede expresarse como:

Si el ajuste de parámetros viene con una matriz de covarianza de las incertidumbres de los parámetros estimados , entonces la matriz de regularización será

En el contexto de ajustes de probabilidad arbitrarios, esto es válido, siempre que la aproximación cuadrática de la función de probabilidad sea válida. Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza. No se necesita ningún conocimiento detallado de la función de probabilidad subyacente. [24]

Regularización generalizada de Tikhonov

Para distribuciones normales multivariadas generales para y el error de datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De manera equivalente, se puede buscar una manera de minimizar

distancia de Mahalanobismatriz de covarianzavalor esperadofactorización de Choleskyfiltro blanqueador

Este problema generalizado tiene una solución óptima que se puede escribir explícitamente usando la fórmula

Q no

Regularización de Lavrentyev

En algunas situaciones, se puede evitar el uso de la transposición , como propone Mikhail Lavrentyev . [25] Por ejemplo, si es simétrico positivo definido, es decir , también lo es su inverso , que puede usarse para establecer la norma ponderada al cuadrado en la regularización generalizada de Tikhonov, lo que lleva a minimizar

Este problema de minimización tiene una solución óptima que se puede escribir explícitamente usando la fórmula

La regularización de Lavrentyev, si corresponde, es ventajosa para la regularización de Tikhonov original, ya que la matriz de Lavrentyev puede condicionarse mejor, es decir, tener un número de condición más pequeño , en comparación con la matriz de Tikhonov.

Regularización en el espacio de Hilbert.

Normalmente, los problemas lineales discretos mal condicionados resultan de la discretización de ecuaciones integrales , y se puede formular una regularización de Tikhonov en el contexto original de dimensión infinita. En lo anterior podemos interpretarlo como un operador compacto en espacios de Hilbert , y y como elementos en el dominio y rango de . El operador es entonces un operador invertible acotado autoadjunto .

Relación con la descomposición en valores singulares y el filtro de Wiener

Con , esta solución de mínimos cuadrados se puede analizar de una manera especial utilizando la descomposición en valores singulares . Dada la descomposición del valor singular

número de condicióndescomposición generalizada en valores singulares[26]

Finalmente, está relacionado con el filtro Wiener :

rango

Determinación del factor Tikhonov.

El parámetro de regularización óptimo suele ser desconocido y, a menudo, en problemas prácticos se determina mediante un método ad hoc . Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques incluyen el principio de discrepancia, la validación cruzada , el método de la curva L, [27] la máxima verosimilitud restringida y el estimador de riesgo predictivo insesgado. Grace Wahba demostró que el parámetro óptimo, en el sentido de validación cruzada con exclusión de uno, minimiza [28] [29]

suma residual de cuadradosnúmero efectivo de grados de libertad

Usando la descomposición SVD anterior, podemos simplificar la expresión anterior:

Relación con la formulación probabilística

La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianza que representa las incertidumbres a priori de los parámetros del modelo y una matriz de covarianza que representa las incertidumbres de los parámetros observados. [30] En el caso especial cuando estas dos matrices son diagonales e isotrópicas, y , y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con .

Interpretación bayesiana

Aunque al principio la elección de la solución a este problema regularizado puede parecer artificial y, de hecho, la matriz parece bastante arbitraria, el proceso puede justificarse desde un punto de vista bayesiano . [31] Tenga en cuenta que para un problema mal planteado uno necesariamente debe introducir algunas suposiciones adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad previa de a veces se considera una distribución normal multivariada . Para simplificar, se hacen los siguientes supuestos: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación estándar . Los datos también están sujetos a errores, y también se supone que los errores son independientes con media cero y desviación estándar . Bajo estos supuestos, la solución regularizada de Tikhonov es la solución más probable dados los datos y la distribución a priori de , según el teorema de Bayes . [32]

Si el supuesto de normalidad se reemplaza por supuestos de homocedasticidad y falta de correlación de los errores , y si todavía se supone una media cero, entonces el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo . [33]

Ver también

Notas

  1. ^ En estadística , el método se conoce como regresión de crestas , en el aprendizaje automático , este y sus modificaciones se conocen como caída de peso y, con múltiples descubrimientos independientes, también se conoce como método de Tikhonov-Miller , método de Phillips-Twomey , método de inversión lineal restringida , regularización L 2 y método de regularización lineal . Está relacionado con el algoritmo de Levenberg-Marquardt para problemas de mínimos cuadrados no lineales .

Referencias

  1. ^ ab Hilt, Donald E.; Seegrist, Donald W. (1977). Ridge, un programa informático para calcular estimaciones de regresión de crestas. doi : 10.5962/bhl.title.68934.[ página necesaria ]
  2. ^ ab Gruber, Marvin (1998). Mejora de la eficiencia mediante contracción: estimadores de regresión de James-Stein y Ridge. Prensa CRC. pag. 2.ISBN 978-0-8247-0156-7.
  3. ^ Kennedy, Peter (2003). Una guía de econometría (Quinta ed.). Cambridge: Prensa del MIT. págs. 205-206. ISBN 0-262-61183-X.
  4. ^ Gruber, Marvin (1998). Mejora de la eficiencia mediante contracción: estimadores de regresión de James-Stein y Ridge. Boca Ratón: CRC Press. págs. 7-15. ISBN 0-8247-0156-9.
  5. ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). "Regresión de crestas: estimación sesgada para problemas no ortogonales". Tecnometría . 12 (1): 55–67. doi :10.2307/1267351. JSTOR  1267351.
  6. ^ Hoerl, Arthur E.; Kennard, Robert W. (1970). "Regresión de crestas: aplicaciones a problemas no ortogonales". Tecnometría . 12 (1): 69–82. doi :10.2307/1267352. JSTOR  1267352.
  7. ^ Beck, James Vere; Arnold, Kenneth J. (1977). Estimación de parámetros en ingeniería y ciencia. James Beck. pag. 287.ISBN 978-0-471-06118-2.
  8. ^ Jolliffe, ESO (2006). Análisis de componentes principales. Medios de ciencia y negocios de Springer. pag. 178.ISBN 978-0-387-22440-4.
  9. ^ Para conocer la elección en la práctica, consulte Khalaf, Ghadban; Shukur, Ghazi (2005). "Elección del parámetro Ridge para problemas de regresión". Comunicaciones en estadística: teoría y métodos . 34 (5): 1177–1182. doi :10.1081/STA-200056836. S2CID  122983724.
  10. ^ van Wieringen, Wessel (31 de mayo de 2021). "Apuntes de conferencias sobre regresión de crestas". arXiv : 1509.09169 [estad.ME].
  11. ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [Sobre la estabilidad de problemas inversos]. Doklady Akademii Nauk SSSR . 39 (5): 195-198. Archivado desde el original el 27 de febrero de 2005.
  12. ^ Tikhonov, AN (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR . 151 : 501–504.. Traducido en "Solución de problemas mal formulados y método de regularización". Matemáticas soviéticas . 4 : 1035-1038.
  13. ^ Tikhonov, AN; VY Arsenin (1977). Solución de problemas mal planteados . Washington: Winston e hijos. ISBN 0-470-99124-0.
  14. ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, VV; Yagola, Anatolij Grigorevic (30 de junio de 1995). Métodos numéricos para la solución de problemas mal planteados. Países Bajos: Springer Países Bajos. ISBN 0-7923-3583-X. Consultado el 9 de agosto de 2018 .
  15. ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (1998). Problemas no lineales mal planteados. Londres: Chapman & Hall. ISBN 0-412-78660-5. Consultado el 9 de agosto de 2018 .
  16. ^ Phillips, DL (1962). "Una técnica para la solución numérica de determinadas ecuaciones integrales de primer tipo". Revista de la ACM . 9 : 84–97. doi : 10.1145/321105.321114 . S2CID  35368397.
  17. ^ Hoerl, Arthur E. (1962). "Aplicación del análisis de crestas a problemas de regresión". Progreso de la ingeniería química . 58 (3): 54–59.
  18. ^ Foster, M. (1961). "Una aplicación de la teoría del suavizado de Wiener-Kolmogorov a la inversión de matrices". Revista de la Sociedad de Matemáticas Industriales y Aplicadas . 9 (3): 387–392. doi :10.1137/0109031.
  19. ^ Hoerl, AE; RW Kennard (1970). "Regresión de crestas: estimación sesgada para problemas no ortogonales". Tecnometría . 12 (1): 55–67. doi :10.1080/00401706.1970.10488634.
  20. ^ Hoerl, Roger W. (1 de octubre de 2020). "Regresión de crestas: un contexto histórico". Tecnometría . 62 (4): 420–425. doi :10.1080/00401706.2020.1742207. ISSN  0040-1706.
  21. ^ Ng, Andrew Y. (2004). Selección de funciones, regularización L1 frente a L2 e invariancia rotacional (PDF) . Proc. ICML .
  22. ^ R.-E. Admirador; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). "LIBLINEAR: Una biblioteca para clasificación lineal grande". Revista de investigación sobre aprendizaje automático . 9 : 1871–1874.
  23. ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (2012). "Factorización matricial no negativa online con aproximación estocástica robusta". Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . 23 (7): 1087–1099. doi :10.1109/TNNLS.2012.2197827. PMID  24807135. S2CID  8755408.
  24. ^ Koch, Lucas (2022). "Regularización post-hoc de medidas de sección transversal desplegada". Revista de instrumentación . 17 (10): P10021. arXiv : 2207.02125 . doi :10.1088/1748-0221/17/10/P10021.
  25. ^ Lavrentiev, MM (1967). Algunos problemas de física matemática planteados incorrectamente . Nueva York: Springer.
  26. ^ Hansen, Per Christian (1 de enero de 1998). Problemas discretos y con deficiencia de rangos mal planteados: aspectos numéricos de la inversión lineal (1ª ed.). Filadelfia, Estados Unidos: SIAM. ISBN 978-0-89871-403-6.
  27. ^ PC Hansen, "La curva L y su uso en el tratamiento numérico de problemas inversos", [1]
  28. ^ Wahba, G. (1990). "Modelos spline para datos de observación". Serie de conferencias regionales CBMS-NSF sobre matemáticas aplicadas . Sociedad de Matemática Industrial y Aplicada. Código Bib : 1990smod.conf.....W.
  29. ^ Golub, G.; Heath, M.; Wahba, G. (1979). "Validación cruzada generalizada como método para elegir un buen parámetro de cresta" (PDF) . Tecnometría . 21 (2): 215–223. doi :10.1080/00401706.1979.10489751.
  30. ^ Tarantola, Albert (2005). Teoría del problema inverso y métodos para la estimación de parámetros del modelo (1ª ed.). Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas (SIAM). ISBN 0-89871-792-2. Consultado el 9 de agosto de 2018 .
  31. ^ Greenberg, Eduardo; Webster, Charles E. Jr. (1983). Econometría avanzada: un puente hacia la literatura . Nueva York: John Wiley & Sons. págs. 207-213. ISBN 0-471-09077-8.
  32. ^ Vogel, Curtis R. (2002). Métodos computacionales para problemas inversos . Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas. ISBN 0-89871-550-4.
  33. ^ Amemiya, Takeshi (1985). Econometría avanzada . Prensa de la Universidad de Harvard. págs. 60–61. ISBN 0-674-00560-0.

Otras lecturas