En estadística y aprendizaje automático , el doble descenso es el fenómeno en el que un modelo estadístico con una pequeña cantidad de parámetros y un modelo con una cantidad extremadamente grande de parámetros tienen un pequeño error de prueba , pero un modelo cuya cantidad de parámetros es aproximadamente la misma que la cantidad de puntos de datos utilizados para entrenar el modelo tendrá un gran error. [2] Este fenómeno se ha considerado sorprendente, ya que contradice los supuestos sobre el sobreajuste en el aprendizaje automático clásico. [1]
Historia
Las primeras observaciones de lo que más tarde se llamaría doble descendencia en modelos específicos se remontan a 1989. [3] [4]
El término "doble descenso" fue acuñado por Belkin et. al. [5] en 2019, [1] cuando el fenómeno como un concepto más amplio compartido por muchos modelos ganó popularidad. [6] [7] Este último desarrollo fue impulsado por una contradicción percibida entre la sabiduría convencional de que demasiados parámetros en el modelo dan como resultado un error de sobreajuste significativo (una extrapolación del equilibrio entre sesgo y varianza ), [8] y las observaciones empíricas en la década de 2010 de que algunos modelos de aprendizaje automático modernos tienden a funcionar mejor con modelos más grandes. [5] [9]
Modelos teóricos
El doble descenso ocurre en la regresión lineal con covariables gaussianas isotrópicas y ruido gaussiano isotrópico. [10]
^ abc Schaeffer, Rylan; Khona, Mikail; Robertson, Zachary; Boopathy, Akhilan; Pistunova, Kateryna; Rocks, Jason W.; Fiete, Ila Rani; Koyejo, Oluwasanmi (24 de marzo de 2023). "La doble descendencia desmitificada: identificación, interpretación y eliminación de las fuentes de un rompecabezas de aprendizaje profundo". arXiv : 2303.14151v1 [cs.LG].
^ Vallet, F.; Cailton, J.-G.; Refregier, Ph (junio de 1989). "Extensión lineal y no lineal de la solución pseudoinversa para el aprendizaje de funciones booleanas". Europhysics Letters . 9 (4): 315. Bibcode :1989EL......9..315V. doi :10.1209/0295-5075/9/4/003. ISSN 0295-5075.
^ Loog, Marco; Viering, Tom; Mey, Alexander; Krijthe, Jesse H.; Tax, David MJ (19 de mayo de 2020). "Una breve prehistoria de la doble descendencia". Actas de la Academia Nacional de Ciencias . 117 (20): 10625–10626. arXiv : 2004.04328 . Código Bibliográfico : 2020PNAS..11710625L. doi : 10.1073/pnas.2001875117 . ISSN : 0027-8424. PMC : 7245109. PMID: 32371495.
^ ab Belkin, Mikhail; Hsu, Daniel; Ma, Siyuan; Mandal, Soumik (6 de agosto de 2019). "Reconciliación de la práctica moderna de aprendizaje automático y el equilibrio entre sesgo y varianza". Actas de la Academia Nacional de Ciencias . 116 (32): 15849–15854. arXiv : 1812.11118 . doi : 10.1073/pnas.1903070116 . ISSN 0027-8424. PMC 6689936 . PMID 31341078.
^ Spigler, Stefano; Geiger, Mario; d'Ascoli, Stéphane; Sagun, Levent; Biroli, Giulio; Wyart, Matthieu (22 de noviembre de 2019). "Una transición de interferencia de subparametrización a sobreparametrización afecta el panorama de pérdidas y la generalización". Journal of Physics A: Mathematical and Theoretical . 52 (47): 474001. arXiv : 1810.09665 . doi :10.1088/1751-8121/ab4c8b. ISSN 1751-8113.
^ Viering, Tom; Loog, Marco (1 de junio de 2023). "La forma de las curvas de aprendizaje: una revisión". IEEE Transactions on Pattern Analysis and Machine Intelligence . 45 (6): 7799–7819. arXiv : 2103.10948 . doi :10.1109/TPAMI.2022.3220744. ISSN 0162-8828. PMID 36350870.
^ Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). "Redes neuronales y el dilema sesgo/varianza" (PDF) . Neural Computation . 4 : 1–58. doi :10.1162/neco.1992.4.1.1. S2CID 14215320.
^ Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (29 de diciembre de 2021). "Doble descenso profundo: donde los modelos más grandes y más datos duelen". Journal of Statistical Mechanics: Theory and Experiment . 2021 (12). IOP Publishing Ltd y SISSA Medialab srl: 124003. arXiv : 1912.02292 . Código Bibliográfico :2021JSMTE2021l4003N. doi :10.1088/1742-5468/ac3a74. S2CID 207808916.
^ Nakkiran, Preetum (16 de diciembre de 2019). "Más datos pueden ser perjudiciales para la regresión lineal: doble descenso por muestra". arXiv : 1912.07242v1 [stat.ML].
^ Advani, Madhu S.; Saxe, Andrew M.; Sompolinsky, Haim (1 de diciembre de 2020). "Dinámica de alta dimensión del error de generalización en redes neuronales". Redes neuronales . 132 : 428–446. doi : 10.1016/j.neunet.2020.08.022 . ISSN 0893-6080. PMC 7685244 . PMID 33022471.
^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escalamiento neuronal rotas". Conferencia internacional sobre representaciones del aprendizaje (ICLR), 2023.
Mount, John (3 de abril de 2024). "La anomalía del aprendizaje automático m = n".
Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (29 de diciembre de 2021). "Doble descenso profundo: donde los modelos más grandes y más datos duelen". Journal of Statistical Mechanics: Theory and Experiment . 2021 (12). IOP Publishing Ltd y SISSA Medialab srl: 124003. arXiv : 1912.02292 . Código Bibliográfico :2021JSMTE2021l4003N. doi :10.1088/1742-5468/ac3a74. S2CID 207808916.
Song Mei; Andrea Montanari (abril de 2022). "El error de generalización de la regresión de características aleatorias: asintótica precisa y curva de doble descenso". Communications on Pure and Applied Mathematics . 75 (4): 667–766. arXiv : 1908.05355 . doi :10.1002/cpa.22008. S2CID 199668852.
Xiangyu Chang; Yingcong Li; Samet Oymak; Christos Thrampoulidis (2021). "Beneficios demostrables de la sobreparametrización en la compresión de modelos: desde el doble descenso hasta la poda de redes neuronales". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 35 (8). arXiv : 2012.08749 .
Enlaces externos
Brent Werness; Jared Wilber. "Double Descent: Parte 1: Una introducción visual".
Brent Werness; Jared Wilber. "Doble descendencia: Parte 2: Una explicación matemática".