stringtranslate.com

Doble descenso

Un ejemplo del fenómeno del doble descenso en una red neuronal de dos capas: cuando aumenta la relación entre los parámetros y los puntos de datos, el error de prueba cae primero, luego aumenta y luego cae nuevamente. [1] La línea vertical marca el límite del "umbral de interpolación" entre el régimen subparametrizado (más puntos de datos que parámetros) y el régimen sobreparametrizado (más parámetros que puntos de datos).

En estadística y aprendizaje automático , el doble descenso es el fenómeno en el que un modelo estadístico con una pequeña cantidad de parámetros y un modelo con una cantidad extremadamente grande de parámetros tienen un pequeño error de prueba , pero un modelo cuya cantidad de parámetros es aproximadamente la misma que la cantidad de puntos de datos utilizados para entrenar el modelo tendrá un gran error. [2] Este fenómeno se ha considerado sorprendente, ya que contradice los supuestos sobre el sobreajuste en el aprendizaje automático clásico. [1]

Historia

Las primeras observaciones de lo que más tarde se llamaría doble descendencia en modelos específicos se remontan a 1989. [3] [4]

El término "doble descenso" fue acuñado por Belkin et. al. [5] en 2019, [1] cuando el fenómeno como un concepto más amplio compartido por muchos modelos ganó popularidad. [6] [7] Este último desarrollo fue impulsado por una contradicción percibida entre la sabiduría convencional de que demasiados parámetros en el modelo dan como resultado un error de sobreajuste significativo (una extrapolación del equilibrio entre sesgo y varianza ), [8] y las observaciones empíricas en la década de 2010 de que algunos modelos de aprendizaje automático modernos tienden a funcionar mejor con modelos más grandes. [5] [9]

Modelos teóricos

El doble descenso ocurre en la regresión lineal con covariables gaussianas isotrópicas y ruido gaussiano isotrópico. [10]

Se ha analizado un modelo de doble descenso en el límite termodinámico mediante el método de réplica y el resultado se ha confirmado numéricamente. [11]

Ejemplos empíricos

Se ha descubierto que el comportamiento de escalamiento del doble descenso sigue una forma funcional de ley de escalamiento neuronal rota [12] .

Referencias

  1. ^ abc Schaeffer, Rylan; Khona, Mikail; Robertson, Zachary; Boopathy, Akhilan; Pistunova, Kateryna; Rocks, Jason W.; Fiete, Ila Rani; Koyejo, Oluwasanmi (24 de marzo de 2023). "La doble descendencia desmitificada: identificación, interpretación y eliminación de las fuentes de un rompecabezas de aprendizaje profundo". arXiv : 2303.14151v1 [cs.LG].
  2. ^ "Doble descenso profundo". OpenAI . 2019-12-05 . Consultado el 2022-08-12 .
  3. ^ Vallet, F.; Cailton, J.-G.; Refregier, Ph (junio de 1989). "Extensión lineal y no lineal de la solución pseudoinversa para el aprendizaje de funciones booleanas". Europhysics Letters . 9 (4): 315. Bibcode :1989EL......9..315V. doi :10.1209/0295-5075/9/4/003. ISSN  0295-5075.
  4. ^ Loog, Marco; Viering, Tom; Mey, Alexander; Krijthe, Jesse H.; Tax, David MJ (19 de mayo de 2020). "Una breve prehistoria de la doble descendencia". Actas de la Academia Nacional de Ciencias . 117 (20): 10625–10626. arXiv : 2004.04328 . Código Bibliográfico : 2020PNAS..11710625L. doi : 10.1073/pnas.2001875117 . ISSN  : 0027-8424. PMC : 7245109. PMID:  32371495. 
  5. ^ ab Belkin, Mikhail; Hsu, Daniel; Ma, Siyuan; Mandal, Soumik (6 de agosto de 2019). "Reconciliación de la práctica moderna de aprendizaje automático y el equilibrio entre sesgo y varianza". Actas de la Academia Nacional de Ciencias . 116 (32): 15849–15854. arXiv : 1812.11118 . doi : 10.1073/pnas.1903070116 . ISSN  0027-8424. PMC 6689936 . PMID  31341078. 
  6. ^ Spigler, Stefano; Geiger, Mario; d'Ascoli, Stéphane; Sagun, Levent; Biroli, Giulio; Wyart, Matthieu (22 de noviembre de 2019). "Una transición de interferencia de subparametrización a sobreparametrización afecta el panorama de pérdidas y la generalización". Journal of Physics A: Mathematical and Theoretical . 52 (47): 474001. arXiv : 1810.09665 . doi :10.1088/1751-8121/ab4c8b. ISSN  1751-8113.
  7. ^ Viering, Tom; Loog, Marco (1 de junio de 2023). "La forma de las curvas de aprendizaje: una revisión". IEEE Transactions on Pattern Analysis and Machine Intelligence . 45 (6): 7799–7819. arXiv : 2103.10948 . doi :10.1109/TPAMI.2022.3220744. ISSN  0162-8828. PMID  36350870.
  8. ^ Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). "Redes neuronales y el dilema sesgo/varianza" (PDF) . Neural Computation . 4 : 1–58. doi :10.1162/neco.1992.4.1.1. S2CID  14215320.
  9. ^ Preetum Nakkiran; Gal Kaplun; Yamini Bansal; Tristan Yang; Boaz Barak; Ilya Sutskever (29 de diciembre de 2021). "Doble descenso profundo: donde los modelos más grandes y más datos duelen". Journal of Statistical Mechanics: Theory and Experiment . 2021 (12). IOP Publishing Ltd y SISSA Medialab srl: 124003. arXiv : 1912.02292 . Código Bibliográfico :2021JSMTE2021l4003N. doi :10.1088/1742-5468/ac3a74. S2CID  207808916.
  10. ^ Nakkiran, Preetum (16 de diciembre de 2019). "Más datos pueden ser perjudiciales para la regresión lineal: doble descenso por muestra". arXiv : 1912.07242v1 [stat.ML].
  11. ^ Advani, Madhu S.; Saxe, Andrew M.; Sompolinsky, Haim (1 de diciembre de 2020). "Dinámica de alta dimensión del error de generalización en redes neuronales". Redes neuronales . 132 : 428–446. doi : 10.1016/j.neunet.2020.08.022 . ISSN  0893-6080. PMC 7685244 . PMID  33022471. 
  12. ^ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (2022). "Leyes de escalamiento neuronal rotas". Conferencia internacional sobre representaciones del aprendizaje (ICLR), 2023.

Lectura adicional

Enlaces externos