stringtranslate.com

Grokking (aprendizaje automático)

En el aprendizaje automático , el grokking o generalización retrasada es una transición a la generalización que ocurre muchas iteraciones de entrenamiento después del umbral de interpolación , después de muchas iteraciones de progreso aparentemente pequeño, a diferencia del proceso habitual donde la generalización ocurre lenta y progresivamente una vez que se ha alcanzado el umbral de interpolación. [1] [2] [3]

El término deriva de la palabra grok acuñada por Robert Heinlein en su novela Forastero en tierra extraña .

El grokking puede entenderse como una transición de fase durante el proceso de entrenamiento. [4] Si bien se ha pensado que el grokking es en gran medida un fenómeno de modelos relativamente superficiales, se ha observado en redes neuronales profundas y modelos no neuronales y es objeto de una investigación activa. [5] [6] [7] [8]

Referencias

  1. ^ Pearce, Adam; Ghandeharioun, Asma; Hussein, Nada; Thain, Nithum; Wattenberg, Martin; Dixon, Lucas. "¿Los modelos de aprendizaje automático memorizan o generalizan?". pair.withgoogle.com . Consultado el 4 de junio de 2024 .
  2. ^ Power, Alethea; Burda, Yuri; Edwards, Harri; Babuschkin, Igor; Misra, Vedant (6 de enero de 2022). "Grokking: generalización más allá del sobreajuste en pequeños conjuntos de datos algorítmicos". arXiv : 2201.02177 [cs.LG].
  3. ^ Minegishi, Gouki; Iwasawa, Yusuke; Matsuo, Yutaka (9 de mayo de 2024). "Un puente entre el billete de lotería y el Grokking: ¿es suficiente la norma de peso para explicar la generalización retardada?". arXiv : 2310.19470 [cs.LG].
  4. ^ Liu, Ziming; Kitouni, Ouail; Nolte, Niklas; Michaud, Eric J.; Tegmark, Max; Williams, Mike (2022). "Hacia la comprensión de Grokking: una teoría eficaz del aprendizaje de la representación". En Koyejo, Sanmi; Mohamed, S.; Agarwal, A.; Belgrave, Danielle; Cho, K.; Oh, A. (eds.). Avances en sistemas de procesamiento de información neuronal 35: Conferencia anual sobre sistemas de procesamiento de información neuronal 2022, NeurIPS 2022, Nueva Orleans, LA, EE. UU., 28 de noviembre - 9 de diciembre de 2022. arXiv : 2205.10343 .
  5. ^ Fan, Simin; Pascanu, Razvan; Jaggi, Martin (29 de mayo de 2024). "Deep Grokking: ¿Las redes neuronales profundas se generalizarían mejor?". arXiv : 2405.19454 [cs.LG].
  6. ^ Miller, Jack; O'Neill, Charles; Bui, Thang (31 de marzo de 2024). "Entendiendo más allá de las redes neuronales: una exploración empírica con la complejidad del modelo". arXiv : 2310.17247 [cs.LG].
  7. ^ Liu, Ziming; Michaud, Eric J.; Tegmark, Max (2023). "Omnigrok: Grokking Beyond Algorithmic Data". La undécima conferencia internacional sobre representaciones de aprendizaje, ICLR 2023, Kigali, Ruanda, del 1 al 5 de mayo de 2023. OpenReview.net. arXiv : 2210.01117 .
  8. ^ Samothrakis, Spyridon; Matran-Fernandez, Ana; Abdullahi, Umar I.; Fairbank, Michael; Fasli, Maria (2022). "Efectos similares a Grokking en la inferencia contrafáctica". Conferencia conjunta internacional sobre redes neuronales, IJCNN 2022, Padua, Italia, 18-23 de julio de 2022. IEEE. págs. 1–8. doi :10.1109/IJCNN55064.2022.9891910. ISBN . 978-1-7281-8671-9.

Véase también