Grokking (aprendizaje automático)

En el aprendizaje automático , asimilar o generalización retrasada , es una transición a la generalización que ocurre muchas iteraciones de entrenamiento después del umbral de interpolación , después de muchas iteraciones de progreso aparentemente pequeño, a diferencia del proceso habitual donde la generalización ocurre lenta y progresivamente una vez que se ha superado el umbral de interpolación. sido alcanzado. ^[1]^[2]^[3]

El término deriva de la palabra grok acuñada por Robert Heinlein en su novela Extraño en tierra extraña .

Grokking puede entenderse como una transición de fase durante el proceso de entrenamiento. ^[4] Si bien se ha pensado que la asimilación es en gran medida un fenómeno de modelos relativamente superficiales, la asimilación se ha observado en redes neuronales profundas y modelos no neuronales y es objeto de investigación activa. ^[5]^[6]^[7]^[8]

Referencias

^ Pearce, Adán; Ghandeharioun, Asma; Hussein, Nada; Thain, Nithum; Wattenberg, Martín; Dixon, Lucas. "¿Los modelos de aprendizaje automático memorizan o generalizan?". par.withgoogle.com . Consultado el 4 de junio de 2024 .
^ Poder, Alethea; Burda, Yuri; Edwards, Harri; Babuschkin, Igor; Misra, Vedant (6 de enero de 2022). "Grokking: generalización más allá del sobreajuste en pequeños conjuntos de datos algorítmicos". arXiv : 2201.02177 [cs.LG].
^ Minegishi, Gouki; Iwasawa, Yusuke; Matsuo, Yutaka (9 de mayo de 2024). "Billete de lotería puente y Grokking: ¿Es la norma de peso suficiente para explicar el retraso en la generalización?". arXiv : 2310.19470 [cs.LG].
^ Liu, Ziming; Kitouni, Ouail; Nolte, Niklas; Michaud, Eric J.; Tegmark, Max; Williams, Mike (2022). "Hacia la comprensión de Grokking: una teoría eficaz del aprendizaje de la representación". En Koyejo, Sanmi; Mohamed, S.; Agarwal, A.; Belgrave, Danielle; Cho, K.; Oh, A. (eds.). Avances en sistemas de procesamiento de información neuronal 35: Conferencia anual sobre sistemas de procesamiento de información neuronal 2022, NeurIPS 2022, Nueva Orleans, LA, EE. UU., 28 de noviembre al 9 de diciembre de 2022 . arXiv : 2205.10343 .
^ Fanático, Simin; Pascanu, Razvan; Jaggi, Martín (29 de mayo de 2024). "Deep Asimilación: ¿Se generalizarían mejor las redes neuronales profundas?". arXiv : 2405.19454 [cs.LG].
^ Molinero, Jack; O'Neill, Charles; Bui, Thang (31 de marzo de 2024). "Asimilar más allá de las redes neuronales: una exploración empírica con la complejidad del modelo". arXiv : 2310.17247 [cs.LG].
^ Liu, Ziming; Michaud, Eric J.; Tegmark, Max (2023). "Omnigrok: asimilar más allá de los datos algorítmicos". La Undécima Conferencia Internacional sobre Representaciones del Aprendizaje, ICLR 2023, Kigali, Ruanda, 1 al 5 de mayo de 2023 . OpenReview.net. arXiv : 2210.01117 .
^ Samotrakis, Espiridón; Matrán-Fernández, Ana; Abdullahi, Umar I.; Fairbank, Michael; Fasli, María (2022). "Efectos similares a los de asimilación en la inferencia contrafáctica". Conferencia conjunta internacional sobre redes neuronales, IJCNN 2022, Padua, Italia, 18 al 23 de julio de 2022 . IEEE. págs. 1–8. doi :10.1109/IJCNN55064.2022.9891910. ISBN 978-1-7281-8671-9.

Ver también

Doble descenso profundo