RECHERCHE
Généralisation à la limite de stabilité des réseaux de neurones
Des chercheurs formalisent pourquoi entraîner un réseau à grands pas d'apprentissage — au bord du chaos — améliore la généralisation.
arXiv cs.AI · cs.LG · cs.CL·Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal·21 avril 2026

Les chercheurs modélisent les optimiseurs stochastiques comme des systèmes dynamiques aléatoires convergeant vers un attracteur fractal de faible dimension intrinsèque. Ils introduisent la notion de « sharpness dimension » et démontrent une borne de généralisation fondée sur le spectre complet du Hessien. Les expériences sur MLP et transformers valident la théorie et éclairent le phénomène de grokking.
Chaleur 17
Pertinence 65
Nouveauté 78