RECHERCHE

Généralisation à la limite de stabilité des réseaux de neurones

Des chercheurs formalisent pourquoi entraîner un réseau à grands pas d'apprentissage — au bord du chaos — améliore la généralisation.

arXiv cs.AI · cs.LG · cs.CL·Mario Tuci, Caner Korkmaz, Umut Şimşekli, Tolga Birdal·21 avril 2026

Les chercheurs modélisent les optimiseurs stochastiques comme des systèmes dynamiques aléatoires convergeant vers un attracteur fractal de faible dimension intrinsèque. Ils introduisent la notion de « sharpness dimension » et démontrent une borne de généralisation fondée sur le spectre complet du Hessien. Les expériences sur MLP et transformers valident la théorie et éclairent le phénomène de grokking.

Chaleur 0

Pertinence 65

Nouveauté 78

OUVRIR LA SOURCE ↗

#optimisation #généralisation #edge-of-stability #hessien #grokking