RECHERCHE
Comment la largeur et les données façonnent les lois d'échelle de généralisation dans les réseaux de neurones quadratiques
Une étude théorique révèle un diagramme de phases pour la généralisation selon la taille du modèle et le volume de données, via des réseaux à deux couches quadratiques.
arXiv cs.AI · cs.LG · cs.CL·Julius Girardin, Emanuele Troiani, Yizhou Xu, Vittorio Erba·26 juin 2026

Image · Source originale
Des chercheurs analysent comment l'erreur de généralisation évolue conjointement avec le nombre de paramètres entraînables et d'échantillons dans un réseau de neurones quadratique à deux couches. Leur cadre, basé sur la minimisation de l'erreur de test régularisée en ℓ₂, permet une caractérisation explicite de la généralisation en fonction des données structurées. Les résultats mettent en évidence un diagramme de phases avec des régimes de scaling distincts, gouvernés par la structure spectrale de la cible, incluant la transition vers l'interpolation.