RECHERCHE
Distillation on-policy : mises à jour creuses et géométrie des paramètres
Une analyse révèle que la distillation on-policy produit des mises à jour de paramètres sparse et spectralement concentrées, avec des implications pratiques sur l'entraînement.
arXiv cs.AI · cs.LG · cs.CL·Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma·11 juin 2026

Image · Source originale
L'étude analyse la distillation on-policy (OPD) sur plusieurs paires de modèles de langage et vision-langage. Elle montre que les mises à jour sont petites et sparse en coordonnées, concentrées dans les couches FFN. Entraîner uniquement le sous-réseau identifié permet de retrouver les performances de l'OPD complet. Géométriquement, les mises à jour sont de rang plein mais spectralement concentrées, éloignées des sous-espaces singuliers principaux des poids sources.