RECHERCHE

Distillation on-policy : mises à jour creuses et géométrie des paramètres

Une analyse révèle que la distillation on-policy produit des mises à jour de paramètres sparse et spectralement concentrées, avec des implications pratiques sur l'entraînement.

arXiv cs.AI · cs.LG · cs.CL·Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma·11 juin 2026

Image · Source originale

L'étude analyse la distillation on-policy (OPD) sur plusieurs paires de modèles de langage et vision-langage. Elle montre que les mises à jour sont petites et sparse en coordonnées, concentrées dans les couches FFN. Entraîner uniquement le sous-réseau identifié permet de retrouver les performances de l'OPD complet. Géométriquement, les mises à jour sont de rang plein mais spectralement concentrées, éloignées des sous-espaces singuliers principaux des poids sources.

Chaleur 26

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#distillation #on-policy #sparsité #fine-tuning #LLM