RECHERCHE
Au-delà de GRPO et de la distillation on-policy : un principe sparse-to-dense pour le post-entraînement des LLM
Une étude empirique propose d'allouer les données labellisées vérifiables selon un principe de densité de récompense, combinant RL sparse et supervision dense.
arXiv cs.AI · cs.LG · cs.CL·Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He·12 mai 2026

Image · Source originale
Les auteurs soutiennent que l'utilisation directe des données vérifiables sur le modèle déployé (via GRPO) est sous-optimale. Ils proposent d'entraîner d'abord un modèle enseignant puissant avec ces données via RL sparse, puis de transférer ce comportement au modèle étudiant via une supervision dense (distillation OPD). Sur des benchmarks mathématiques (MATH, AIME) avec Qwen3 et Llama, un enseignant 8B amélioré par RL distillé vers un étudiant 1,7B surpasse un GRPO direct sur le même étudiant.