RECHERCHE
SDAR : apprentissage par renforcement agentique avec auto-distillation
Une nouvelle méthode combine RL et distillation dense pour améliorer les agents LLM multi-tours, surpassant GRPO sur trois benchmarks.
arXiv cs.AI · cs.LG · cs.CL·Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang·14 mai 2026

Image · Source originale
SDAR (Self-Distilled Agentic Reinforcement Learning) intègre la distillation on-policy comme objectif auxiliaire conditionné par une porte sigmoid, tout en conservant le RL comme colonne vertébrale principale. Cette approche stabilise la supervision multi-tours en pondérant les signaux token-level positifs et en atténuant les rejections erronées du modèle enseignant. Sur ALFWorld, WebShop et Search-QA avec les familles Qwen2.5/Qwen3, SDAR dépasse GRPO de +9,4 %, +10,2 % et +7,0 % respectivement.