RECHERCHE

SDAR : apprentissage par renforcement agentique avec auto-distillation

Une nouvelle méthode combine RL et distillation dense pour améliorer les agents LLM multi-tours, surpassant GRPO sur trois benchmarks.

arXiv cs.AI · cs.LG · cs.CL·Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang·14 mai 2026

Image · Source originale

SDAR (Self-Distilled Agentic Reinforcement Learning) intègre la distillation on-policy comme objectif auxiliaire conditionné par une porte sigmoid, tout en conservant le RL comme colonne vertébrale principale. Cette approche stabilise la supervision multi-tours en pondérant les signaux token-level positifs et en atténuant les rejections erronées du modèle enseignant. Sur ALFWorld, WebShop et Search-QA avec les familles Qwen2.5/Qwen3, SDAR dépasse GRPO de +9,4 %, +10,2 % et +7,0 % respectivement.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#reinforcement-learning #agents #LLM #distillation #multi-turn