RECHERCHE
Apprentissage par renforcement avec feedback riche via DAgger distributionnel
DistIL propose une alternative à RLVR en exploitant des feedbacks riches (traces, corrections) via une cross-entropie directe garantissant une amélioration monotone des politiques.
arXiv cs.AI · cs.LG · cs.CL·Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad·3 juin 2026

Image · Source originale
Les méthodes RLVR classiques se limitent à un signal binaire correct/incorrect. DistIL, basé sur une variante distributionnelle de DAgger, exploite des feedbacks riches (traces d'exécution, auto-évaluations) via un objectif de cross-entropie directe. Contrairement aux objectifs KL inverse ou Jensen-Shannon, DistIL garantit une amélioration monotone de la politique et un meilleur Pass@N. Les expériences en raisonnement scientifique, codage et mathématiques confirment sa supériorité sur les baselines RLVR.