RECHERCHE

Apprentissage par renforcement avec feedback riche via DAgger distributionnel

DistIL propose une alternative à RLVR en exploitant des feedbacks riches (traces, corrections) via une cross-entropie directe garantissant une amélioration monotone des politiques.

arXiv cs.AI · cs.LG · cs.CL·Rishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad·3 juin 2026

Image · Source originale

Les méthodes RLVR classiques se limitent à un signal binaire correct/incorrect. DistIL, basé sur une variante distributionnelle de DAgger, exploite des feedbacks riches (traces d'exécution, auto-évaluations) via un objectif de cross-entropie directe. Contrairement aux objectifs KL inverse ou Jensen-Shannon, DistIL garantit une amélioration monotone de la politique et un meilleur Pass@N. Les expériences en raisonnement scientifique, codage et mathématiques confirment sa supériorité sur les baselines RLVR.

Chaleur 2

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#reinforcement-learning #imitation-learning #LLM #raisonnement #credit-assignment