RECHERCHE

Au-delà du « distribution sharpening » : l'importance des récompenses de tâche

Une étude compare le sharpening de distribution et l'apprentissage par récompense de tâche, et montre pourquoi le second est fondamentalement supérieur.

arXiv cs.AI · cs.LG · cs.CL·Sarthak Mittal, Leo Gagnon, Guillaume Lajoie·17 avril 2026

Des chercheurs de Mila analysent si le RL instille réellement de nouvelles compétences aux LLM ou se contente de sharpener leur distribution existante. Leurs expériences sur Llama-3.2-3B et Qwen2.5-3B démontrent que le sharpening seul atteint rapidement ses limites, souffrant d'instabilité et d'optima défavorables. En revanche, l'intégration d'un signal de récompense basé sur la tâche produit des gains robustes et un apprentissage stable sur des benchmarks mathématiques.

Chaleur 0

Pertinence 72

Nouveauté 65

OUVRIR LA SOURCE ↗

#reinforcement-learning #LLM #raisonnement #récompense de tâche #distribution sharpening