vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+253 / 7J
Fellow
La veille de l'intelligence artificielle

RECHERCHE

Au-delà du « distribution sharpening » : l'importance des récompenses de tâche

Une étude compare le sharpening de distribution et l'apprentissage par récompense de tâche, et montre pourquoi le second est fondamentalement supérieur.

arXiv cs.AI · cs.LG · cs.CL·Sarthak Mittal, Leo Gagnon, Guillaume Lajoie·17 avril 2026
Des chercheurs de Mila analysent si le RL instille réellement de nouvelles compétences aux LLM ou se contente de sharpener leur distribution existante. Leurs expériences sur Llama-3.2-3B et Qwen2.5-3B démontrent que le sharpening seul atteint rapidement ses limites, souffrant d'instabilité et d'optima défavorables. En revanche, l'intégration d'un signal de récompense basé sur la tâche produit des gains robustes et un apprentissage stable sur des benchmarks mathématiques.
Chaleur 3
Pertinence 72
Nouveauté 65
OUVRIR LA SOURCE ↗
#reinforcement-learning#LLM#raisonnement#récompense de tâche#distribution sharpening