RECHERCHE

RREDCoT : redistribution de récompense par segment pour les modèles de raisonnement

Une nouvelle méthode de credit assignment réduit la variance du fine-tuning RL pour les modèles Chain-of-Thought sans surcoût de génération.

arXiv cs.AI · cs.LG · cs.CL·Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger, Sepp Hochreiter·4 juin 2026

Image · Source originale

RREDCoT propose de redistribuer la récompense différée au niveau des segments de traces Chain-of-Thought, un problème clé dans le fine-tuning par RL des LLMs de raisonnement. Plutôt que de recourir au Monte Carlo sampling — coûteux à haute granularité — la méthode utilise le modèle lui-même pour approximer la redistribution optimale des récompenses. Les auteurs comparent cette approche au MC sampling et à plusieurs méthodes d'attribution, et analysent la segmentation des traces CoT ainsi que l'estimation des valeurs d'état intermédiaires.

Chaleur 3

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#reinforcement-learning #chain-of-thought #credit-assignment #GRPO #raisonnement