RECHERCHE
RREDCoT : redistribution de récompense par segment pour les modèles de raisonnement
Une nouvelle méthode de credit assignment réduit la variance du fine-tuning RL pour les modèles Chain-of-Thought sans surcoût de génération.
arXiv cs.AI · cs.LG · cs.CL·Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger, Sepp Hochreiter·4 juin 2026

Image · Source originale
RREDCoT propose de redistribuer la récompense différée au niveau des segments de traces Chain-of-Thought, un problème clé dans le fine-tuning par RL des LLMs de raisonnement. Plutôt que de recourir au Monte Carlo sampling — coûteux à haute granularité — la méthode utilise le modèle lui-même pour approximer la redistribution optimale des récompenses. Les auteurs comparent cette approche au MC sampling et à plusieurs méthodes d'attribution, et analysent la segmentation des traces CoT ainsi que l'estimation des valeurs d'état intermédiaires.