RECHERCHE
ACTS : pilotage agentique du chain-of-thought pour un raisonnement LLM efficace et contrôlable
Un agent contrôleur guide dynamiquement le raisonnement d'un LLM gelé via un processus de décision markovien, réduisant les tokens sans sacrifier la précision.
arXiv cs.AI · cs.LG · cs.CL·Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang·2 juin 2026

Image · Source originale
ACTS (Agentic Chain-of-Thought Steering) reformule le pilotage du raisonnement comme un MDP où un agent contrôleur observe la trace de raisonnement et le budget restant, puis émet des actions de stratégie pour guider le modèle raisonneur. Initialisé sur des trajectoires synthétiques multi-budget, le contrôleur est ensuite optimisé par reinforcement learning avec récompenses conditionnées au budget. Les expériences montrent que ACTS maintient les performances à fraction du coût en tokens, tout en permettant des compromis précision/efficacité ajustables.