RECHERCHE

StraTA : renforcer l'apprentissage par renforcement agentique via l'abstraction stratégique de trajectoires

Un framework hiérarchique qui génère une stratégie explicite avant l'action pour améliorer l'exploration et l'attribution du crédit dans les LLM agents.

arXiv cs.AI · cs.LG · cs.CL·Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang·7 mai 2026

Image · Source originale

StraTA (Strategic Trajectory Abstraction) introduit une stratégie de niveau trajectoire dans l'apprentissage par renforcement agentique. Le modèle génère une stratégie compacte à partir de l'état initial, puis conditionne chaque action sur cette stratégie, entraînant conjointement génération de stratégie et exécution via un rollout GRPO hiérarchique. Sur ALFWorld, WebShop et SciWorld, StraTA atteint respectivement 93,1 %, 84,2 % et 63,5 %, surpassant des modèles closed-source de référence.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#agents #reinforcement-learning #LLM #trajectoires #GRPO