RECHERCHE
EnvFactory : mise à l'échelle des agents d'utilisation d'outils par synthèse d'environnements exécutables et RL robuste
Un framework automatisé génère des environnements exécutables et des trajectoires d'entraînement multi-tours réalistes pour améliorer les LLMs dans l'utilisation d'outils.
arXiv cs.AI · cs.LG · cs.CL·Minrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li·18 mai 2026

Image · Source originale
EnvFactory est un framework entièrement automatisé qui construit des environnements d'exécution vérifiables et synthétise des trajectoires multi-tours avec des intentions implicites proches du langage naturel. Avec seulement 85 environnements couvrant 7 domaines, il génère 2 575 trajectoires SFT et RL. Les modèles Qwen3 améliorent leurs scores jusqu'à +15 % sur BFCLv3, +8,6 % sur MCP-Atlas et +6 % sur des benchmarks conversationnels, surpassant des approches utilisant 5 fois plus d'environnements.