RECHERCHE

WildClawBench : un benchmark pour l'évaluation d'agents en conditions réelles

Un nouveau benchmark de 60 tâches bilingues et multimodales teste les agents IA sur des workflows longs dans des environnements natifs — les meilleurs modèles peinent à dépasser 62 %.

arXiv cs.AI · cs.LG · cs.CL·Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding·11 mai 2026

Image · Source originale

WildClawBench évalue des agents CLI sur 60 tâches réelles (8 min en moyenne, plus de 20 appels d'outils), exécutées dans des conteneurs Docker avec de vrais services plutôt que des mocks. La notation hybride combine règles déterministes, audit d'état et juge LLM/VLM. Sur 19 modèles frontier testés, Claude Opus 4.7 atteint 62,2 % sous OpenClaw, tous les autres restant sous 60 %. Le choix du harness peut faire varier un score de 18 points.

Chaleur 0

Pertinence 82

Nouveauté 75

OUVRIR LA SOURCE ↗

#benchmark #agents #long-horizon #CLI #évaluation