RECHERCHE
Benchmark Everything Everywhere All at Once : un agent autonome pour construire des benchmarks
Des chercheurs proposent un système agentique capable de générer automatiquement des benchmarks LLM de bout en bout, réduisant l'intervention humaine.
arXiv cs.AI · cs.LG · cs.CL·Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai·4 juin 2026

Image · Source originale
Benchmark Agent est un système autonome orchestrant l'intégralité du pipeline de construction de benchmarks : analyse de requêtes, conception de sous-tâches, annotation et contrôle qualité. Évalué sur 15 benchmarks couvrant compréhension textuelle, multimodale et raisonnement spécialisé, il produit des échantillons de haute qualité. Les expériences révèlent que les modèles actuels peinent sur certaines tâches de raisonnement spécialisé.