RECHERCHE · Hugging Face

VAKRA : analyse du raisonnement, de l'usage d'outils et des modes d'échec des agents IA

IBM Research publie une analyse approfondie du benchmark VAKRA, conçu pour évaluer les capacités agentiques des LLMs sous stress réel.

Hugging Face Blog·15 avril 2026

IBM Research détaille VAKRA, un benchmark ciblant les agents IA sur trois axes : raisonnement multi-étapes, utilisation d'outils et modes d'échec caractéristiques. L'analyse révèle des lacunes systématiques dans la planification et la récupération d'erreurs des modèles actuels. Les résultats soulignent l'écart entre performances en tâches isolées et robustesse en contexte agentique complexe.

Chaleur 1

Pertinence 82

Nouveauté 68

OUVRIR LA SOURCE ↗

#agents #benchmark #raisonnement #tool-use #LLM