RECHERCHE · Hugging Face
EVA-Bench Data 2.0 : 3 domaines, 121 outils, 213 scénarios
ServiceNow AI publie une nouvelle version de son benchmark EVA-Bench, couvrant 3 domaines métiers, 121 outils et 213 scénarios d'évaluation.
Hugging Face Blog·4 juin 2026

Image · Source originale
EVA-Bench Data 2.0 est un benchmark conçu par ServiceNow AI pour évaluer les agents LLM dans des contextes d'entreprise réels. Il couvre 3 domaines distincts, 121 outils et 213 scénarios de test. Cette mise à jour vise à fournir une base d'évaluation plus représentative des cas d'usage professionnels que les benchmarks généralistes existants.