1 item
#tool-use
Toutes les news taguées avec ce sujet.
- RECHERCHEhuggingfaceheat 58
VAKRA : analyse du raisonnement, de l'usage d'outils et des modes d'échec des agents IA
IBM Research publie une analyse approfondie du benchmark VAKRA, conçu pour évaluer les capacités agentiques des LLMs sous stress réel.