RECHERCHE

LongMemEval-V2 : évaluer la mémoire long terme des agents IA comme des collègues expérimentés

Un nouveau benchmark mesure la capacité des agents à mémoriser l'expérience d'environnements web complexes, au-delà des historiques utilisateurs classiques.

arXiv cs.AI · cs.LG · cs.CL·Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan·12 mai 2026

Image · Source originale

LongMemEval-V2 introduit 451 questions manuellement annotées couvrant cinq capacités mémorielles pour les agents web : rappel d'états statiques, suivi dynamique, connaissance des workflows, détection d'anomalies et conscience des prémisses. Les traces d'historique associées peuvent atteindre 500 trajectoires et 115 millions de tokens. Deux méthodes sont proposées — AgentRunbook-R (RAG) et AgentRunbook-C (agent de codage) — cette dernière atteignant 72,5 % de précision moyenne.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #mémoire long terme #agents #RAG #web agents