RECHERCHE
LongMemEval-V2 : évaluer la mémoire long terme des agents IA comme des collègues expérimentés
Un nouveau benchmark mesure la capacité des agents à mémoriser l'expérience d'environnements web complexes, au-delà des historiques utilisateurs classiques.
arXiv cs.AI · cs.LG · cs.CL·Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan·12 mai 2026

Image · Source originale
LongMemEval-V2 introduit 451 questions manuellement annotées couvrant cinq capacités mémorielles pour les agents web : rappel d'états statiques, suivi dynamique, connaissance des workflows, détection d'anomalies et conscience des prémisses. Les traces d'historique associées peuvent atteindre 500 trajectoires et 115 millions de tokens. Deux méthodes sont proposées — AgentRunbook-R (RAG) et AgentRunbook-C (agent de codage) — cette dernière atteignant 72,5 % de précision moyenne.