RECHERCHE
EvoArena : un benchmark pour évaluer les agents LLM dans des environnements dynamiques
EvoArena teste les agents LLM face à des environnements évolutifs, et EvoMem propose une mémoire structurée par historique de mises à jour pour améliorer leurs performances.
arXiv cs.AI · cs.LG · cs.CL·Jundong Xu, Qingchuan Li, Jiaying Wu, Yihuai Lan·11 juin 2026

Image · Source originale
EvoArena est un benchmark évaluant les agents LLM dans des environnements dynamiques (terminal, logiciel, social), là où la majorité des évaluations supposent un contexte statique. Les agents actuels y atteignent seulement 39,6 % de précision moyenne. EvoMem, un paradigme de mémoire par patches, enregistre l'évolution de l'environnement sous forme d'historiques structurés et améliore les performances sur EvoArena (+1,5 %), GAIA (+6,1 %) et LoCoMo (+4,8 %).