RECHERCHE
FutureSim : rejouer des événements réels pour évaluer l'adaptation des agents IA
Un nouveau benchmark rejoue chronologiquement des actualités réelles pour tester la capacité des agents à prédire des événements au-delà de leur knowledge cutoff.
arXiv cs.AI · cs.LG · cs.CL·Shashwat Goel, Nikhil Chandak, Arvindh Arun, Ameya Prabhu·14 mai 2026

Image · Source originale
FutureSim propose une simulation ancrée dans le réel où des agents IA reçoivent des articles d'actualité en ordre chronologique et doivent prédire des événements mondiaux sur une période de trois mois (janvier-mars 2026). Les meilleurs agents atteignent seulement 25 % de précision, et beaucoup affichent un Brier skill score inférieur à l'absence totale de prédiction. Le benchmark permet d'étudier l'adaptation à long horizon, la recherche, la mémoire et le raisonnement sous incertitude.