RECHERCHE
MemDreamer : mémoire graphique hiérarchique pour comprendre les longues vidéos
Un framework plug-and-play dissocie perception et raisonnement pour traiter des vidéos de plusieurs heures sans explosion du contexte token.
arXiv cs.AI · cs.LG · cs.CL·Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang·5 juin 2026

Image · Source originale
MemDreamer propose de découpler la perception et le raisonnement dans les VLMs pour traiter des vidéos longues. Il construit incrémentalement une Hierarchical Graph Memory en trois niveaux capturant les relations spatiotemporelles et causales, puis mobilise un mécanisme de retrieval agentique (boucle Observation-Reason-Action) à l'inférence. Le système réduit la fenêtre de contexte à 2 % du contexte complet tout en gagnant 12,5 points de précision absolue, atteignant l'état de l'art sur quatre benchmarks avec un écart de seulement 3,7 points face aux experts humains.