RECHERCHE
Moment-Video : un benchmark pour évaluer la fidélité temporelle des MLLMs vidéo
Un nouveau benchmark révèle que les meilleurs modèles multimodaux peinent à comprendre les événements visuels fugaces dans les vidéos, avec seulement 39,6 % de précision au mieux.
arXiv cs.AI · cs.LG · cs.CL·Xiaolin Liu, Yilun Zhu, Xiangyu Zhao, Xuehui Wang·1 juin 2026

Image · Source originale
Moment-Video est un benchmark conçu pour évaluer la capacité des MLLMs vidéo à détecter des événements visuels brefs et localisés, souvent ignorés par l'échantillonnage clairsemé ou la compression de tokens. Il contient 1 000 paires vidéo-QA vérifiées par des humains, couvrant 7 domaines et 4 types de tâches. L'évaluation de 33 modèles révèle que le meilleur, Seed-2.0-Pro, n'atteint que 39,6 % de précision, tandis que la plupart des modèles open-source restent sous 25 %.