RECHERCHE

Moment-Video : un benchmark pour évaluer la fidélité temporelle des MLLMs vidéo

Un nouveau benchmark révèle que les meilleurs modèles multimodaux peinent à comprendre les événements visuels fugaces dans les vidéos, avec seulement 39,6 % de précision au mieux.

arXiv cs.AI · cs.LG · cs.CL·Xiaolin Liu, Yilun Zhu, Xiangyu Zhao, Xuehui Wang·1 juin 2026

Image · Source originale

Moment-Video est un benchmark conçu pour évaluer la capacité des MLLMs vidéo à détecter des événements visuels brefs et localisés, souvent ignorés par l'échantillonnage clairsemé ou la compression de tokens. Il contient 1 000 paires vidéo-QA vérifiées par des humains, couvrant 7 domaines et 4 types de tâches. L'évaluation de 33 modèles révèle que le meilleur, Seed-2.0-Pro, n'atteint que 39,6 % de précision, tandis que la plupart des modèles open-source restent sous 25 %.

Chaleur 1

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #video-mllms #temporal-reasoning #multimodal #évaluation