RECHERCHE
OMIBench : un benchmark de raisonnement multi-images au niveau olympique pour les LVLMs
Un nouveau benchmark évalue la capacité des grands modèles vision-langage à raisonner sur plusieurs images simultanément, avec des problèmes issus des Olympiades scientifiques.
arXiv cs.AI · cs.LG · cs.CL·Qiguang Chen, Chengyu Luan, Jiajun Wu, Qiming Yu·22 avril 2026

OMIBench propose des problèmes issus des Olympiades de biologie, chimie, mathématiques et physique, où les indices sont répartis sur plusieurs images. Contrairement aux benchmarks existants centrés sur l'analyse d'une seule image, il teste le raisonnement contextuel multi-images. Les modèles les plus performants, dont Gemini-3-Pro, n'atteignent qu'environ 50 % de réussite, révélant des lacunes significatives dans les LVLMs actuels.
Chaleur 26
Pertinence 72
Nouveauté 65