vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+253 / 7J
Fellow
La veille de l'intelligence artificielle

RECHERCHE

OMIBench : un benchmark de raisonnement multi-images au niveau olympique pour les LVLMs

Un nouveau benchmark évalue la capacité des grands modèles vision-langage à raisonner sur plusieurs images simultanément, avec des problèmes issus des Olympiades scientifiques.

arXiv cs.AI · cs.LG · cs.CL·Qiguang Chen, Chengyu Luan, Jiajun Wu, Qiming Yu·22 avril 2026
OMIBench propose des problèmes issus des Olympiades de biologie, chimie, mathématiques et physique, où les indices sont répartis sur plusieurs images. Contrairement aux benchmarks existants centrés sur l'analyse d'une seule image, il teste le raisonnement contextuel multi-images. Les modèles les plus performants, dont Gemini-3-Pro, n'atteignent qu'environ 50 % de réussite, révélant des lacunes significatives dans les LVLMs actuels.
Chaleur 26
Pertinence 72
Nouveauté 65
OUVRIR LA SOURCE ↗
#benchmark#LVLM#vision-langage#raisonnement multi-images#olympiade