RECHERCHE
Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
arXiv cs.AI · cs.LG · cs.CL·Yige Xu, Yongjie Wang, Zizhuo Wu, Kaisong Song·17 avril 2026

Des chercheurs introduisent CrossMath, un benchmark multimodal conçu pour comparer à iso-information les performances de VLMs en mode texte seul, image seule et image+texte. Les résultats montrent systématiquement que l'ajout de données visuelles dégrade les performances par rapport au mode texte seul. Cette analyse révèle que les VLMs actuels s'appuient essentiellement sur leur backbone textuel plutôt que sur un raisonnement ancré dans la vision. Un jeu d'entraînement CrossMath est proposé pour améliorer ce déficit via fine-tuning.
Chaleur 3
Pertinence 78
Nouveauté 72