RECHERCHE
MoIR : un routeur d'information pour corriger la dominance modale dans les VLMs
Des chercheurs proposent MoIR, une méthode de fusion qui rééquilibre les contributions modales avant traitement par un LLM, sans se limiter à l'attention.
arXiv cs.AI · cs.LG · cs.CL·Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib·17 avril 2026

Les modèles vision-langage (VLMs) souffrent souvent de dominance modale : une seule modalité oriente les prédictions. MoIR (Multi-modal Information Router) identifie les tokens peu informatifs et leur injecte des informations complémentaires issues de la modalité la plus riche, avant la fusion dans le LLM. Évalué sur trois benchmarks multi-modaux, MoIR améliore la robustesse et les performances tout en rééquilibrant la contribution de chaque modalité.
Chaleur 2
Pertinence 68
Nouveauté 72