vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+253 / 7J
Fellow
La veille de l'intelligence artificielle

RECHERCHE

MoIR : un routeur d'information pour corriger la dominance modale dans les VLMs

Des chercheurs proposent MoIR, une méthode de fusion qui rééquilibre les contributions modales avant traitement par un LLM, sans se limiter à l'attention.

arXiv cs.AI · cs.LG · cs.CL·Seulgi Kim, Mohit Prabhushankar, Ghassan AlRegib·17 avril 2026
Les modèles vision-langage (VLMs) souffrent souvent de dominance modale : une seule modalité oriente les prédictions. MoIR (Multi-modal Information Router) identifie les tokens peu informatifs et leur injecte des informations complémentaires issues de la modalité la plus riche, avant la fusion dans le LLM. Évalué sur trois benchmarks multi-modaux, MoIR améliore la robustesse et les performances tout en rééquilibrant la contribution de chaque modalité.
Chaleur 2
Pertinence 68
Nouveauté 72
OUVRIR LA SOURCE ↗
#VLM#fusion multimodale#modality dominance#vision-langage#LLM