RECHERCHE
Vision-OPD : améliorer la perception fine des MLLMs par auto-distillation on-policy
Un framework d'auto-distillation régionale permet aux modèles multimodaux de mieux analyser les détails visuels fins sans superviseur externe.
arXiv cs.AI · cs.LG · cs.CL·Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin·18 mai 2026

Image · Source originale
Les MLLMs peinent à interpréter les détails visuels décisifs dans une image complète, alors qu'ils répondent correctement lorsqu'on leur soumet un recadrage centré sur la région pertinente. Vision-OPD exploite cet écart en instanciant deux politiques à partir du même modèle : un enseignant conditionné sur le crop et un étudiant sur l'image entière. La divergence token-level entre leurs distributions est minimisée sur des rollouts on-policy, sans étiquettes, vérificateur de récompense ni modèle externe. Sur plusieurs benchmarks de compréhension visuelle fine, Vision-OPD rivalise avec des modèles bien plus grands, y compris des approches agentiques.