RECHERCHE
ProtoAda : adaptation continue des MLLMs guidée par prototypes de format
Un framework d'apprentissage continu multimodal qui corrige l'assignation aveugle aux experts LoRA en intégrant la structure de sortie des tâches.
arXiv cs.AI · cs.LG · cs.CL·Yu-Cheng Shi, Zhen-Hao Xie, Jun-Tao Tang, Da-Wei Zhou·1 juin 2026

Image · Source originale
ProtoAda s'attaque au problème du Multimodal Continual Instruction Tuning (MCIT) en introduisant des prototypes de tâches sensibles au format de sortie, comblant la limite des architectures Mixture of LoRA Experts qui routent uniquement sur la similarité visuelle-linguistique. Cette approche évite que des tâches sémantiquement proches mais structurellement différentes (ex. VQA vs localisation de coordonnées) partagent les mêmes paramètres, réduisant les interférences de gradient. Des expériences sur plusieurs benchmarks confirment des gains de performance, notamment sur les tâches aux structures de réponse distinctes.