RECHERCHE
VLA-AD : distillation efficace de politiques Vision-Language-Action par guidage sémantique hors ligne
Un framework de distillation réduit de 44× la taille d'un modèle VLA de 7 milliards de paramètres tout en conservant des performances quasi équivalentes.
arXiv cs.AI · cs.LG · cs.CL·Jin Shi, Brady Zhang, Yishun Lu·15 mai 2026

Image · Source originale
VLA-AD propose un cadre de distillation où un Vision-Language Model joue le rôle de superviseur sémantique hors ligne pour compresser de grands modèles VLA en politiques légères. Le student de 158M paramètres, distillé depuis OpenVLA-7B, tourne à 12,5 Hz sur RTX 4090 avec un écart de seulement 0,27 % par rapport au teacher. Les signaux sémantiques auxiliaires (ancres de phase, descriptions directionnelles multi-frames) sont exclusivement utilisés à l'entraînement, rendant le student totalement autonome à l'inférence.