RECHERCHE

VLA-AD : distillation efficace de politiques Vision-Language-Action par guidage sémantique hors ligne

Un framework de distillation réduit de 44× la taille d'un modèle VLA de 7 milliards de paramètres tout en conservant des performances quasi équivalentes.

arXiv cs.AI · cs.LG · cs.CL·Jin Shi, Brady Zhang, Yishun Lu·15 mai 2026

Image · Source originale

VLA-AD propose un cadre de distillation où un Vision-Language Model joue le rôle de superviseur sémantique hors ligne pour compresser de grands modèles VLA en politiques légères. Le student de 158M paramètres, distillé depuis OpenVLA-7B, tourne à 12,5 Hz sur RTX 4090 avec un écart de seulement 0,27 % par rapport au teacher. Les signaux sémantiques auxiliaires (ancres de phase, descriptions directionnelles multi-frames) sont exclusivement utilisés à l'entraînement, rendant le student totalement autonome à l'inférence.

Chaleur 0

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#VLA #distillation #robotique #vision-language-action #efficacité