RECHERCHE
Act2Answer : les modèles VLA retiennent-ils les connaissances de base ?
Un protocole d'évaluation mesure combien de connaissances factuelles et de bon sens les modèles Vision-Language-Action conservent après fine-tuning sur des données robotiques.
arXiv cs.AI · cs.LG · cs.CL·Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev·17 juin 2026

Image · Source originale
Les modèles VLA, obtenus par fine-tuning de VLMs pré-entraînés sur des données robotiques, perdent une part de leurs connaissances sémantiques. Le protocole Act2Answer transforme des benchmarks de connaissances en épisodes de manipulation physique : l'agent répond en plaçant un objet, ce qui isole les lacunes cognitives des erreurs de contrôle moteur. Une étude sur 7 modèles VLA et 9 VLMs révèle que les VLAs performent correctement sur les concepts simples mais accusent des écarts sur les catégories sémantiques riches, et que les signaux pertinents s'atténuent dans les couches supérieures.