RECHERCHE

Act2Answer : les modèles VLA retiennent-ils les connaissances de base ?

Un protocole d'évaluation mesure combien de connaissances factuelles et de bon sens les modèles Vision-Language-Action conservent après fine-tuning sur des données robotiques.

arXiv cs.AI · cs.LG · cs.CL·Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev·17 juin 2026

Image · Source originale

Les modèles VLA, obtenus par fine-tuning de VLMs pré-entraînés sur des données robotiques, perdent une part de leurs connaissances sémantiques. Le protocole Act2Answer transforme des benchmarks de connaissances en épisodes de manipulation physique : l'agent répond en plaçant un objet, ce qui isole les lacunes cognitives des erreurs de contrôle moteur. Une étude sur 7 modèles VLA et 9 VLMs révèle que les VLAs performent correctement sur les concepts simples mais accusent des écarts sur les catégories sémantiques riches, et que les signaux pertinents s'atténuent dans les couches supérieures.

Chaleur 10

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#VLA #VLM #robotique #benchmark #knowledge-retention