OUTILS

VLA Foundry : un framework unifié pour entraîner des modèles Vision-Language-Action

TRI-ML publie VLA Foundry, un framework open-source qui unifie l'entraînement LLM, VLM et VLA dans une seule base de code.

arXiv cs.AI · cs.LG · cs.CL·Jean Mercat, Sedrick Keh, Kushal Arora, Isabella Huang·21 avril 2026

VLA Foundry propose une pile d'entraînement commune couvrant le préentraînement langage jusqu'au fine-tuning action-expert, éliminant les pipelines incompatibles propres aux efforts VLA existants. Le framework supporte l'entraînement from-scratch et les backbones Hugging Face, dont Qwen3-VL. Deux familles de modèles sont publiées avec les poids, évaluées sur le simulateur open-source LBM Eval. Le modèle basé sur Qwen3-VL surpasse nettement la baseline sur des tâches de manipulation multi-objets.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#VLA #robotique #vision-language-action #open-source #fine-tuning