RECHERCHE
ROVE : apprentissage par renforcement pour les interventions humaines sur robots humanoïdes
Un framework RL permet d'exploiter des corrections humaines imparfaites pour affiner les modèles VLA sur des robots humanoïdes à mains dextères.
arXiv cs.AI · cs.LG · cs.CL·Wei Xiao, Weiliang Tang, Yuying Ge, Hui Zhou·15 juin 2026

Image · Source originale
ROVE est un framework d'apprentissage par renforcement conçu pour le post-training de modèles Vision-Language-Action (VLA) sur robots humanoïdes, en présence d'interventions humaines sous-optimales. Il introduit un pipeline human-in-the-loop pour collecter des données de déploiement et d'intervention, et utilise une estimation de valeur optimiste (OVE) pour filtrer les comportements de haute qualité dans des trajectoires mixtes. Des vidéos d'expérience cross-embodiment renforcent l'estimation critique pour les scénarios de récupération rares. Sur des tâches de manipulation réelle, ROVE surpasse les baselines par imitation.