RECHERCHE

FASTER : échantillonnage guidé par la valeur pour le RL rapide

Une méthode légère pour bénéficier du test-time scaling des politiques diffusion sans en payer le coût computationnel.

arXiv cs.AI · cs.LG · cs.CL·Perry Dong, Alexander Swerdlow, Dorsa Sadigh, Chelsea Finn·21 avril 2026

FASTER propose de modéliser le processus de débruitage de plusieurs candidats d'action comme un MDP, permettant d'apprendre une fonction de valeur qui filtre progressivement les candidats avant la fin du débruitage. La méthode réduit ainsi le coût du test-time scaling tout en maintenant les gains de performance. Sur des tâches de manipulation long-horizon, FASTER surpasse les méthodes comparées et, appliqué à un VLA pré-entraîné, réduit significativement les besoins en calcul à l'entraînement et à l'inférence.

Chaleur 0

Pertinence 62

Nouveauté 74

OUVRIR LA SOURCE ↗

#reinforcement-learning #diffusion-policy #test-time scaling #MDP #robotique