vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+253 / 7J
Fellow
La veille de l'intelligence artificielle

RECHERCHE

FASTER : échantillonnage guidé par la valeur pour le RL rapide

Une méthode légère pour bénéficier du test-time scaling des politiques diffusion sans en payer le coût computationnel.

arXiv cs.AI · cs.LG · cs.CL·Perry Dong, Alexander Swerdlow, Dorsa Sadigh, Chelsea Finn·21 avril 2026
FASTER propose de modéliser le processus de débruitage de plusieurs candidats d'action comme un MDP, permettant d'apprendre une fonction de valeur qui filtre progressivement les candidats avant la fin du débruitage. La méthode réduit ainsi le coût du test-time scaling tout en maintenant les gains de performance. Sur des tâches de manipulation long-horizon, FASTER surpasse les méthodes comparées et, appliqué à un VLA pré-entraîné, réduit significativement les besoins en calcul à l'entraînement et à l'inférence.
Chaleur 17
Pertinence 62
Nouveauté 74
OUVRIR LA SOURCE ↗
#reinforcement-learning#diffusion-policy#test-time scaling#MDP#robotique