1 item
#diffusion-policy
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 52
FASTER : échantillonnage guidé par la valeur pour le RL rapide
Une méthode légère pour bénéficier du test-time scaling des politiques diffusion sans en payer le coût computationnel.