2 items
#MDP
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 42
SmoothCruiser : planification dans les MDP et jeux à régularisation entropique
Un nouvel algorithme de planification exploite la régularité induite par l'entropie pour garantir une complexité polynomiale en échantillons.
- RECHERCHEheat 52
FASTER : échantillonnage guidé par la valeur pour le RL rapide
Une méthode légère pour bénéficier du test-time scaling des politiques diffusion sans en payer le coût computationnel.