RECHERCHE
SmoothCruiser : planification dans les MDP et jeux à régularisation entropique
Un nouvel algorithme de planification exploite la régularité induite par l'entropie pour garantir une complexité polynomiale en échantillons.
arXiv cs.AI · cs.LG · cs.CL·Jean-Bastien Grill, Omar Darwiche Domingues, Pierre Ménard, Rémi Munos·21 avril 2026

SmoothCruiser est un algorithme de planification pour estimer la fonction de valeur dans les processus de décision markoviens (MDP) et les jeux à deux joueurs avec régularisation entropique. Il tire parti de la régularité de l'opérateur de Bellman pour atteindre une complexité en échantillons de O~(1/ε⁴), indépendante du problème. Aucun algorithme existant ne garantit une complexité polynomiale dans le cas non régularisé.
Chaleur 13
Pertinence 55
Nouveauté 72