RECHERCHE
Gradients de politique en k étapes pour échapper aux optima locaux myopes
Une nouvelle méthode de gradient de politique généralisée sur k étapes permet de dépasser les points critiques sous-optimaux dans les MDP à classes de politiques restreintes.
arXiv cs.AI · cs.LG · cs.CL·Alex DeWeese, Guannan Qu·11 mai 2026

Image · Source originale
Les méthodes classiques de gradient de politique souffrent d'une myopie fondamentale : elles n'optimisent qu'à partir de la Q-fonction à un seul pas. Cette étude propose une méthode de gradient de politique généralisée sur k étapes qui couple l'aléatoire sur une fenêtre temporelle de k pas. La convergence vers une solution exponentiellement proche de la politique déterministe optimale est garantie théoriquement, avec une complexité en O(1/T) pour la descente de gradient projetée et le mirror descent.