RECHERCHE

Gradients de politique en k étapes pour échapper aux optima locaux myopes

Une nouvelle méthode de gradient de politique généralisée sur k étapes permet de dépasser les points critiques sous-optimaux dans les MDP à classes de politiques restreintes.

arXiv cs.AI · cs.LG · cs.CL·Alex DeWeese, Guannan Qu·11 mai 2026

Image · Source originale

Les méthodes classiques de gradient de politique souffrent d'une myopie fondamentale : elles n'optimisent qu'à partir de la Q-fonction à un seul pas. Cette étude propose une méthode de gradient de politique généralisée sur k étapes qui couple l'aléatoire sur une fenêtre temporelle de k pas. La convergence vers une solution exponentiellement proche de la politique déterministe optimale est garantie théoriquement, avec une complexité en O(1/T) pour la descente de gradient projetée et le mirror descent.

Chaleur 0

Pertinence 55

Nouveauté 72

OUVRIR LA SOURCE ↗

#policy gradient #reinforcement learning #MDP #optimisation #multi-agent