Toutes les news taguées avec ce sujet.
Une nouvelle méthode de gradient de politique généralisée sur k étapes permet de dépasser les points critiques sous-optimaux dans les MDP à classes de politiques restreintes.