Toutes les news taguées avec ce sujet.
Un cadre formel étend les techniques de shielding classiques à la sécurité probabiliste dans les processus de décision markoviens.
Une nouvelle méthode de gradient de politique généralisée sur k étapes permet de dépasser les points critiques sous-optimaux dans les MDP à classes de politiques restreintes.
Des algorithmes Q-learning adaptés à l'optimisation risk-averse par utilité exponentielle dans les processus de décision markoviens escomptés.