RECHERCHE
Apprentissage par renforcement pour l'utilité exponentielle : algorithmes et convergence dans les MDPs escomptés
Des algorithmes Q-learning adaptés à l'optimisation risk-averse par utilité exponentielle dans les processus de décision markoviens escomptés.
arXiv cs.AI · cs.LG · cs.CL·Gugan Thoppe, L. A. Prashanth, Ankur Naskar, Sanjay Bhat·8 mai 2026

Image · Source originale
Les auteurs comblent un manque théorique en proposant deux extensions Q-value pour l'optimisation de l'utilité exponentielle dans les MDPs escomptés à aversion au risque fixe. Ils démontrent que les opérateurs associés sont des contractions et que la politique stationnaire induite est optimale. Deux algorithmes model-free sont dérivés : un Q-learning à deux échelles de temps avec convergence presque sûre, et un algorithme mono-échelle à opérateur sous-linéaire dont la convergence est établie via des arguments de Lipschitz local, monotonie et dérivées de Dini.