RECHERCHE
Minimisation du regret face à des adversaires adaptatifs dans les jeux répétés
Un nouveau cadre théorique, le Repeated Policy Regret, étend la minimisation du regret à des adversaires capables de s'adapter à l'historique des parties.
arXiv cs.AI · cs.LG · cs.CL·Mingyang Liu, Asuman Ozdaglar, Tiancheng Yu, Kaiqing Zhang·4 juin 2026

Image · Source originale
Ce papier introduit le Repeated Policy Regret (RP-Regret), une métrique de théorie des jeux mesurant l'écart entre l'utilité réalisée et la meilleure stratégie rétrospective lorsque tous les joueurs peuvent répondre à l'historique de jeu. Les auteurs identifient les conditions nécessaires à l'obtention d'un RP-Regret sous-linéaire en temps, puis proposent trois algorithmes pour le minimiser malgré sa nature non-convexe dans l'espace des stratégies.