RECHERCHE

Minimisation du regret face à des adversaires adaptatifs dans les jeux répétés

Un nouveau cadre théorique, le Repeated Policy Regret, étend la minimisation du regret à des adversaires capables de s'adapter à l'historique des parties.

arXiv cs.AI · cs.LG · cs.CL·Mingyang Liu, Asuman Ozdaglar, Tiancheng Yu, Kaiqing Zhang·4 juin 2026

Image · Source originale

Ce papier introduit le Repeated Policy Regret (RP-Regret), une métrique de théorie des jeux mesurant l'écart entre l'utilité réalisée et la meilleure stratégie rétrospective lorsque tous les joueurs peuvent répondre à l'historique de jeu. Les auteurs identifient les conditions nécessaires à l'obtention d'un RP-Regret sous-linéaire en temps, puis proposent trois algorithmes pour le minimiser malgré sa nature non-convexe dans l'espace des stratégies.

Chaleur 2

Pertinence 40

Nouveauté 65

OUVRIR LA SOURCE ↗

#théorie des jeux #regret minimization #online learning #jeux répétés #algorithmes