RECHERCHE

Bandits contextuels linéaires pour l'expérimentation adaptative avec dérives et contraintes de groupe de contrôle

Un algorithme, Dri-MED, adapte les bandits contextuels linéaires aux préférences utilisateurs hétérogènes et aux distributions de contexte non stationnaires.

arXiv cs.AI · cs.LG · cs.CL·Udvas Das, Waris Radji, Debabrota Basu, Odalric-Ambrym Maillard·8 juin 2026

Image · Source originale

Les auteurs étudient une variante des bandits contextuels linéaires stochastiques où un agent doit recommander à des utilisateurs aux préférences personnalisées dans un environnement à contexte dérivant. Ils introduisent Dri-MED, inspiré de la stratégie MED linéaire, capable de gérer un bruit hétéroscédastique non stationnaire tout en garantissant que la récompense moyenne dépasse une stratégie de référence à chaque étape. Les résultats montrent un regret d'instance dépendant en Õ(κd²log(T)/Δ̃) et Õ(d) violations de contraintes espérées, surpassant nettement les baselines qui ignorent les dérives.

Chaleur 10

Pertinence 45

Nouveauté 62

OUVRIR LA SOURCE ↗

#bandits contextuels #non-stationnaire #expérimentation #regret #hétéroscédasticité