RECHERCHE
Bandits contextuels linéaires pour l'expérimentation adaptative avec dérives et contraintes de groupe de contrôle
Un algorithme, Dri-MED, adapte les bandits contextuels linéaires aux préférences utilisateurs hétérogènes et aux distributions de contexte non stationnaires.
arXiv cs.AI · cs.LG · cs.CL·Udvas Das, Waris Radji, Debabrota Basu, Odalric-Ambrym Maillard·8 juin 2026

Image · Source originale
Les auteurs étudient une variante des bandits contextuels linéaires stochastiques où un agent doit recommander à des utilisateurs aux préférences personnalisées dans un environnement à contexte dérivant. Ils introduisent Dri-MED, inspiré de la stratégie MED linéaire, capable de gérer un bruit hétéroscédastique non stationnaire tout en garantissant que la récompense moyenne dépasse une stratégie de référence à chaque étape. Les résultats montrent un regret d'instance dépendant en Õ(κd²log(T)/Δ̃) et Õ(d) violations de contraintes espérées, surpassant nettement les baselines qui ignorent les dérives.