RECHERCHE

Exploiter l'incertitude sur la récompense pour induire des comportements diversifiés en RL

Une reformulation du problème RL remplace la récompense scalaire par une distribution, faisant émerger la diversité comportementale sans sacrifier la performance.

arXiv cs.AI · cs.LG · cs.CL·Anthony GX-Chen, Ankit Anand, Gheorghe Comanici, Zaheer Abbas·2 juin 2026

Image · Source originale

Des chercheurs proposent de remplacer la récompense scalaire classique du RL par une distribution sur des fonctions de récompense, couplée à un objectif non linéaire sur des ensembles d'actions. Cette reformulation fait émerger naturellement une diversité comportementale calibrée, contrôlable via la distribution de récompense, sans pénaliser la performance attendue. Le cadre généralise le policy gradient standard et les approches action-set récentes, avec des résultats empiriques probants sur des tâches de bandit contextuel.

Chaleur 1

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#reinforcement-learning #diversité #reward-uncertainty #policy-gradient #fine-tuning