RECHERCHE

Quand les erreurs de récompense peuvent être bénéfiques : une taxonomie pour le policy gradient

Une analyse théorique montre que toutes les erreurs dans les proxy rewards ne sont pas néfastes — certaines peuvent même accélérer l'apprentissage.

arXiv cs.AI · cs.LG · cs.CL·Shuning Shang, Hubert Strauss, Stanley Wei, Sanjeev Arora·28 avril 2026

Image · Source originale

L'entraînement des LLM par RL repose souvent sur des proxy rewards imparfaits. Cette étude théorique catégorise les erreurs de récompense selon leur effet sur l'optimisation par policy gradient : certaines sont neutres, d'autres bénéfiques car elles évitent à la politique de stagner sur des sorties médiocres. Les auteurs proposent de nouvelles métriques d'évaluation des reward models pour RLHF, mieux corrélées aux performances finales que la ranking accuracy standard.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#rlhf #policy-gradient #reward-model #LLM #alignement