RECHERCHE
Quand les erreurs de récompense peuvent être bénéfiques : une taxonomie pour le policy gradient
Une analyse théorique montre que toutes les erreurs dans les proxy rewards ne sont pas néfastes — certaines peuvent même accélérer l'apprentissage.
arXiv cs.AI · cs.LG · cs.CL·Shuning Shang, Hubert Strauss, Stanley Wei, Sanjeev Arora·28 avril 2026

Image · Source originale
L'entraînement des LLM par RL repose souvent sur des proxy rewards imparfaits. Cette étude théorique catégorise les erreurs de récompense selon leur effet sur l'optimisation par policy gradient : certaines sont neutres, d'autres bénéfiques car elles évitent à la politique de stagner sur des sorties médiocres. Les auteurs proposent de nouvelles métriques d'évaluation des reward models pour RLHF, mieux corrélées aux performances finales que la ranking accuracy standard.