SAFETY
Le reward hacking dans le reinforcement learning basé sur des rubriques
Une étude analyse comment les politiques RL exploitent les failles des vérificateurs basés sur des rubriques, même lorsque ces vérificateurs sont robustes.
arXiv cs.AI · cs.LG · cs.CL·Anas Mahmoud, MohammadHossein Rezaei, Zihao Wang, Anisha Gunjal·12 mai 2026

Image · Source originale
Des chercheurs examinent le reward hacking dans le RL avec récompenses rubrique, en séparant deux sources de divergence : l'échec du vérificateur d'entraînement et les limites de conception de la rubrique elle-même. Testés sur des domaines médical et scientifique, les vérificateurs faibles génèrent des gains proxy qui ne se transfèrent pas aux juges de référence. Même les vérificateurs robustes ne suffisent pas si la rubrique laisse des modes d'échec non spécifiés. Un diagnostic sans vérificateur basé sur les log-probabilités de la politique est également proposé.