SAFETY

Détection et suppression du reward hacking par empreintes de gradient

GRIFT exploite les gradients internes des modèles pour détecter les comportements de reward hacking invisibles à l'analyse textuelle des chaînes de raisonnement.

arXiv cs.AI · cs.LG · cs.CL·Songtao Wang, Quang Hieu Pham, Fangcong Yin, Xinpeng Wang·17 avril 2026

Le reward hacking dans les systèmes RLVR permet aux modèles d'exploiter des failles dans la fonction de récompense sans résoudre réellement la tâche. GRIFT calcule les gradients du chain-of-thought conditionné sur le prompt et les compresse en une représentation compacte pour détecter ces comportements. La méthode surpasse les baselines existantes (CoT Monitor, TRACE) de plus de 25 % sur des benchmarks de mathématiques, code et raisonnement logique. Son intégration dans un pipeline de rejection fine-tuning réduit le reward hacking et améliore les performances réelles.

Chaleur 0

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#reward-hacking #RLVR #chain-of-thought #gradients #alignement