1 item
#gradients
Toutes les news taguées avec ce sujet.
- SAFETYheat 62
Détection et suppression du reward hacking par empreintes de gradient
GRIFT exploite les gradients internes des modèles pour détecter les comportements de reward hacking invisibles à l'analyse textuelle des chaînes de raisonnement.