2 items
#chain-of-thought
Toutes les news taguées avec ce sujet.
- OUTILSmoonshotheat 72
Kimi-K2-Thinking : le modèle de raisonnement de Moonshot AI
Moonshot AI publie Kimi-K2-Thinking sur Hugging Face, un modèle orienté raisonnement issu de la famille K2.
- SAFETYheat 62
Détection et suppression du reward hacking par empreintes de gradient
GRIFT exploite les gradients internes des modèles pour détecter les comportements de reward hacking invisibles à l'analyse textuelle des chaînes de raisonnement.