SAFETY · Anthropic
Constitutional Classifiers : se défendre contre les jailbreaks universels
Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.
Anthropic Research·3 février 2025

Anthropic publie ses recherches sur les « Constitutional Classifiers », une méthode de défense conçue pour résister aux jailbreaks universels ciblant les grands modèles de langage. L'approche repose sur des classificateurs entraînés à partir de principes constitutionnels explicites, visant à détecter et bloquer les requêtes malveillantes même lorsque celles-ci exploitent des vecteurs d'attaque généralisés. Cette publication s'inscrit dans les efforts continus d'Anthropic en matière de safety et d'alignement.
Chaleur 0
Pertinence 80
Nouveauté 68