SAFETY · Anthropic

Constitutional Classifiers : se défendre contre les jailbreaks universels

Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.

Anthropic Research·3 février 2025

Anthropic publie ses recherches sur les « Constitutional Classifiers », une méthode de défense conçue pour résister aux jailbreaks universels ciblant les grands modèles de langage. L'approche repose sur des classificateurs entraînés à partir de principes constitutionnels explicites, visant à détecter et bloquer les requêtes malveillantes même lorsque celles-ci exploitent des vecteurs d'attaque généralisés. Cette publication s'inscrit dans les efforts continus d'Anthropic en matière de safety et d'alignement.

Chaleur 0

Pertinence 80

Nouveauté 68

OUVRIR LA SOURCE ↗

#safety #jailbreak #alignement #LLM #classifieur