vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+253 / 7J
Fellow
La veille de l'intelligence artificielle

SAFETY · Anthropic

Constitutional Classifiers : se défendre contre les jailbreaks universels

Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.

Anthropic Research·3 février 2025
Anthropic publie ses recherches sur les « Constitutional Classifiers », une méthode de défense conçue pour résister aux jailbreaks universels ciblant les grands modèles de langage. L'approche repose sur des classificateurs entraînés à partir de principes constitutionnels explicites, visant à détecter et bloquer les requêtes malveillantes même lorsque celles-ci exploitent des vecteurs d'attaque généralisés. Cette publication s'inscrit dans les efforts continus d'Anthropic en matière de safety et d'alignement.
Chaleur 0
Pertinence 80
Nouveauté 68
OUVRIR LA SOURCE ↗
#safety#jailbreak#alignement#LLM#classifieur