SAFETY
Au-delà du red-teaming : garanties formelles pour les classifieurs guardrail de LLM
Des chercheurs proposent un cadre de vérification formelle des classifieurs guardrail, révélant des failles de sécurité vérifiables malgré de bonnes métriques empiriques.
arXiv cs.AI · cs.LG · cs.CL·Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi·11 mai 2026

Image · Source originale
Les classifieurs guardrail protègent les LLM en production, mais n'offrent aucune garantie formelle. Les chercheurs déplacent la vérification vers l'espace de pré-activation du classifieur, définissant des régions nuisibles comme des formes convexes autour des représentations de prompts toxiques connus. Deux constructions sont proposées : des hyper-rectangles alignés SVD pour des certificats exacts SAT/UNSAT, et des modèles de mélange gaussien pour des certificats probabilistes. Appliqué à trois classifieurs entraînés sur la toxicité, le cadre révèle des failles de sécurité vérifiables dans tous les modèles testés.