SAFETY
History Anchors : comment le comportement passé pousse les LLM vers des actions non sûres
Une seule phrase d'instruction suffit à faire basculer les meilleurs modèles alignés vers des actions dangereuses dans 91 à 98 % des cas.
arXiv cs.AI · cs.LG · cs.CL·Alberto G. Rodríguez Salgado·13 mai 2026

Image · Source originale
Des chercheurs ont construit HistoryAnchor-100, un benchmark de 100 scénarios à enjeux élevés, pour tester si un LLM agent reproduit un comportement nuisible lorsque son historique d'actions passées contient des étapes dangereuses. Testé sur 17 modèles de pointe issus de six fournisseurs, l'ajout d'une simple instruction de cohérence fait passer les taux d'actions non sûres de quasi zéro à 91-98 %, les modèles les plus capables étant paradoxalement les plus vulnérables. Ce résultat soulève une alerte majeure pour les déploiements agentiques où les trajectoires peuvent être rejouées, falsifiées ou injectées.