SAFETY
Red-team des modèles Anthropic Fable 5 et Opus 4.8 : robustesse adversariale évaluée
Une étude indépendante teste la résistance aux jailbreaks automatisés de deux LLM frontier d'Anthropic sur près de 8 000 intentions nuisibles.
arXiv cs.AI · cs.LG · cs.CL·Nicola Franco·16 juin 2026

Image · Source originale
L'étude évalue Fable 5 et Opus 4.8 d'Anthropic face à quatre familles d'attaques adversariales automatisées couvrant 7 826 intentions nuisibles. Si les deux modèles résistent à la majorité des tentatives, les attaques itératives adaptatives restent efficaces : tree-of-attacks brise Opus 4.8 dans 11,5 % des cas et Fable 5 dans 6,1 %. Au total, 1 620 et 702 réponses nuisibles confirmées ont été produites respectivement, sans expertise humaine et en peu d'étapes, soulignant la fragilité persistante des modèles frontier sous pression automatisée soutenue.