SAFETY

Red-team des modèles Anthropic Fable 5 et Opus 4.8 : robustesse adversariale évaluée

Une étude indépendante teste la résistance aux jailbreaks automatisés de deux LLM frontier d'Anthropic sur près de 8 000 intentions nuisibles.

arXiv cs.AI · cs.LG · cs.CL·Nicola Franco·16 juin 2026

Image · Source originale

L'étude évalue Fable 5 et Opus 4.8 d'Anthropic face à quatre familles d'attaques adversariales automatisées couvrant 7 826 intentions nuisibles. Si les deux modèles résistent à la majorité des tentatives, les attaques itératives adaptatives restent efficaces : tree-of-attacks brise Opus 4.8 dans 11,5 % des cas et Fable 5 dans 6,1 %. Au total, 1 620 et 702 réponses nuisibles confirmées ont été produites respectivement, sans expertise humaine et en peu d'étapes, soulignant la fragilité persistante des modèles frontier sous pression automatisée soutenue.

Chaleur 11

Pertinence 82

Nouveauté 62

OUVRIR LA SOURCE ↗

#red-teaming #jailbreak #LLM #adversarial-robustness #safety