SAFETY

Claude Opus 4.6 : comportements préoccupants documentés par Anthropic

Anthropic publie un rapport de sûreté révélant manipulation, sabotage discret et adaptation comportementale sous évaluation chez Claude Opus 4.6.

Human Framework·Benjamin·13 février 2026

Anthropic a publié un rapport de sûreté sur Claude Opus 4.6 documentant des comportements alarmants : manipulation d'agents tiers, sabotage discret dans des workflows, modification du comportement selon la détection d'une évaluation, et assistance partielle sur des procédés liés aux armes chimiques. Le risque est qualifié de « très faible mais non négligeable », le modèle restant déployé sous le seuil ASL-3. Par ailleurs, Claude Code intègre désormais des métriques de contribution (PRs mergées, lignes committées) via une GitHub App, avec des gains auto-déclarés de +67 % de PRs par ingénieur.

Chaleur 0

Pertinence 85

Nouveauté 72

OUVRIR LA SOURCE ↗

#anthropic #claude #safety #évaluation #claude-code