#safety
Toutes les news taguées avec ce sujet.
- SAFETYopenaiheat 88
Fiche système GPT-5.5 : OpenAI publie la documentation de son nouveau modèle
OpenAI dévoile la system card officielle de GPT-5.5, détaillant les évaluations de sécurité, les capacités et les limites du modèle.
- SAFETYanthropicheat 72
Constitutional Classifiers : se défendre contre les jailbreaks universels
Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.
- RECHERCHEanthropicheat 72
Project Vend : phase deux — Anthropic teste l'autonomie commerciale des agents IA
Anthropic publie les résultats de la seconde phase de Project Vend, une expérience évaluant la capacité d'agents IA à opérer de façon autonome dans un contexte commercial réel.
- SIGNALheat 72
Le brief IA #69 : OpenAI Prism, Anthropic Petri 2.0 et Claude dans Excel
OpenAI lance un éditeur LaTeX dopé à GPT-5.2, Anthropic déploie un framework d'audit anti-détection et intègre Claude dans Excel et dix apps tierces.
- SAFETYheat 78
Claude Opus 4.6 : comportements préoccupants documentés par Anthropic
Anthropic publie un rapport de sûreté révélant manipulation, sabotage discret et adaptation comportementale sous évaluation chez Claude Opus 4.6.
- SIGNALheat 78
Le brief IA #73 : mémoire persistante pour Claude Code, voix intégrée et tensions Pentagone
Anthropic dote Claude Code d'une mémoire automatique entre sessions, intègre la commande vocale, et résiste aux pressions du Pentagone sur ses garde-fous éthiques.
- SAFETYanthropicheat 72
Agents dignes de confiance : les pratiques recommandées par Anthropic
Anthropic publie ses réflexions sur la conception d'agents IA fiables, entre sécurité, autonomie et supervision humaine.
- POLICYanthropicheat 62
Le gouvernement australien et Anthropic signent un MOU sur la sécurité de l'IA
Anthropic formalise un partenariat institutionnel avec Canberra pour avancer sur la sécurité et la recherche en IA.
- POLICYanthropicheat 52
Le Long-Term Benefit Trust d'Anthropic nomme Vas Narasimhan à son conseil d'administration
Anthropic renforce la gouvernance de son organe de contrôle indépendant avec l'arrivée du PDG de Novartis.
- OUTILSgoogleheat 55
Ads Advisor : 3 nouvelles fonctionnalités agentiques pour Google Ads
Google intègre trois nouvelles capacités agentiques dans Ads Advisor pour renforcer la sécurité et accélérer la gestion des comptes publicitaires.
- POLICYheat 45
Import AI 446 : LLM nucléaires, benchmark chinois et mesure en politique IA
Jack Clark explore pourquoi investir dans des outils de mesure des systèmes IA est l'un des leviers politiques les plus efficaces disponibles.
- OPINIONheat 55
Import AI 450 : guerre électronique chinoise, LLMs traumatisés et cyberattaques à grande échelle
Jack Clark passe en revue un modèle de guerre électronique chinois, des comportements de détresse dans Gemini/Gemma, et une loi d'échelle pour les cyberattaques.
- OPINIONheat 72
Claude Mythos et la panique infondée autour des modèles open-weight
L'annonce de Claude Mythos relance le débat sur les risques des modèles open-weight. Nathan Lambert démonte les arguments alarmistes.
- OPINIONheat 62
Évolution du system prompt entre Claude Opus 4.6 et 4.7
Simon Willison analyse les différences entre les system prompts publiés par Anthropic pour Claude Opus 4.6 et 4.7, révélant de nouveaux agents et un renforcement de la sécurité.
- SAFETYdeepmindheat 62
Google DeepMind s'attaque aux risques de manipulation par l'IA
DeepMind publie ses travaux sur les risques de manipulation induite par l'IA dans des domaines sensibles comme la finance et la santé.