3 items

#jailbreak

Toutes les news taguées avec ce sujet.

SAFETY
openaiheat 78
GPT-5.5 Bio Bug Bounty : OpenAI lance un red-teaming sur les risques biologiques
OpenAI ouvre un programme de bug bounty ciblant les jailbreaks universels sur GPT-5.5 dans le domaine de la biosécurité, avec des récompenses allant jusqu'à 25 000 $.
SAFETY
heat 52
AVISE : un framework open-source pour évaluer la sécurité des systèmes IA
Des chercheurs présentent AVISE, un cadre modulaire d'évaluation des vulnérabilités IA, incluant un test automatisé de jailbreak sur neuf LLM récents.
SAFETY
anthropicheat 72
Constitutional Classifiers : se défendre contre les jailbreaks universels
Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.