3 items
#jailbreak
Toutes les news taguées avec ce sujet.
- SAFETYopenaiheat 78
GPT-5.5 Bio Bug Bounty : OpenAI lance un red-teaming sur les risques biologiques
OpenAI ouvre un programme de bug bounty ciblant les jailbreaks universels sur GPT-5.5 dans le domaine de la biosécurité, avec des récompenses allant jusqu'à 25 000 $.
- SAFETYheat 52
AVISE : un framework open-source pour évaluer la sécurité des systèmes IA
Des chercheurs présentent AVISE, un cadre modulaire d'évaluation des vulnérabilités IA, incluant un test automatisé de jailbreak sur neuf LLM récents.
- SAFETYanthropicheat 72
Constitutional Classifiers : se défendre contre les jailbreaks universels
Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.