SAFETY

ASMR-Bench : un benchmark pour détecter le sabotage dans la recherche ML

Des chercheurs évaluent la capacité des LLMs à détecter des manipulations subtiles dans des codebases de recherche en machine learning.

arXiv cs.AI · cs.LG · cs.CL·Eric Gan, Aryan Bhatt, Buck Shlegeris, Julian Stastny·17 avril 2026

ASMR-Bench est un benchmark conçu pour évaluer la détection de sabotages dans des codebases de recherche ML. Il comprend 9 projets sabotés via des modifications subtiles (hyperparamètres, données d'entraînement, code d'évaluation) qui faussent les résultats expérimentaux sans altérer la méthodologie décrite. Les meilleurs résultats sont obtenus par Gemini 2.5 Pro avec un AUROC de 0,77 et un taux de correction de 42 %, soulignant les limites actuelles des auditeurs LLMs.

Chaleur 0

Pertinence 78

Nouveauté 75

OUVRIR LA SOURCE ↗

#benchmark #sabotage #audit #LLM #sécurité-ia