SAFETY
Un moniteur stateful en ligne détecte les attaques d'agents distribués
Des chercheurs démontrent une attaque multi-agents capable de dissimuler des objectifs malveillants, et proposent un système de détection en temps réel.
arXiv cs.AI · cs.LG · cs.CL·Davis Brown, Samarth Bhargav, Arav Santhanam, Kasper Hong·29 mai 2026

Image · Source originale
Des attaquants peuvent répartir une tâche cybernétique nuisible entre plusieurs comptes pour contourner les moniteurs de sécurité classiques, qui évaluent chaque contexte agent individuellement. Les chercheurs construisent la première attaque d'agents distribués connue, qui échappe à un moniteur standard cinq fois plus souvent que les attaques classiques. En réponse, ils développent un moniteur stateful en ligne utilisant du clustering en temps réel pour agréger des signaux de suspicion faibles sur de nombreux transcripts, dominant Pareto les moniteurs standards avec une détection 30 % plus précoce et une latence négligeable pour ~99 % du trafic.