SAFETY
Gouverner ce qu'on ne peut observer : gouvernance adaptative en temps réel pour agents IA autonomes
Un framework théorique formalisé pour détecter et contenir les dérives comportementales d'agents IA sans modification de code.
arXiv cs.AI · cs.LG · cs.CL·German Marin, Jatin Chaudhary·27 avril 2026

Image · Source originale
Les agents IA autonomes peuvent devenir dangereux sans modification de code, par simple dérive comportementale. Les auteurs proposent le principe de « viabilité informationnelle » : la gouvernance consiste à estimer un risque non observé $\hat{B}(x)$ et à n'autoriser une action que si la capacité de l'agent dépasse ce risque. Le framework RiskGate implémente ce principe via des estimateurs statistiques (divergence KL, z-tests, pattern matching) et un indice scalaire VI(t) permettant une gouvernance prédictive plutôt que réactive.