SAFETY
Au-delà du budget fixe : régulariseurs de sparsité pour des autoencodeurs Top-k plus interprétables
Deux régulariseurs de sparsité améliorent la monosémantique des SAEs Top-k sans dégradation de reconstruction, ouvrant la voie à une meilleure interprétabilité des modèles de vision.
arXiv cs.AI · cs.LG · cs.CL·Nathanaël Jacquier, Maria Vakalopoulou, Mahdi S. Hosseini·25 juin 2026

Image · Source originale
Les sparse autoencoders (SAEs) Top-k imposent la sparsité architecturalement en ne conservant que les k latents les plus actifs par entrée, mais souffrent d'un budget k fixe indépendant de la complexité de l'input. Les auteurs introduisent deux régulariseurs compatibles avec cette architecture : une pénalité ℓ1 sur les unités non sélectionnées et une pénalité ℓ1/ℓ2 scale-invariant concentrant le code sur moins d'unités effectives. Testés sur deux datasets et trois modèles de vision, les deux approches améliorent la monosémantique sans coût en qualité de reconstruction.