SAFETY

Au-delà du budget fixe : régulariseurs de sparsité pour des autoencodeurs Top-k plus interprétables

Deux régulariseurs de sparsité améliorent la monosémantique des SAEs Top-k sans dégradation de reconstruction, ouvrant la voie à une meilleure interprétabilité des modèles de vision.

arXiv cs.AI · cs.LG · cs.CL·Nathanaël Jacquier, Maria Vakalopoulou, Mahdi S. Hosseini·25 juin 2026

Image · Source originale

Les sparse autoencoders (SAEs) Top-k imposent la sparsité architecturalement en ne conservant que les k latents les plus actifs par entrée, mais souffrent d'un budget k fixe indépendant de la complexité de l'input. Les auteurs introduisent deux régulariseurs compatibles avec cette architecture : une pénalité ℓ1 sur les unités non sélectionnées et une pénalité ℓ1/ℓ2 scale-invariant concentrant le code sur moins d'unités effectives. Testés sur deux datasets et trois modèles de vision, les deux approches améliorent la monosémantique sans coût en qualité de reconstruction.

Chaleur 10

Pertinence 62

Nouveauté 65

OUVRIR LA SOURCE ↗

#sparse-autoencoders #interprétabilité #vision #sparsité #SAE