SAFETY
C²R : régularisation par cohérence inter-échantillons pour les Sparse Autoencoders
Une nouvelle méthode de régularisation combat le fractionnement et l'absorption de features dans les SAEs, deux pathologies qui nuisent à l'interprétabilité des LLMs.
arXiv cs.AI · cs.LG · cs.CL·Haoran Jin, Xiting Wang, Shijie Ren, Hong Xie·29 juin 2026

Image · Source originale
Les Sparse Autoencoders (SAEs) servent à décomposer les activations des LLMs en features interprétables, mais à grande échelle ils souffrent de feature splitting (fragmentation de concepts cohérents) et de feature absorption (exceptions arbitraires). C²R introduit une régularisation qui pénalise la co-activation de latents directionnellement similaires, forçant chaque concept sémantique à être représenté de façon cohérente entre les échantillons. Les évaluations montrent que C²R réduit ces deux défauts tout en préservant la fidélité de reconstruction.