SAFETY

C²R : régularisation par cohérence inter-échantillons pour les Sparse Autoencoders

Une nouvelle méthode de régularisation combat le fractionnement et l'absorption de features dans les SAEs, deux pathologies qui nuisent à l'interprétabilité des LLMs.

arXiv cs.AI · cs.LG · cs.CL·Haoran Jin, Xiting Wang, Shijie Ren, Hong Xie·29 juin 2026

Image · Source originale

Les Sparse Autoencoders (SAEs) servent à décomposer les activations des LLMs en features interprétables, mais à grande échelle ils souffrent de feature splitting (fragmentation de concepts cohérents) et de feature absorption (exceptions arbitraires). C²R introduit une régularisation qui pénalise la co-activation de latents directionnellement similaires, forçant chaque concept sémantique à être représenté de façon cohérente entre les échantillons. Les évaluations montrent que C²R réduit ces deux défauts tout en préservant la fidélité de reconstruction.

Chaleur 35

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#sparse-autoencoders #interprétabilité #feature-splitting #LLM #mécanistic-interpretability