Toutes les news taguées avec ce sujet.
Une nouvelle méthode de régularisation combat le fractionnement et l'absorption de features dans les SAEs, deux pathologies qui nuisent à l'interprétabilité des LLMs.