SAFETY

Autoencodeurs en langage naturel : à l'intérieur des activations de Claude

Un chercheur explore les représentations internes de Claude en utilisant des autoencodeurs en langage naturel pour décoder ce que le modèle « pense » sans l'exprimer.

Hacker News (filtré IA)·@7777777phil·12 mai 2026

Image · Source originale

L'auteur expérimente des autoencodeurs en langage naturel pour sonder les activations internes de Claude et tenter de verbaliser des états latents que le modèle ne formule pas explicitement. Cette approche d'interprétabilité mécanique vise à rendre lisibles des représentations intermédiaires du réseau. Les résultats suggèrent que certaines structures sémantiques sont présentes dans les activations avant même d'apparaître dans les sorties textuelles.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#interprétabilité #mechanistic-interpretability #LLM #activations #Claude