RECHERCHE
Les populations de neurones montrent une sélectivité divergente avec la mise à l'échelle
Une étude révèle que les neurones partagés entre modèles deviennent plus monosémantiques à mesure que la taille augmente, esquissant une loi d'échelle pour l'interprétabilité.
arXiv cs.AI · cs.LG · cs.CL·Amil Dravid, Yasaman Bahri, Alexei A. Efros, Yossi Gandelsman·2 juin 2026

Image · Source originale
Des chercheurs analysent l'évolution des « Rosetta Neurons » — neurones aux activations similaires entre modèles entraînés indépendamment — dans des LLM jusqu'à 30 milliards de paramètres et des modèles de vision jusqu'à 5 milliards. Leur population croît en valeur absolue mais suit une loi de puissance sous-linéaire, occupant une fraction décroissante du réseau. Un effet de polarisation émerge : ces neurones deviennent plus sélectifs et monosémantiques, tandis qu'une population non-Rosetta reste peu sélective. Ces résultats établissent une loi d'échelle reliant taille du modèle, universalité et spécialisation des neurones.