RECHERCHE
Les routeurs apprennent la géométrie de leurs experts dans les modèles SMoE
Une étude révèle un couplage géométrique entre routeurs et experts dans les Sparse MoE, avec des implications sur l'équilibrage de charge.
arXiv cs.AI · cs.LG · cs.CL·Sagi Ahrac, Noya Hochwald, Mor Geva·12 mai 2026

Image · Source originale
Des chercheurs analysent mécaniquement la formation des décisions de routage dans les modèles Sparse Mixture-of-Experts (SMoE). Ils révèlent un couplage géométrique entre routeurs et experts : pour un token donné, les gradients s'accumulent dans la même direction, alignant l'historique des tokens traités. Les pertes d'équilibrage de charge (auxiliary losses) brisent ce couplage en rendant les directions de routage trois fois plus similaires entre elles. Un routeur K-Means sans paramètres supplémentaires confirme la centralité de ce couplage pour un routage efficace.