RECHERCHE
DECO : une architecture MoE sparse aux performances comparables aux modèles denses sur appareils edge
Des chercheurs proposent DECO, une architecture MoE qui n'active que 20 % des experts tout en égalant les performances de modèles denses, avec un speedup de 3× sur matériel réel.
arXiv cs.AI · cs.LG · cs.CL·Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao·11 mai 2026

Image · Source originale
DECO est une architecture sparse Mixture-of-Experts conçue pour correspondre aux performances des Transformers denses à budget de paramètres total identique. Elle s'appuie sur un routage ReLU différentiable avec mise à l'échelle par expert apprise, une nouvelle fonction d'activation NormSiLU favorisant une sparsité intrinsèque plus élevée, et des experts MLP non-gated. En n'activant que 20 % des experts, DECO surpasse les baselines MoE établies et offre un accélération 3× via un kernel dédié, ciblant le déploiement sur appareils edge.