RECHERCHE
EMO : pré-entraînement d'un MoE pour une modularité émergente
EMO est une architecture MoE qui permet d'utiliser un sous-ensemble d'experts de façon indépendante, sans dégradation sévère des performances.
arXiv cs.AI · cs.LG · cs.CL·Ryan Wang, Akshita Bhagia, Sewon Min·7 mai 2026

Image · Source originale
Les LLM monolithiques activent l'ensemble du modèle même pour des tâches ciblées. EMO, un MoE de 1B paramètres actifs (14B au total), impose aux tokens d'un même document de puiser dans un pool d'experts partagé, permettant une spécialisation sémantique émergente. Avec seulement 25 % des experts conservés, la baisse de performance n'est que de 1 %, contre une dégradation sévère pour un MoE standard équivalent.