Toutes les news taguées avec ce sujet.
NVIDIA frappe fort avec un modèle omnimodal Mixture-of-Transformers, un LLM 550B open-weights et un superchip personnel d'un pétaflop.
Un nouveau framework MoE décompose les paramètres des LLM en experts spécifiques et partagés pour résoudre l'oubli catastrophique en apprentissage continu.
Un contrôleur unifié pour robots humanoïdes combine locomotion, manipulation et récupération de chutes via distillation KL et architecture MoE.
NVIDIA publie Nemotron Ultra, une architecture open-weights combinant Mixture of Experts, Mamba et Transformer pour des tâches de raisonnement complexes.
JetBrains publie Mellum2, un modèle Mixture-of-Experts 12B spécialisé pour la complétion de code et l'assistance au développement.
Vlad Feinberg (Google) publie ses conseils détaillés pour intégrer un lab frontier, avec un focus sur le pretraining, les kernels et les lois de scaling.
Un système multi-agents coopératif qui traite la recherche complexe comme l'assemblage d'un puzzle de preuves complémentaires, surpassant les approches parallèles classiques.
Dwarkesh Patel décortique pourquoi les runs de pré-entraînement échouent, entre causalité brisée et biais introduits dans les architectures MoE.
Une étude révèle un couplage géométrique entre routeurs et experts dans les Sparse MoE, avec des implications sur l'équilibrage de charge.
Des chercheurs proposent DECO, une architecture MoE qui n'active que 20 % des experts tout en égalant les performances de modèles denses, avec un speedup de 3× sur matériel réel.
Le modèle TML-Interaction-Small de Thinking Machines repousse l'état de l'art de la voix interactive en temps réel avec une architecture MoE encoder-free.
EMO est une architecture MoE qui permet d'utiliser un sous-ensemble d'experts de façon indépendante, sans dégradation sévère des performances.
UniPool remet en cause la convention MoE d'un pool d'experts par couche en proposant un réservoir global unique, réduisant la croissance des paramètres tout en améliorant la perplexité.
Un nouveau framework combine espaces hyperbolique et euclidien avec un backbone S4 et un module MoE pour analyser des images histologiques gigapixel.