Toutes les news taguées avec ce sujet.
Shodh-MoE propose une architecture transformer sparse pour modéliser plusieurs régimes d'équations aux dérivées partielles sans conflit de gradients.
AllenAI présente EMO, une approche MoE où la spécialisation des experts émerge naturellement du pré-entraînement sans supervision explicite.