RECHERCHE
Éliminer le transfert négatif dans les modèles de fondation multi-physiques via le routage Mixture-of-Experts sparse
Shodh-MoE propose une architecture transformer sparse pour modéliser plusieurs régimes d'équations aux dérivées partielles sans conflit de gradients.
arXiv cs.AI · cs.LG · cs.CL·Ellwil Sharma, Arastu Sharma·14 mai 2026

Image · Source originale
Le co-entraînement de régimes physiques hétérogènes (dynamique des fluides, milieux poreux) provoque des conflits de gradients et une perte de plasticité dans les opérateurs neuronaux denses. Shodh-MoE introduit un routage Top-1 soft-sémantique qui oriente dynamiquement les patches latents vers des sous-réseaux experts spécialisés. Après 20 000 étapes d'entraînement distribué, le modèle exhibe une bifurcation autonome : les tokens fluides routent vers l'Expert 0, les tokens milieux poreux vers l'Expert 1. La conservation de masse est garantie avec une divergence de vitesse de ~2,8×10⁻¹⁰.