RECHERCHE

Éliminer le transfert négatif dans les modèles de fondation multi-physiques via le routage Mixture-of-Experts sparse

Shodh-MoE propose une architecture transformer sparse pour modéliser plusieurs régimes d'équations aux dérivées partielles sans conflit de gradients.

arXiv cs.AI · cs.LG · cs.CL·Ellwil Sharma, Arastu Sharma·14 mai 2026

Image · Source originale

Le co-entraînement de régimes physiques hétérogènes (dynamique des fluides, milieux poreux) provoque des conflits de gradients et une perte de plasticité dans les opérateurs neuronaux denses. Shodh-MoE introduit un routage Top-1 soft-sémantique qui oriente dynamiquement les patches latents vers des sous-réseaux experts spécialisés. Après 20 000 étapes d'entraînement distribué, le modèle exhibe une bifurcation autonome : les tokens fluides routent vers l'Expert 0, les tokens milieux poreux vers l'Expert 1. La conservation de masse est garantie avec une divergence de vitesse de ~2,8×10⁻¹⁰.

Chaleur 0

Pertinence 55

Nouveauté 78

OUVRIR LA SOURCE ↗

#mixture-of-experts #SciML #multi-physics #PDE #neural-operator