RECHERCHE
FaaSMoE : un framework serverless pour le serving multi-tenant de modèles MoE
Une architecture découple les experts MoE en fonctions FaaS stateless, réduisant à moins d'un tiers les ressources nécessaires en environnement multi-tenant.
arXiv cs.AI · cs.LG · cs.CL·Minghe Wang, Trever Schirmer, Mohammadreza Malekabbasi, David Bermbach·29 avril 2026

Image · Source originale
FaaSMoE propose de déployer les experts d'un modèle Mixture-of-Experts sous forme de fonctions FaaS stateless, séparant plans de contrôle et d'exécution. Cette approche permet une invocation à la demande avec scale-to-zero, éliminant l'immobilisation mémoire des experts inactifs. Évalué sur Qwen1.5-moe-2.7B en contexte multi-tenant, FaaSMoE consomme moins d'un tiers des ressources d'une baseline classique.