RECHERCHE
MG-ADSGD : descente de gradient stochastique décentralisée accélérée pour l'optimisation fortement convexe
Un nouvel algorithme décentralisé combine l'extrapolation de Nesterov et le gossip multi-tours pour atteindre simultanément les meilleures complexités de communication connues.
arXiv cs.AI · cs.LG · cs.CL·Ming Sun, Kun Yuan·5 juin 2026

Image · Source originale
MG-ADSGD propose une méthode d'optimisation stochastique décentralisée couplant extrapolation primale-duale de type Nesterov et moyennage gossip multi-rondes. L'idée clé est de lier la profondeur du gossip à la taille des mini-batchs, améliorant simultanément la précision de consensus et la variance du gradient. L'algorithme atteint une complexité de communication en Õ(σ²/μnε · log(1/ε) + √(κ/(1−β)) · log(1/ε)), meilleure borne connue pour ce cadre, à facteurs logarithmiques près.