RECHERCHE

Entraînement d'ensembles à hyperparamètres divergents pour grands modèles avec exploration automatique du learning rate

HDET réutilise les répliques GPU du data-parallel pour explorer plusieurs learning rates en parallèle, sans coût de communication significatif.

arXiv cs.AI · cs.LG · cs.CL·Hailing Cheng, Tao Huang, Chen Zhu, Antonio Alonso·27 avril 2026

Image · Source originale

HDET (Hyperparameter-Divergent Ensemble Training) propose d'exploiter les répliques GPU habituellement dédiées au data-parallel pour explorer simultanément différentes configurations de learning rate. La méthode alterne entre une phase d'entraînement indépendant par réplique et une phase de convergence via AllReduce. Un contrôleur auto-LR ajuste dynamiquement le schedule partagé en se basant sur les pertes relatives entre répliques. Le cadre s'étend à tout hyperparamètre scalaire n'affectant pas l'architecture.

Chaleur 0

Pertinence 65

Nouveauté 72

OUVRIR LA SOURCE ↗

#optimisation #hyperparamètres #entraînement distribué #learning rate #LLM