RECHERCHE
Entraînement d'ensembles à hyperparamètres divergents pour grands modèles avec exploration automatique du learning rate
HDET réutilise les répliques GPU du data-parallel pour explorer plusieurs learning rates en parallèle, sans coût de communication significatif.
arXiv cs.AI · cs.LG · cs.CL·Hailing Cheng, Tao Huang, Chen Zhu, Antonio Alonso·27 avril 2026

Image · Source originale
HDET (Hyperparameter-Divergent Ensemble Training) propose d'exploiter les répliques GPU habituellement dédiées au data-parallel pour explorer simultanément différentes configurations de learning rate. La méthode alterne entre une phase d'entraînement indépendant par réplique et une phase de convergence via AllReduce. Un contrôleur auto-LR ajuste dynamiquement le schedule partagé en se basant sur les pertes relatives entre répliques. Le cadre s'étend à tout hyperparamètre scalaire n'affectant pas l'architecture.