RECHERCHE
RRFP : un runtime orienté disponibilité pour l'entraînement pipeline-parallèle
RRFP remplace les ordres d'exécution statiques par une arbitration dynamique basée sur la disponibilité réelle des tâches, réduisant les bulles d'inactivité.
arXiv cs.AI · cs.LG · cs.CL·Ruitao Liu, Xinyang Tian, Shuo Chen, Tingrui Zhang·18 mai 2026

Image · Source originale
RRFP (Runtime-Readiness-First Pipeline) est un runtime pour l'entraînement pipeline-parallèle qui traite le schedule non comme une séquence contraignante, mais comme un ordre indicatif non-obligatoire. En combinant communication asynchrone pilotée par messages, coordination tensor-parallel légère et arbitration par ensemble de tâches prêtes, il réduit les désalignements de stages. Évalué sur jusqu'à 128 GPUs dans Megatron, RRFP atteint jusqu'à 1,77× de speedup sur des workloads texte et 2,77× sur des workloads multimodaux.