RECHERCHE

Bebop : accélérer l'entraînement RL des LLM via MTP et le rejection sampling

Une étude systématique révèle que le taux d'acceptation MTP est borné par l'entropie du modèle, et propose une nouvelle loss TV pour y remédier.

arXiv cs.AI · cs.LG · cs.CL·Yucheng Li, Huiqiang Jiang, Yang Xu, Jianxin Yang·10 juin 2026

Image · Source originale

Bebop identifie que la dégradation du taux d'acceptation MTP (Multi-Token Prediction) durant l'entraînement RL est causée par la fluctuation de l'entropie du modèle, avec une relation linéaire négative. Le rejection sampling probabiliste réduit cette perturbation, et une nouvelle loss TV end-to-end optimise directement le taux d'acceptation multi-étapes. Résultat : +10 % de taux d'acceptation (jusqu'à 95 %) et +25 % de débit d'inférence sur des tâches de raisonnement mathématique, de génération de code et d'agents.

Chaleur 44

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#reinforcement-learning #LLM #speculative-decoding #MTP #post-training