RECHERCHE

Repenser la régularisation par divergence dans le RL pour les LLM

Une nouvelle méthode, DRPO, remplace les masques rigides de DPPO par un régularisateur quadratique continu pour stabiliser l'entraînement par RL des LLM.

arXiv cs.AI · cs.LG · cs.CL·Jiarui Yao, Xiangxin Zhou, Penghui Qi, Wee Sun Lee·8 juin 2026

Image · Source originale

Les méthodes courantes de RL post-entraînement (PPO, GRPO) s'appuient sur un mécanisme de clipping du ratio d'importance, imparfait face aux vocabulaires à longue traîne. DPPO avait introduit un masque dur basé sur la divergence, mais écarte les gradients plutôt que de les corriger. DRPO propose un régularisateur quadratique pondéré par l'avantage, offrant des gradients continus et bornés qui atténuent les mises à jour divergentes tout en conservant la géométrie de la région de confiance. Les expériences montrent des gains de stabilité et d'efficacité sur plusieurs architectures et échelles.

Chaleur 18

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#RL #LLM #post-training #optimisation #trust-region