RECHERCHE
ExpRL : apprentissage par renforcement exploratoire pour le mid-training des LLM
ExpRL remplace le fine-tuning supervisé par un RL dense guidé par des rubriques automatiques, surpassant GRPO et SFT sur des tâches de raisonnement mathématique difficiles.
arXiv cs.AI · cs.LG · cs.CL·Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber·15 juin 2026

Image · Source originale
ExpRL propose une approche de mid-training basée sur le RL, utilisant de larges corpus de données question-réponse humaines comme échafaudages de récompense plutôt que comme cibles d'imitation. Les solutions de référence restent cachées du modèle et servent uniquement à construire des rubriques d'évaluation spécifiques, permettant à un juge LLM d'attribuer des récompenses denses sur les traces de raisonnement. Cette méthode surpasse le SFT, le GRPO à récompense sparse et l'auto-distillation sur des benchmarks de raisonnement mathématique avancé.