RECHERCHE

ExpRL : apprentissage par renforcement exploratoire pour le mid-training des LLM

ExpRL remplace le fine-tuning supervisé par un RL dense guidé par des rubriques automatiques, surpassant GRPO et SFT sur des tâches de raisonnement mathématique difficiles.

arXiv cs.AI · cs.LG · cs.CL·Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber·15 juin 2026

Image · Source originale

ExpRL propose une approche de mid-training basée sur le RL, utilisant de larges corpus de données question-réponse humaines comme échafaudages de récompense plutôt que comme cibles d'imitation. Les solutions de référence restent cachées du modèle et servent uniquement à construire des rubriques d'évaluation spécifiques, permettant à un juge LLM d'attribuer des récompenses denses sur les traces de raisonnement. Cette méthode surpasse le SFT, le GRPO à récompense sparse et l'auto-distillation sur des benchmarks de raisonnement mathématique avancé.

Chaleur 6

Pertinence 75

Nouveauté 72

OUVRIR LA SOURCE ↗

#reinforcement-learning #LLM #mid-training #raisonnement #dense-reward