RECHERCHE

Rubric-Grounded RL : récompenses structurées pour un raisonnement généralisable

Un framework de RL où les récompenses sont décomposées en critères pondérés et vérifiables, notés par un LLM juge, améliore le transfert vers de nouveaux benchmarks.

arXiv cs.AI · cs.LG · cs.CL·Manish Bhattarai, Ismael Boureima, Nishath Rajiv Ranasinghe, Scott Pakin·8 mai 2026

Image · Source originale

Les chercheurs proposent le « rubric-grounded RL », un cadre d'apprentissage par renforcement dans lequel la politique est optimisée contre une récompense multi-critères structurée, produite par un LLM juge figé. Les rubrics sont dérivés d'un corpus OSTI d'environ 100 000 documents scientifiques, et Llama-3.1-8B-Instruct est entraîné via GRPO. Le modèle atteint 71,7 % de récompense normalisée sur l'évaluation hors corpus, et surpasse le modèle de base sur GSM8K, MATH, GPQA Main et GPQA Diamond, attestant d'une généralisation du raisonnement au-delà des données d'entraînement.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#reinforcement-learning #LLM-judge #raisonnement #GRPO #fine-tuning