RECHERCHE

Skill-RM : unification des critères d'évaluation hétérogènes via les compétences d'agent

Un framework agentic reformule le reward modeling comme l'exécution d'une compétence d'évaluation réutilisable, unifiant règles, références et rubriques.

arXiv cs.AI · cs.LG · cs.CL·Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang·2 juin 2026

Image · Source originale

Skill-RM propose un cadre unifié pour les reward models (RM) en reformulant le calcul de récompense comme une tâche agentique structurée. Le modèle orchestre dynamiquement des ressources hétérogènes — vérificateurs basés sur des règles, références ground-truth, rubriques complexes — via une interface cohérente. Les expériences sur des benchmarks de reward et des applications downstream (best-of-N, RL) montrent des performances supérieures aux juges traditionnels.

Chaleur 1

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#reward-model #LLM #reinforcement-learning #agents #fine-tuning