RECHERCHE
Skill-RM : unification des critères d'évaluation hétérogènes via les compétences d'agent
Un framework agentic reformule le reward modeling comme l'exécution d'une compétence d'évaluation réutilisable, unifiant règles, références et rubriques.
arXiv cs.AI · cs.LG · cs.CL·Tao Chen, Gangwei Jiang, Pengyu Cheng, Siyuan Huang·2 juin 2026

Image · Source originale
Skill-RM propose un cadre unifié pour les reward models (RM) en reformulant le calcul de récompense comme une tâche agentique structurée. Le modèle orchestre dynamiquement des ressources hétérogènes — vérificateurs basés sur des règles, références ground-truth, rubriques complexes — via une interface cohérente. Les expériences sur des benchmarks de reward et des applications downstream (best-of-N, RL) montrent des performances supérieures aux juges traditionnels.