RECHERCHE

DeepRubric : supervision par arbres de preuves pour l'apprentissage par renforcement d'agents de recherche approfondie

Un framework inverse la génération de rubriques d'évaluation pour les agents IA de recherche : partir des preuves plutôt que de la requête.

arXiv cs.AI · cs.LG · cs.CL·Minghang Zhu, Chuyang Wei, Junhao Xu, Yilin Cheng·15 juin 2026

Image · Source originale

DeepRubric propose un cadre de construction de données pour entraîner des agents de recherche approfondie via RL. Plutôt que de générer des rubriques d'évaluation à partir d'une requête, il construit d'abord un arbre de preuves en développant récursivement des sous-questions, puis synthétise requêtes et rubriques alignées. Cette approche produit 9 000 exemples supervisés et permet d'entraîner un modèle 8B (GRPO) atteignant des performances comparables aux meilleurs modèles open source existants sur trois benchmarks.

Chaleur 5

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#reinforcement-learning #agents #deep-research #LLM #rubric