RECHERCHE
DeepRubric : supervision par arbres de preuves pour l'apprentissage par renforcement d'agents de recherche approfondie
Un framework inverse la génération de rubriques d'évaluation pour les agents IA de recherche : partir des preuves plutôt que de la requête.
arXiv cs.AI · cs.LG · cs.CL·Minghang Zhu, Chuyang Wei, Junhao Xu, Yilin Cheng·15 juin 2026

Image · Source originale
DeepRubric propose un cadre de construction de données pour entraîner des agents de recherche approfondie via RL. Plutôt que de générer des rubriques d'évaluation à partir d'une requête, il construit d'abord un arbre de preuves en développant récursivement des sous-questions, puis synthétise requêtes et rubriques alignées. Cette approche produit 9 000 exemples supervisés et permet d'entraîner un modèle 8B (GRPO) atteignant des performances comparables aux meilleurs modèles open source existants sur trois benchmarks.