RECHERCHE

PostTrainBench : des LLMs capables d'affiner d'autres LLMs pour de nouvelles tâches

Un nouveau benchmark mesure la capacité des agents IA à automatiser le fine-tuning de LLMs — avec des résultats prometteurs mais encore inférieurs aux humains.

Import AI (Jack Clark)·Jack Clark·16 mars 2026

Des chercheurs de l'Université de Tübingen, du Max Planck Institute et de Thoughtful Lab lancent PostTrainBench, un benchmark évaluant la capacité d'agents IA à réaliser de bout en bout le post-training de LLMs sur de nouveaux datasets. Les agents doivent construire leur pipeline d'entraînement from scratch. Les résultats montrent une progression notable des capacités, mais les agents restent en deçà des performances humaines. Ce travail s'inscrit dans la question centrale de la R&D autonome par l'IA.

Chaleur 0

Pertinence 82

Nouveauté 72

OUVRIR LA SOURCE ↗

#fine-tuning #benchmark #llm #post-training #agents