RECHERCHE
Les LLM peuvent-ils faire de l'histoire ? Évaluation via l'examen impérial chinois
Un nouveau benchmark, ProHist-Bench, teste les capacités de raisonnement historique avancé des LLM sur 1 300 ans d'histoire est-asiatique.
arXiv cs.AI · cs.LG · cs.CL·Lirong Gao, Zeqing Wang, Yuyan Cai, Jiayi Deng·27 avril 2026

Image · Source originale
ProHist-Bench est un benchmark inédit ancré dans le système des examens impériaux chinois (Keju), couvrant huit dynasties sur plus de 1 300 ans. Il comprend 400 questions expertes et 10 891 critères d'évaluation fins pour mesurer des compétences de haut niveau comme le raisonnement par preuves. L'évaluation de 18 LLM révèle un écart de performance significatif : même les modèles de pointe peinent face à des questions de recherche historique complexes.