RECHERCHE
ReproRepo : évaluer la reproductibilité des papiers ML à l'échelle avec des agents LLM
Un framework exploite les issues GitHub comme signal naturel pour tester la capacité des agents LLM à identifier les obstacles à la reproductibilité scientifique.
arXiv cs.AI · cs.LG · cs.CL·Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen·16 juin 2026

Image · Source originale
ReproRepo propose un cadre scalable d'audit de reproductibilité qui s'appuie sur les issues GitHub soulevées par des humains comme supervision naturelle. Appliqué à 1 149 papiers ML récents, il évalue quatre configurations d'agents LLM. Le meilleur agent (Codex + GPT-5.5) identifie au moins un obstacle rapporté par des humains pour ~90 % des papiers, sans même exécuter le code. Les agents restent limités sur la localisation précise des problèmes.