RECHERCHE

ReproRepo : évaluer la reproductibilité des papiers ML à l'échelle avec des agents LLM

Un framework exploite les issues GitHub comme signal naturel pour tester la capacité des agents LLM à identifier les obstacles à la reproductibilité scientifique.

arXiv cs.AI · cs.LG · cs.CL·Shanda Li, Qiuhong Anna Wei, Jingwu Tang, Valerie Chen·16 juin 2026

Image · Source originale

ReproRepo propose un cadre scalable d'audit de reproductibilité qui s'appuie sur les issues GitHub soulevées par des humains comme supervision naturelle. Appliqué à 1 149 papiers ML récents, il évalue quatre configurations d'agents LLM. Le meilleur agent (Codex + GPT-5.5) identifie au moins un obstacle rapporté par des humains pour ~90 % des papiers, sans même exécuter le code. Les agents restent limités sur la localisation précise des problèmes.

Chaleur 7

Pertinence 72

Nouveauté 65

OUVRIR LA SOURCE ↗

#reproductibilité #LLM agents #benchmark #machine-learning #GitHub