RECHERCHE

MirrorCode : un benchmark pour tester la réingénierie logicielle autonome par les agents IA

METR et Epoch publient MirrorCode, un benchmark révélant que les agents IA peuvent réimplémenter des logiciels complexes sans accès au code source.

Import AI (Jack Clark)·Jack Clark·13 avril 2026

METR et Epoch AI ont développé MirrorCode, un benchmark évaluant la capacité des agents IA à réimplémenter des programmes en ligne de commande sans accès au code source original. Le benchmark couvre plus de 20 programmes dans des domaines variés : utilitaires Unix, bioinformatique, cryptographie, compression. Les résultats montrent que des modèles comme Claude Opus 4 parviennent à reconstituer fidèlement certains logiciels, suggérant que les capacités de codage autonome à long horizon sont plus avancées qu'estimé.

Chaleur 1

Pertinence 82

Nouveauté 78

OUVRIR LA SOURCE ↗

#benchmark #agents #coding #METR #reverse-engineering