RECHERCHE

AARR : une suite de benchmarks pour évaluer les agents LLM dans le cycle de recherche scientifique

Un nouveau benchmark teste si les agents IA peuvent réellement se comporter comme des chercheurs humains — et les résultats révèlent des lacunes persistantes.

arXiv cs.AI · cs.LG · cs.CL·Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu·5 juin 2026

Image · Source originale

Le benchmark AARRI-Bench (Act As a Real Research Intern) évalue la capacité des agents LLM à reproduire le professionnalisme, la rigueur et le jugement nuancé des chercheurs humains dans des scénarios scientifiques granulaires. Contrairement aux benchmarks existants centrés sur l'exécution macro, AARR cible les détails subtils et l'éthique de la recherche. La meilleure configuration testée (Mini-SWE-Agent avec Claude Opus 4.7) n'atteint que 68,3 % de réussite, soulignant que le scaffolding complexe ne suffit pas.

Chaleur 5

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #agents #LLM #recherche-scientifique #évaluation