RECHERCHE
MRI-Eval : un benchmark à niveaux pour évaluer les LLM en physique IRM et opérations scanner
Un nouveau benchmark révèle que des scores MCQ élevés masquent de sérieuses lacunes en rappel libre, surtout sur les connaissances opérationnelles scanner GE.
arXiv cs.AI · cs.LG · cs.CL·Perry E. Radau·6 mai 2026

Image · Source originale
MRI-Eval est un benchmark de 1 365 questions réparties en neuf catégories et trois niveaux de difficulté, couvrant la physique IRM et l'exploitation des scanners GE. Cinq familles de modèles (GPT, Claude, Gemini, Llama) atteignent 93 à 97 % en QCM, mais chutent à 58-61 % en mode « stem-only » sans choix de réponses, et à seulement 14-30 % sur les opérations scanner GE spécifiques. L'étude montre que la performance QCM surestime les compétences réelles en rappel libre.