RECHERCHE

MRI-Eval : un benchmark à niveaux pour évaluer les LLM en physique IRM et opérations scanner

Un nouveau benchmark révèle que des scores MCQ élevés masquent de sérieuses lacunes en rappel libre, surtout sur les connaissances opérationnelles scanner GE.

arXiv cs.AI · cs.LG · cs.CL·Perry E. Radau·6 mai 2026

Image · Source originale

MRI-Eval est un benchmark de 1 365 questions réparties en neuf catégories et trois niveaux de difficulté, couvrant la physique IRM et l'exploitation des scanners GE. Cinq familles de modèles (GPT, Claude, Gemini, Llama) atteignent 93 à 97 % en QCM, mais chutent à 58-61 % en mode « stem-only » sans choix de réponses, et à seulement 14-30 % sur les opérations scanner GE spécifiques. L'étude montre que la performance QCM surestime les compétences réelles en rappel libre.

Chaleur 0

Pertinence 55

Nouveauté 65

OUVRIR LA SOURCE ↗

#benchmark #LLM #médical #IRM #évaluation