RECHERCHE

BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs

Un nouveau benchmark en closed-book testing mesure la maîtrise des LLMs sur la taxonomie, le comportement et la biodiversité animale.

arXiv cs.AI · cs.LG · cs.CL·Jiacheng Shen, Masato Hagiwara, Milad Alizadeh, Ellen Gilsenan-McMahon·17 avril 2026

BAGEL est un benchmark conçu pour évaluer les connaissances spécialisées en zoologie des modèles de langage, sans recours à la récupération externe au moment de l'inférence. Construit à partir de sources scientifiques variées (bioRxiv, Xeno-canto, Wikipedia, Global Biotic Interactions), il couvre taxonomie, morphologie, habitat, comportement et distribution géographique. Il permet une analyse fine par domaine source, groupe taxonomique et catégorie de connaissances, révélant les points forts et les défaillances systématiques des modèles dans les applications liées à la biodiversité.

Chaleur 0

Pertinence 55

Nouveauté 62

OUVRIR LA SOURCE ↗

#benchmark #LLM #biodiversité #évaluation #closed-book