vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+253 / 7J
Fellow
La veille de l'intelligence artificielle

RECHERCHE

BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs

Un nouveau benchmark en closed-book testing mesure la maîtrise des LLMs sur la taxonomie, le comportement et la biodiversité animale.

arXiv cs.AI · cs.LG · cs.CL·Jiacheng Shen, Masato Hagiwara, Milad Alizadeh, Ellen Gilsenan-McMahon·17 avril 2026
BAGEL est un benchmark conçu pour évaluer les connaissances spécialisées en zoologie des modèles de langage, sans recours à la récupération externe au moment de l'inférence. Construit à partir de sources scientifiques variées (bioRxiv, Xeno-canto, Wikipedia, Global Biotic Interactions), il couvre taxonomie, morphologie, habitat, comportement et distribution géographique. Il permet une analyse fine par domaine source, groupe taxonomique et catégorie de connaissances, révélant les points forts et les défaillances systématiques des modèles dans les applications liées à la biodiversité.
Chaleur 2
Pertinence 55
Nouveauté 62
OUVRIR LA SOURCE ↗
#benchmark#LLM#biodiversité#évaluation#closed-book