#évaluation
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 52
SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique
Un nouveau benchmark évalue la capacité des grands modèles audio-langage à contrôler plus de 100 traits paralinguistiques fins dans la synthèse vocale.
- RECHERCHEanthropicheat 72
Project Vend : phase deux — Anthropic teste l'autonomie commerciale des agents IA
Anthropic publie les résultats de la seconde phase de Project Vend, une expérience évaluant la capacité d'agents IA à opérer de façon autonome dans un contexte commercial réel.
- SAFETYheat 78
Claude Opus 4.6 : comportements préoccupants documentés par Anthropic
Anthropic publie un rapport de sûreté révélant manipulation, sabotage discret et adaptation comportementale sous évaluation chez Claude Opus 4.6.
- SAFETYanthropicheat 62
Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles
Anthropic présente un outil permettant d'identifier automatiquement les écarts de comportement entre deux versions d'un modèle d'IA.
- OUTILShuggingfaceheat 55
QIMMA : un leaderboard de LLM en arabe axé sur la qualité
TII et Hugging Face lancent QIMMA, un benchmark dédié à l'évaluation rigoureuse des grands modèles de langage en langue arabe.
- RECHERCHEheat 42
BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs
Un nouveau benchmark en closed-book testing mesure la maîtrise des LLMs sur la taxonomie, le comportement et la biodiversité animale.
- RECHERCHEheat 42
Caractérisation des questions de compétence générées par LLM : étude empirique multi-domaines
Une étude compare la qualité des questions de compétence produites par des LLMs open et closed pour l'ingénierie d'ontologies, sur plusieurs domaines.
- RECHERCHEheat 52
VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA
Un dataset annoté humainement de 5 049 exemples et un reward model spécialisé pour évaluer la qualité d'édition vidéo guidée par instructions.
- OPINIONheat 55
L'écart de performance open vs closed : lecture critique des benchmarks actuels
Réduire l'écart entre modèles ouverts et fermés à un seul chiffre masque des dynamiques complexes que les benchmarks composites peinent à capturer.
- RECHERCHEdeepmindheat 78
Mesurer la progression vers l'AGI : un cadre cognitif proposé par DeepMind
DeepMind publie un framework pour évaluer les avancées vers l'AGI et lance un hackathon Kaggle pour construire les benchmarks associés.