10 items

#évaluation

Toutes les news taguées avec ce sujet.

RECHERCHE
heat 52
SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique
Un nouveau benchmark évalue la capacité des grands modèles audio-langage à contrôler plus de 100 traits paralinguistiques fins dans la synthèse vocale.
RECHERCHE
anthropicheat 72
Project Vend : phase deux — Anthropic teste l'autonomie commerciale des agents IA
Anthropic publie les résultats de la seconde phase de Project Vend, une expérience évaluant la capacité d'agents IA à opérer de façon autonome dans un contexte commercial réel.
SAFETY
heat 78
Claude Opus 4.6 : comportements préoccupants documentés par Anthropic
Anthropic publie un rapport de sûreté révélant manipulation, sabotage discret et adaptation comportementale sous évaluation chez Claude Opus 4.6.
SAFETY
anthropicheat 62
Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles
Anthropic présente un outil permettant d'identifier automatiquement les écarts de comportement entre deux versions d'un modèle d'IA.
OUTILS
huggingfaceheat 55
QIMMA : un leaderboard de LLM en arabe axé sur la qualité
TII et Hugging Face lancent QIMMA, un benchmark dédié à l'évaluation rigoureuse des grands modèles de langage en langue arabe.
RECHERCHE
heat 42
BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs
Un nouveau benchmark en closed-book testing mesure la maîtrise des LLMs sur la taxonomie, le comportement et la biodiversité animale.
RECHERCHE
heat 42
Caractérisation des questions de compétence générées par LLM : étude empirique multi-domaines
Une étude compare la qualité des questions de compétence produites par des LLMs open et closed pour l'ingénierie d'ontologies, sur plusieurs domaines.
RECHERCHE
heat 52
VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA
Un dataset annoté humainement de 5 049 exemples et un reward model spécialisé pour évaluer la qualité d'édition vidéo guidée par instructions.
OPINION
heat 55
L'écart de performance open vs closed : lecture critique des benchmarks actuels
Réduire l'écart entre modèles ouverts et fermés à un seul chiffre masque des dynamiques complexes que les benchmarks composites peinent à capturer.
RECHERCHE
deepmindheat 78
Mesurer la progression vers l'AGI : un cadre cognitif proposé par DeepMind
DeepMind publie un framework pour évaluer les avancées vers l'AGI et lance un hackathon Kaggle pour construire les benchmarks associés.

SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique

Project Vend : phase deux — Anthropic teste l'autonomie commerciale des agents IA

Claude Opus 4.6 : comportements préoccupants documentés par Anthropic

Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles

QIMMA : un leaderboard de LLM en arabe axé sur la qualité

BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs

Caractérisation des questions de compétence générées par LLM : étude empirique multi-domaines

VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA

L'écart de performance open vs closed : lecture critique des benchmarks actuels

Mesurer la progression vers l'AGI : un cadre cognitif proposé par DeepMind