Toutes les news taguées avec ce sujet.
Un nouveau framework standardise le reporting des évaluations IA en unifiant métadonnées de benchmarks, résultats et modèles dans un enregistrement unique interprétable.
Une approche par bootstrapping multi-niveaux pour mieux comprendre comment la variance des annotateurs humains affecte la fiabilité des évaluations de LLMs.