OPINION

L'écart de performance open vs closed : lecture critique des benchmarks actuels

Réduire l'écart entre modèles ouverts et fermés à un seul chiffre masque des dynamiques complexes que les benchmarks composites peinent à capturer.

Interconnects (Lambert)·Nathan Lambert·20 avril 2026

Nathan Lambert décortique le fossé de performance entre modèles open-weights et propriétaires, en montrant que les indices composites comme l'Artificial Analysis Intelligence Index simplifient à l'excès une réalité nuancée. Il pointe l'évolution des benchmarks dans le temps, leur corrélation décroissante avec les usages réels, et l'exemple de Gemini 3 dont les scores élevés contrastent avec une adoption limitée sur les cas d'usage agents. Les benchmarks agentiques progressent, mais ne font plus consensus comme proxy de la performance terrain.

Chaleur 0

Pertinence 78

Nouveauté 42

OUVRIR LA SOURCE ↗

#benchmarks #open-weights #LLM #agents #évaluation