RECHERCHE

Bilan des modèles open-source : Gemma 4, DeepSeek V4, Kimi K2.6 et l'évaluation CAISI

Un mois dense pour les modèles ouverts : plusieurs sorties majeures et une évaluation controversée du CAISI sur l'écart open/closed frontier.

Interconnects (Lambert)·Florian Brand·16 mai 2026

Image · Source originale

Le CAISI a publié une évaluation de DeepSeek V4 et des modèles open-source, concluant que l'écart avec les modèles fermés américains se creuse. Cependant, leur score Elo basé sur l'IRT est fortement influencé par des benchmarks privés ou partiellement extrapolés. L'indicateur ECI d'Epoch AI donne un écart plus modéré de 3 à 7 mois. Les deux approches restent incomplètes car elles n'utilisent pas de harness de test réalistes pour les tâches de coding.

Chaleur 0

Pertinence 82

Nouveauté 55

OUVRIR LA SOURCE ↗

#open-weights #benchmark #LLM #deepseek #évaluation