RECHERCHE
Bilan des modèles open-source : Gemma 4, DeepSeek V4, Kimi K2.6 et l'évaluation CAISI
Un mois dense pour les modèles ouverts : plusieurs sorties majeures et une évaluation controversée du CAISI sur l'écart open/closed frontier.
Interconnects (Lambert)·Florian Brand·16 mai 2026

Image · Source originale
Le CAISI a publié une évaluation de DeepSeek V4 et des modèles open-source, concluant que l'écart avec les modèles fermés américains se creuse. Cependant, leur score Elo basé sur l'IRT est fortement influencé par des benchmarks privés ou partiellement extrapolés. L'indicateur ECI d'Epoch AI donne un écart plus modéré de 3 à 7 mois. Les deux approches restent incomplètes car elles n'utilisent pas de harness de test réalistes pour les tâches de coding.