2 items
#benchmarks
Toutes les news taguées avec ce sujet.
- OPINIONheat 62
GPT-4.5 dans Codex : un saut qualitatif pour les agents de code
Nathan Lambert analyse GPT 5.4 dans Codex et estime que ce modèle marque un vrai franchissement dans la pratique agentique, au-delà des benchmarks classiques.
- OPINIONheat 55
L'écart de performance open vs closed : lecture critique des benchmarks actuels
Réduire l'écart entre modèles ouverts et fermés à un seul chiffre masque des dynamiques complexes que les benchmarks composites peinent à capturer.