Toutes les news taguées avec ce sujet.
Cognition publie FrontierCode, un nouveau benchmark conçu pour tester les capacités de codage des modèles frontier sur des tâches complexes et réalistes.
Face aux limites de SWE-bench, l'équipe de Latent Space lance FrontierCode, un benchmark centré sur la qualité et la maintenabilité du code.