RECHERCHE

SWE-chat : premier dataset massif d'interactions réelles avec des agents de codage IA

6 000 sessions réelles, 63 000 prompts, 355 000 appels d'outils : une étude empirique inédite sur l'usage concret des agents de codage.

arXiv cs.AI · cs.LG · cs.CL·Joachim Baumann, Vishakh Padmakumar, Xiang Li, John Yang·22 avril 2026

SWE-chat est le premier dataset à grande échelle de sessions réelles d'agents de codage IA, collectées auprès de développeurs open-source. L'analyse révèle que seulement 44 % du code généré par les agents survit dans les commits, et que ce code introduit davantage de vulnérabilités de sécurité que le code humain. Les usages sont bimodaux : dans 41 % des sessions, l'agent écrit la quasi-totalité du code ; dans 23 %, l'humain écrit tout lui-même. Les utilisateurs corrigent ou interrompent l'agent dans 44 % des tours.

Chaleur 0

Pertinence 85

Nouveauté 78

OUVRIR LA SOURCE ↗

#agents #coding-agent #dataset #benchmark #sécurité