RECHERCHE

Descriptions défectueuses dans la génération de code par LLM : détection et analyse

SpecValidator, un classifieur léger fine-tuné, surpasse GPT-4o-mini et Claude Sonnet pour détecter les descriptions de tâches mal formées soumises aux LLM.

arXiv cs.AI · cs.LG · cs.CL·Amal Akli, Mike Papadakis, Maxime Cordy, Yves Le Traon·27 avril 2026

Image · Source originale

Des chercheurs introduisent SpecValidator, un classifieur compact à fine-tuning efficace en paramètres, conçu pour détecter automatiquement trois types de défauts dans les descriptions de tâches de génération de code : vagueness lexicale, sous-spécification et problèmes syntaxiques. Évalué sur trois benchmarks, il atteint F1 = 0,804 et MCC = 0,745, surpassant nettement GPT-4o-mini et Claude Sonnet. L'analyse révèle que la sous-spécification est le défaut le plus critique et que la robustesse des LLM dépend davantage du type de défaut que de la capacité du modèle.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#code-generation #LLM #fine-tuning #benchmark #qualité-données