RECHERCHE
Descriptions défectueuses dans la génération de code par LLM : détection et analyse
SpecValidator, un classifieur léger fine-tuné, surpasse GPT-4o-mini et Claude Sonnet pour détecter les descriptions de tâches mal formées soumises aux LLM.
arXiv cs.AI · cs.LG · cs.CL·Amal Akli, Mike Papadakis, Maxime Cordy, Yves Le Traon·27 avril 2026

Image · Source originale
Des chercheurs introduisent SpecValidator, un classifieur compact à fine-tuning efficace en paramètres, conçu pour détecter automatiquement trois types de défauts dans les descriptions de tâches de génération de code : vagueness lexicale, sous-spécification et problèmes syntaxiques. Évalué sur trois benchmarks, il atteint F1 = 0,804 et MCC = 0,745, surpassant nettement GPT-4o-mini et Claude Sonnet. L'analyse révèle que la sous-spécification est le défaut le plus critique et que la robustesse des LLM dépend davantage du type de défaut que de la capacité du modèle.