SAFETY
Expliquer l'attention par synthèse de programmes
Des chercheurs remplacent les têtes d'attention de transformers par des programmes Python lisibles, reproduisant les patterns à plus de 75 % de similarité.
arXiv cs.AI · cs.LG · cs.CL·Amiri Hayes, Belinda Li, Jacob Andreas·17 juin 2026

Image · Source originale
Des chercheurs du MIT proposent une méthode pour approximer le comportement des têtes d'attention de transformers (GPT-2, TinyLlama-1.1B, Llama-3B) par des programmes Python exécutables, générés via un LLM pré-entraîné. Un ensemble de moins de 1 000 programmes suffit à reproduire les patterns d'attention avec un IoU moyen supérieur à 75 % sur TinyStories. Remplacer 25 % des têtes par ces substituts programmatiques n'entraîne qu'une hausse de perplexité de 16 % en moyenne, sans dégradation significative sur des benchmarks de question-réponse.