RECHERCHE
Têtes d'attention positionnelles vs symboliques : dynamiques d'apprentissage, géométrie RoPE et généralisation en longueur
Une étude contrôlée révèle comment les têtes d'attention se spécialisent en mécanismes positionnels ou symboliques selon la nature des tâches de raisonnement.
arXiv cs.AI · cs.LG · cs.CL·Felipe Urrutia, Juan José Alegría, Cinthia Sanchez Macias, Jorge Salas·29 mai 2026

Image · Source originale
Des chercheurs ont entraîné un Transformer décodeur (GPT-J) sur deux tâches de raisonnement multi-hop structurellement équivalentes — l'une numérique, l'autre alphabétique — pour analyser la dynamique des têtes d'attention. Ils montrent que l'apprentissage réussi s'accompagne de l'émergence de têtes « pures », soit positionnelles, soit symboliques. Une construction théorétique explique comment l'attention RoPE réalise ces fonctions via des opérations géométriquement interprétables, et une nouvelle notion de discordance quantifie la robustesse différentielle de ces mécanismes face à des séquences plus longues.