Toutes les news taguées avec ce sujet.
Un article technique de vulgarisation qui décortique les mécanismes internes des grands modèles de langage, de la tokenisation à l'inférence.
Une étude remet en question l'architecture QKV classique des transformers et explore si les trois projections sont toutes nécessaires.
Première application de la politique AlignAtt à un LLM décodeur-only pour la traduction simultanée de la parole, sans attention croisée encodeur-décodeur.
Une étude contrôlée révèle comment les têtes d'attention se spécialisent en mécanismes positionnels ou symboliques selon la nature des tâches de raisonnement.
Une nouvelle formulation de l'attention remplace les affinités softmax par des opérateurs linéaires structurés pour mieux capturer la structure fonctionnelle globale.
DashAttention propose une alternative aux méthodes top-k figées en sélectionnant un nombre variable de blocs KV via la transformation α-entmax, tout en restant entièrement différentiable.
Une nouvelle architecture ViT élimine l'attention quadratique patch-à-patch grâce à des « core tokens » appris, permettant une complexité linéaire O(N).
Une analyse mathématique rigoureuse montre comment les tokens se concentrent rapidement dans les Transformers profonds à l'inférence, via des outils de systèmes multi-particules.
Une étude théorique montre comment les mécanismes d'attention permettent aux Transformers de réaliser des features non linéaires pour l'ICL.