Toutes les news taguées avec ce sujet.
Une architecture qui mutualise l'index de routage entre couches pour accélérer l'inférence des LLM sur de très longs contextes sans perte de qualité notable.
Une nouvelle méthode de reinforcement learning combine distracteurs hiérarchiques et récompenses basées sur des rubriques pour améliorer le raisonnement multi-sauts des LLM.
DashAttention propose une alternative aux méthodes top-k figées en sélectionnant un nombre variable de blocs KV via la transformation α-entmax, tout en restant entièrement différentiable.
Des chercheurs proposent un mécanisme hybride quantique-classique pour dépasser les limites des transformers et des SSMs sur les longues séquences.
Une méthode sans entraînement qui traite le KV-Cache comme accumulateur d'un fold fonctionnel pour étendre le contexte jusqu'à 128K tokens.