RECHERCHE
Architectures sous-quadratiques : de xLSTM à Mamba-2, une comparaison de principes
Face aux transformers quadratiques, xLSTM s'impose sur des tâches complexes de code et de séries temporelles, grâce à un meilleur suivi d'état.
arXiv cs.AI · cs.LG · cs.CL·Anamaria-Roberta Hartl, Levente Zólyomi, David Stap, Pieter-Jan Hoedt·10 juin 2026

Image · Source originale
Des chercheurs comparent trois architectures sous-quadratiques — xLSTM, Mamba-2 et Gated DeltaNet — sur des tâches exigeantes : pré-entraînement de modèles de code, distillation depuis de grands LLMs, et fondations pour séries temporelles. xLSTM obtient les meilleures performances globales. Les auteurs attribuent cet avantage à un mécanisme de gating permettant une correction mémoire plus flexible et stable, confirmé sur des tâches synthétiques de généralisation en longueur.