RECHERCHE
Stream-CQSA : éviter les dépassements mémoire dans le calcul de l'attention via un ordonnancement flexible
Un nouveau cadre d'ordonnancement permet d'exécuter une attention exacte sur des séquences de milliards de tokens sur un seul GPU, sans approximation.
arXiv cs.AI · cs.LG · cs.CL·Yiming Bian, Joshua M. Akey·22 avril 2026

Stream-CQSA introduit une décomposition de l'opération d'attention fondée sur la théorie des ensembles quorum cycliques (CQS), permettant de fragmenter le calcul en sous-problèmes indépendants recomposables à l'identique. Ce cadre adaptatif élimine l'hypothèse que les tenseurs query/key/value tiennent entièrement en mémoire GPU, rendant l'attention exacte exécutable sur des séquences de l'ordre du milliard de tokens sur un seul appareil. Aucune approximation ni communication inter-dispositifs n'est requise.
Chaleur 34
Pertinence 72
Nouveauté 78