RECHERCHE

Stream-CQSA : éviter les dépassements mémoire dans le calcul de l'attention via un ordonnancement flexible

Un nouveau cadre d'ordonnancement permet d'exécuter une attention exacte sur des séquences de milliards de tokens sur un seul GPU, sans approximation.

arXiv cs.AI · cs.LG · cs.CL·Yiming Bian, Joshua M. Akey·22 avril 2026

Stream-CQSA introduit une décomposition de l'opération d'attention fondée sur la théorie des ensembles quorum cycliques (CQS), permettant de fragmenter le calcul en sous-problèmes indépendants recomposables à l'identique. Ce cadre adaptatif élimine l'hypothèse que les tenseurs query/key/value tiennent entièrement en mémoire GPU, rendant l'attention exacte exécutable sur des séquences de l'ordre du milliard de tokens sur un seul appareil. Aucune approximation ni communication inter-dispositifs n'est requise.

Chaleur 0

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#attention #long-context #LLM #mémoire GPU #efficacité