vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+256 / 7J
Fellow
La veille de l'intelligence artificielle

RECHERCHE

Stream-CQSA : éviter les dépassements mémoire dans le calcul de l'attention via un ordonnancement flexible

Un nouveau cadre d'ordonnancement permet d'exécuter une attention exacte sur des séquences de milliards de tokens sur un seul GPU, sans approximation.

arXiv cs.AI · cs.LG · cs.CL·Yiming Bian, Joshua M. Akey·22 avril 2026
Stream-CQSA introduit une décomposition de l'opération d'attention fondée sur la théorie des ensembles quorum cycliques (CQS), permettant de fragmenter le calcul en sous-problèmes indépendants recomposables à l'identique. Ce cadre adaptatif élimine l'hypothèse que les tenseurs query/key/value tiennent entièrement en mémoire GPU, rendant l'attention exacte exécutable sur des séquences de l'ordre du milliard de tokens sur un seul appareil. Aucune approximation ni communication inter-dispositifs n'est requise.
Chaleur 34
Pertinence 72
Nouveauté 78
OUVRIR LA SOURCE ↗
#attention#long-context#LLM#mémoire GPU#efficacité