RECHERCHE
VECA : une attention linéaire élastique pour les Vision Transformers à haute résolution
Une nouvelle architecture ViT élimine l'attention quadratique patch-à-patch grâce à des « core tokens » appris, permettant une complexité linéaire O(N).
arXiv cs.AI · cs.LG · cs.CL·Alan Z. Song, Yinjie Chen, Mu Nan, Rui Zhang·12 mai 2026

Image · Source originale
VECA (Visual Elastic Core Attention) propose une architecture Vision Transformer où les tokens d'image n'interagissent jamais directement entre eux, mais communiquent exclusivement via un petit ensemble de « core tokens » appris. Cette conception réduit la complexité de l'attention de O(N²) à O(N), rendant le modèle indépendant de la résolution. Un entraînement imbriqué sur l'axe des cores permet d'ajuster dynamiquement le ratio calcul/précision à l'inférence.