RECHERCHE
KVEraser : effacement localisé du KV cache sans recalcul complet
Une méthode d'édition apprise du KV cache permet de supprimer des spans de contexte sans recomputer les tokens suivants, avec une latence quasi inchangée.
arXiv cs.AI · cs.LG · cs.CL·Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang·15 juin 2026

Image · Source originale
KVEraser propose une approche d'édition du KV cache pour effacer localement des spans de contexte déjà traités dans des LLM à longues fenêtres, sans recomputer l'ensemble des tokens suivants. La méthode remplace uniquement les états KV du span supprimé par des états de pilotage appris, puis réutilise le cache restant. Un pipeline d'entraînement en deux étapes (pré-entraînement générique + fine-tuning spécifique) assure la transférabilité. Sur des contextes de 1K à 32K tokens, KVEraser atteint des performances proches du recalcul exact avec seulement +24 % de latence, contre ×17,6 pour la recomputation complète.