RECHERCHE

Execution-State Capsules : checkpoint et restauration d'état pour les agents IA embarqués à faible latence

Une nouvelle approche dépasse le simple cache KV pour capturer l'état d'exécution complet des LLM sur appareils, avec des gains de vitesse jusqu'à 27x.

arXiv cs.AI · cs.LG · cs.CL·Liang Su·18 juin 2026

Image · Source originale

Les systèmes de serving LLM classiques ne mettent en cache que les fragments KV, insuffisants pour les agents interactifs, systèmes vocaux et robots nécessitant branchements et reprises fréquents. FlashRT introduit des « capsules d'état d'exécution » qui capturent l'intégralité de l'état restaurable (KV, état récurrent, convolution, métadonnées) via un mécanisme lié au graphe d'exécution. Sur RTX 5090, la restauration est sub-milliseconde et le speedup TTFT atteint 27x à 16k tokens contre un prefill froid.

Chaleur 19

Pertinence 68

Nouveauté 78

OUVRIR LA SOURCE ↗

#LLM serving #on-device AI #KV cache #faible latence #checkpoint