RECHERCHE

AdaCodec : un code visuel prédictif pour les MLLM vidéo

AdaCodec réduit drastiquement les tokens visuels vidéo en ne transmettant des frames complètes que lorsque la scène change vraiment.

arXiv cs.AI · cs.LG · cs.CL·Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si·1 juin 2026

Image · Source originale

AdaCodec exploite la redondance temporelle des vidéos en n'allouant des tokens visuels complets qu'aux frames de référence dont le coût prédictif est élevé. Les changements inter-frames sont encodés en P-tokens compacts représentant mouvement et résidus. Sur 11 benchmarks, AdaCodec surpasse Qwen3-VL-8B à budget équivalent, et avec 32k tokens (contre 224k pour la baseline), il maintient de meilleures performances sur les vidéos longues tout en réduisant le time-to-first-token de 9,26 s à 1,62 s.

Chaleur 1

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#video-llm #tokens visuels #efficacité #multimodal #compression