RECHERCHE
AdaCodec : un code visuel prédictif pour les MLLM vidéo
AdaCodec réduit drastiquement les tokens visuels vidéo en ne transmettant des frames complètes que lorsque la scène change vraiment.
arXiv cs.AI · cs.LG · cs.CL·Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si·1 juin 2026

Image · Source originale
AdaCodec exploite la redondance temporelle des vidéos en n'allouant des tokens visuels complets qu'aux frames de référence dont le coût prédictif est élevé. Les changements inter-frames sont encodés en P-tokens compacts représentant mouvement et résidus. Sur 11 benchmarks, AdaCodec surpasse Qwen3-VL-8B à budget équivalent, et avec 32k tokens (contre 224k pour la baseline), il maintient de meilleures performances sur les vidéos longues tout en réduisant le time-to-first-token de 9,26 s à 1,62 s.