RECHERCHE
RefDecoder : améliorer la génération vidéo par décodage conditionnel
Un décodeur VAE conditionné par une image de référence corrige l'asymétrie architecturale des modèles de diffusion latents pour la génération vidéo.
arXiv cs.AI · cs.LG · cs.CL·Xiang Fan, Yuheng Wang, Bohan Fang, Zhongzheng Ren·14 mai 2026

Image · Source originale
Les modèles de diffusion latents utilisent des réseaux de débruitage fortement conditionnés, mais leurs décodeurs restent généralement inconditionnels, entraînant perte de détails et incohérences visuelles. RefDecoder injecte un signal d'image de référence haute fidélité dans chaque étape de suréchantillonnage du décodeur via une attention de référence. La méthode apporte jusqu'à +2,1 dB de PSNR sur plusieurs benchmarks et s'intègre sans fine-tuning dans les pipelines vidéo existants.