RECHERCHE
OmniNFT : diffusion RL multi-modalités pour la génération conjointe audio-vidéo
Un nouveau framework de reinforcement learning appliqué à la diffusion résout les déséquilibres entre modalités pour améliorer la génération audio-vidéo synchronisée.
arXiv cs.AI · cs.LG · cs.CL·Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu·12 mai 2026

Image · Source originale
OmniNFT propose un cadre de diffusion RL en ligne sensible aux modalités pour la génération conjointe audio-vidéo. Il adresse trois obstacles identifiés : l'incohérence des avantages multi-objectifs, le déséquilibre des gradients entre branches vidéo et audio, et l'attribution uniforme du crédit. Les solutions incluent un routage d'avantages par modalité, une chirurgie de gradients par couche et une repondération des pertes par région.