RECHERCHE

OmniNFT : diffusion RL multi-modalités pour la génération conjointe audio-vidéo

Un nouveau framework de reinforcement learning appliqué à la diffusion résout les déséquilibres entre modalités pour améliorer la génération audio-vidéo synchronisée.

arXiv cs.AI · cs.LG · cs.CL·Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu·12 mai 2026

Image · Source originale

OmniNFT propose un cadre de diffusion RL en ligne sensible aux modalités pour la génération conjointe audio-vidéo. Il adresse trois obstacles identifiés : l'incohérence des avantages multi-objectifs, le déséquilibre des gradients entre branches vidéo et audio, et l'attribution uniforme du crédit. Les solutions incluent un routage d'avantages par modalité, une chirurgie de gradients par couche et une repondération des pertes par région.

Chaleur 0

Pertinence 62

Nouveauté 75

OUVRIR LA SOURCE ↗

#diffusion #reinforcement-learning #génération audio-vidéo #multi-modal #synchronisation