RECHERCHE
EntityBench : un benchmark pour la génération vidéo multi-plans avec cohérence des entités
Un nouveau benchmark de 140 épisodes évalue la cohérence des personnages, objets et lieux sur de longues séquences vidéo multi-plans.
arXiv cs.AI · cs.LG · cs.CL·Ruozhen He, Meng Wei, Ziyan Yang, Vicente Ordonez·14 mai 2026

Image · Source originale
EntityBench propose 2 491 plans issus de médias narratifs réels, organisés en niveaux de difficulté allant jusqu'à 50 plans et 13 personnages récurrents. Le benchmark évalue trois dimensions : qualité intra-plan, alignement aux prompts et cohérence inter-plans. Le système EntityMem, basé sur une mémoire persistante de références visuelles par entité, obtient la meilleure fidélité des personnages (Cohen's d = +2,33).