RECHERCHE
SCOPE : décomposition structurée et orchestration de compétences pour la génération d'images complexes
Un cadre d'orchestration guidé par spécifications qui maintient des engagements sémantiques tout au long du cycle de génération d'images.
arXiv cs.AI · cs.LG · cs.CL·Tianfei Ren, Zhipeng Yan, Yiming Zhao, Zhen Fang·8 mai 2026

Image · Source originale
Les modèles texte-image peinent à respecter des intentions visuelles complexes impliquant de multiples contraintes simultanées. SCOPE formalise ce problème sous le concept de « Conceptual Rift » et propose un cadre d'orchestration conditionnelle de compétences (récupération, raisonnement, réparation) autour d'engagements sémantiques structurés. Un benchmark humain, Gen-Arena, et une métrique stricte (EGIP) sont introduits pour évaluer la réalisation fidèle des intentions. SCOPE atteint 0,60 EGIP sur Gen-Arena, surpassant tous les baselines évalués.