RECHERCHE
AlphaGRPO : raisonnement et auto-correction dans les modèles multimodaux unifiés
Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.
arXiv cs.AI · cs.LG · cs.CL·Runhui Huang, Jie Wu, Rui Yang, Zhe Liu·12 mai 2026

Image · Source originale
AlphaGRPO intègre l'optimisation GRPO aux modèles multimodaux unifiés (UMM) afin d'améliorer la génération d'images pilotée par le raisonnement et l'autocorrection des sorties. Le framework introduit DVReward, une récompense vérifiable décompositionnelle qui délègue à un LLM la décomposition des requêtes en questions atomiques évaluées par un MLLM. Les résultats sur GenEval, TIIF-Bench, DPG-Bench et WISE montrent des gains robustes, y compris sur l'édition d'images sans entraînement spécifique.