RECHERCHE

AlphaGRPO : raisonnement et auto-correction dans les modèles multimodaux unifiés

Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.

arXiv cs.AI · cs.LG · cs.CL·Runhui Huang, Jie Wu, Rui Yang, Zhe Liu·12 mai 2026

Image · Source originale

AlphaGRPO intègre l'optimisation GRPO aux modèles multimodaux unifiés (UMM) afin d'améliorer la génération d'images pilotée par le raisonnement et l'autocorrection des sorties. Le framework introduit DVReward, une récompense vérifiable décompositionnelle qui délègue à un LLM la décomposition des requêtes en questions atomiques évaluées par un MLLM. Les résultats sur GenEval, TIIF-Bench, DPG-Bench et WISE montrent des gains robustes, y compris sur l'édition d'images sans entraînement spécifique.

Chaleur 0

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#GRPO #multimodal #text-to-image #reinforcement-learning #reward-model