RECHERCHE
Flow-OPD : distillation on-policy pour les modèles Flow Matching
Un framework post-entraînement unifié combine distillation on-policy et Flow Matching pour aligner les modèles texte-image sans effet seesaw.
arXiv cs.AI · cs.LG · cs.CL·Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao·8 mai 2026

Image · Source originale
Flow-OPD est le premier framework intégrant la distillation on-policy dans les modèles Flow Matching texte-image. Il repose sur une stratégie en deux étapes : fine-tuning GRPO par récompense unique pour des enseignants spécialisés, puis consolidation dans un modèle étudiant via échantillonnage on-policy et supervision dense par trajectoire. Appliqué à Stable Diffusion 3.5 Medium, le score GenEval passe de 63 à 92 et la précision OCR de 59 à 94.