RECHERCHE

Flow-OPD : distillation on-policy pour les modèles Flow Matching

Un framework post-entraînement unifié combine distillation on-policy et Flow Matching pour aligner les modèles texte-image sans effet seesaw.

arXiv cs.AI · cs.LG · cs.CL·Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao·8 mai 2026

Image · Source originale

Flow-OPD est le premier framework intégrant la distillation on-policy dans les modèles Flow Matching texte-image. Il repose sur une stratégie en deux étapes : fine-tuning GRPO par récompense unique pour des enseignants spécialisés, puis consolidation dans un modèle étudiant via échantillonnage on-policy et supervision dense par trajectoire. Appliqué à Stable Diffusion 3.5 Medium, le score GenEval passe de 63 à 92 et la précision OCR de 59 à 94.

Chaleur 0

Pertinence 72

Nouveauté 80

OUVRIR LA SOURCE ↗

#flow-matching #distillation #text-to-image #alignement #GRPO