RECHERCHE

Drifting Preference Optimization : alignement des générateurs d'images en une seule passe

DrPO propose une méthode d'alignement par préférence pour les générateurs text-to-image déterministes en un seul forward pass, sans rétropropagation de la reward.

arXiv cs.AI · cs.LG · cs.CL·Zhou Jiang, Yandong Wen, Zhen Liu·1 juin 2026

Image · Source originale

DrPO (Drifting Preference Optimization) est une méthode de fine-tuning par préférence en ligne pour les générateurs d'images one-step comme SD-Turbo et SDXL-Turbo. Pour chaque prompt, elle échantillonne des candidats, les classe via une reward cible, puis synthétise une direction de mise à jour dans l'espace des features, sans nécessiter de gradients différentiables. Résultat : une réduction de 3,51× du coût de calcul HPSv3 tout en améliorant l'alignement sur les benchmarks.

Chaleur 1

Pertinence 68

Nouveauté 74

OUVRIR LA SOURCE ↗

#preference-optimization #text-to-image #fine-tuning #alignement #diffusion