RECHERCHE
Drifting Preference Optimization : alignement des générateurs d'images en une seule passe
DrPO propose une méthode d'alignement par préférence pour les générateurs text-to-image déterministes en un seul forward pass, sans rétropropagation de la reward.
arXiv cs.AI · cs.LG · cs.CL·Zhou Jiang, Yandong Wen, Zhen Liu·1 juin 2026

Image · Source originale
DrPO (Drifting Preference Optimization) est une méthode de fine-tuning par préférence en ligne pour les générateurs d'images one-step comme SD-Turbo et SDXL-Turbo. Pour chaque prompt, elle échantillonne des candidats, les classe via une reward cible, puis synthétise une direction de mise à jour dans l'espace des features, sans nécessiter de gradients différentiables. Résultat : une réduction de 3,51× du coût de calcul HPSv3 tout en améliorant l'alignement sur les benchmarks.