RECHERCHE

ParetoSlider : contrôle continu des récompenses dans les modèles de diffusion par post-training

Un framework MORL permet à un seul modèle de diffusion de naviguer sur le front de Pareto à l'inférence, sans réentraînement.

arXiv cs.AI · cs.LG · cs.CL·Shelly Golan, Michael Finkelson, Ariel Bereslavsky, Yotam Nitzan·22 avril 2026

ParetoSlider propose un cadre de reinforcement learning multi-objectif (MORL) pour les modèles de diffusion, évitant la scalarisation fixe des récompenses au moment de l'entraînement. Le modèle est conditionné par des poids de préférence variables, lui permettant de couvrir l'ensemble du front de Pareto et d'offrir un contrôle fin à l'inférence. Évalué sur SD3.5, FluxKontext et LTX-2, il égale ou surpasse des baselines entraînées séparément pour chaque compromis.

Chaleur 0

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#diffusion #MORL #reinforcement-learning #post-training #multi-objectif