1 item
#MORL
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 52
ParetoSlider : contrôle continu des récompenses dans les modèles de diffusion par post-training
Un framework MORL permet à un seul modèle de diffusion de naviguer sur le front de Pareto à l'inférence, sans réentraînement.