RECHERCHE

GraphDPO : optimiser un graphe de préférences plutôt que des paires

Une généralisation du Direct Preference Optimization exploitant la structure complète des graphes de préférences pour mieux aligner les LLM.

arXiv cs.AI · cs.LG · cs.CL·Ning Liu, Chuanneng Sun, Kristina Klinkner, Shervin Malmasi·8 mai 2026

Image · Source originale

GraphDPO étend le DPO classique en modélisant les préférences comme un graphe acyclique orienté plutôt que de simples paires. Cette approche encode les relations de dominance comme des arêtes et optimise un objectif inspiré du modèle Plackett-Luce, garantissant la transitivité et évitant les gradients parasites. La complexité reste linéaire par prompt grâce à une agrégation log-sum-exp, et un ancrage optionnel sur des solutions vérifiées stabilise l'entraînement.

Chaleur 0

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#DPO #RLHF #alignement #preference-learning #LLM