RECHERCHE

Un cadre unifié pour le fine-tuning supervisé par conception de distribution cible

Des chercheurs proposent Q-target, un framework qui réinterprète le SFT comme un problème de conception de distribution de probabilités au niveau du token.

arXiv cs.AI · cs.LG · cs.CL·Tong Xie, Yuanhao Ban, Yunqi Hong, Sohyun An·9 juin 2026

Image · Source originale

Le fine-tuning supervisé (SFT) standard optimise la vraisemblance de chaque token d'une trajectoire de démonstration, ce qui peut s'avérer sous-optimal face à des données bruitées ou incohérentes avec les connaissances du modèle pré-entraîné. Les auteurs proposent le framework Q-target, qui décompose la supervision SFT en deux choix explicites : le poids accordé au token observé et la répartition de la masse de probabilité résiduelle. Cette approche unifie de nombreuses variantes SFT existantes et la méthode Target-SFT qui en découle surpasse les baselines sur dix configurations de raisonnement.

Chaleur 24

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#fine-tuning #SFT #LLM #raisonnement #optimisation