RECHERCHE
Un cadre unifié pour le fine-tuning supervisé par conception de distribution cible
Des chercheurs proposent Q-target, un framework qui réinterprète le SFT comme un problème de conception de distribution de probabilités au niveau du token.
arXiv cs.AI · cs.LG · cs.CL·Tong Xie, Yuanhao Ban, Yunqi Hong, Sohyun An·9 juin 2026

Image · Source originale
Le fine-tuning supervisé (SFT) standard optimise la vraisemblance de chaque token d'une trajectoire de démonstration, ce qui peut s'avérer sous-optimal face à des données bruitées ou incohérentes avec les connaissances du modèle pré-entraîné. Les auteurs proposent le framework Q-target, qui décompose la supervision SFT en deux choix explicites : le poids accordé au token observé et la répartition de la masse de probabilité résiduelle. Cette approche unifie de nombreuses variantes SFT existantes et la méthode Target-SFT qui en découle surpasse les baselines sur dix configurations de raisonnement.