Toutes les news taguées avec ce sujet.
Des chercheurs proposent Q-target, un framework qui réinterprète le SFT comme un problème de conception de distribution de probabilités au niveau du token.
Utiliser le même optimiseur en pré-entraînement et en SFT améliore le compromis apprentissage/oubli, surpassant même LoRA selon cette étude.