RECHERCHE

Parallel-SFT : améliorer le transfert zero-shot entre langages de programmation pour le RL de code

Une nouvelle stratégie SFT intègre des programmes fonctionnellement équivalents en plusieurs langages pour améliorer la généralisation des LLMs vers des PLs peu dotés.

arXiv cs.AI · cs.LG · cs.CL·Zhaofeng Wu, Shiqi Wang, Boya Peng, Anuj Goyal·22 avril 2026

Parallel-SFT est une méthode de fine-tuning supervisé qui intègre des « programmes parallèles » — implémentations fonctionnellement équivalentes dans plusieurs langages de programmation — dans le mélange de données d'entraînement. L'objectif est de créer une initialisation SFT plus généralisable avant le RL, afin que les gains obtenus dans un langage source se transfèrent mieux aux langages cibles non vus. L'analyse des représentations internes montre que Parallel-SFT produit un espace latent centré sur la fonctionnalité, où les programmes équivalents entre langages sont plus proches.

Chaleur 0

Pertinence 62

Nouveauté 68

OUVRIR LA SOURCE ↗

#code generation #reinforcement-learning #fine-tuning #transfert zero-shot #LLM