RECHERCHE
Filtrage par provenance et récupération adaptative dans la curation de données synthétiques post-entraînement
Une étude contrôlée montre que l'ancrage des signaux de filtrage dans la source améliore la fidélité, et que les échantillons rejetés peuvent être récupérés systématiquement.
arXiv cs.AI · cs.LG · cs.CL·Soham Bhattacharjee, Karun Sharma, Vinay Kumar Sankarapu, Pratinav Seth·9 juin 2026

Image · Source originale
Les pipelines de post-entraînement synthétique filtrent habituellement les échantillons via des reward models ou des juges LLM, sans vérifier si le signal de filtrage est ancré dans la source d'origine ni si les rejets peuvent être récupérés. Cette étude montre que la provenance exacte améliore le filtrage de fidélité pour les juges les plus performants, que les gates d'hallucination et de reward rejettent des populations disjointes (rendant les deux nécessaires), et qu'un pipeline de récupération adaptative surpasse le rééchantillonnage naïf. La qualité du fine-tuning reste principalement déterminée par l'échelle du générateur.