RECHERCHE
CRAFT : sélection adaptative de données d'entraînement par régression clusterisée
Une méthode de filtrage rapide et efficace pour sélectionner les meilleures données de fine-tuning parmi des dizaines de millions d'exemples.
arXiv cs.AI · cs.LG · cs.CL·Parthasarathi Panda, Asheswari Swain, Subhrakanta Panda·24 avril 2026

Image · Source originale
CRAFT propose une approche en deux étapes pour sélectionner un sous-ensemble optimal de données d'entraînement pour le fine-tuning de modèles seq2seq. La méthode combine un clustering k-means sur la distribution source et une sélection par minimisation de distance conditionnelle côté cible. Évaluée sur la traduction anglais-hindi avec 33 millions de paires NLLB et mBART via LoRA, CRAFT atteint 43,34 BLEU, surpassant TSDS de 2,13 points tout en étant 40 fois plus rapide. Avec TF-IDF, le pipeline complet s'exécute en moins d'une minute sur CPU.