RECHERCHE

CRAFT : sélection adaptative de données d'entraînement par régression clusterisée

Une méthode de filtrage rapide et efficace pour sélectionner les meilleures données de fine-tuning parmi des dizaines de millions d'exemples.

arXiv cs.AI · cs.LG · cs.CL·Parthasarathi Panda, Asheswari Swain, Subhrakanta Panda·24 avril 2026

Image · Source originale

CRAFT propose une approche en deux étapes pour sélectionner un sous-ensemble optimal de données d'entraînement pour le fine-tuning de modèles seq2seq. La méthode combine un clustering k-means sur la distribution source et une sélection par minimisation de distance conditionnelle côté cible. Évaluée sur la traduction anglais-hindi avec 33 millions de paires NLLB et mBART via LoRA, CRAFT atteint 43,34 BLEU, surpassant TSDS de 2,13 points tout en étant 40 fois plus rapide. Avec TF-IDF, le pipeline complet s'exécute en moins d'une minute sur CPU.

Chaleur 0

Pertinence 68

Nouveauté 62

OUVRIR LA SOURCE ↗

#fine-tuning #data-selection #traduction #clustering #seq2seq