RECHERCHE
Le rôle de l'alignement du feedback dans la self-distillation
Une étude montre que des critiques alignées pas-à-pas sur le raisonnement du modèle surpassent les méthodes classiques de self-distillation de plus de 16 points.
arXiv cs.AI · cs.LG · cs.CL·Semih Kara, Oğuzhan Ersoy·9 juin 2026

Image · Source originale
Des chercheurs étudient la conception du contexte dans la self-distillation, où un modèle apprend à reproduire ses performances obtenues avec un contexte enrichi, même en son absence. En comparant trois types de feedback — récompense binaire (GRPO), solution de référence, et critique alignée sur la trace de raisonnement —, ils montrent que la critique pas-à-pas surpasse GRPO de 16,11 points et la solution de référence de 5,27 points. L'analyse par token révèle que ce feedback ciblé ne modifie que les étapes erronées, préservant les raisonnements corrects.