RECHERCHE
Select to Think : améliorer le raisonnement des SLMs par sélection locale
Une méthode de distillation transforme le rôle du LLM en sélectionneur parmi les propositions du SLM, éliminant la dépendance aux appels externes à l'inférence.
arXiv cs.AI · cs.LG · cs.CL·Wenxuan Ye, Yangyang Zhang, Xueli An, Georg Carle·29 avril 2026

Image · Source originale
SELECT TO THINK (S2T) exploite le concept de « suffisance locale » : le token préféré d'un LLM figure presque toujours dans le top-K du SLM, même s'il n'est pas en première position. La méthode distille la logique de sélection dans le SLM (S2T-LOCAL), lui permettant de re-classer ses propres candidats sans appel LLM à l'inférence. Un SLM de 1,5 milliard de paramètres capture le choix d'un modèle 32B avec 95 % de taux de réussite dans le top-8, et S2T-LOCAL améliore le greedy decoding de 24,1 % en moyenne.