RECHERCHE
À quelle vitesse un modèle doit-il s'engager vers la supervision ? Entraînement sur le continuum Tsallis
Un nouveau cadre théorique basé sur la perte de Tsallis résout le problème du démarrage à froid dans l'entraînement par RLVR des modèles de raisonnement.
arXiv cs.AI · cs.LG · cs.CL·Chu-Cheng Lin, Eugene Ie·28 avril 2026

Image · Source originale
L'article propose une famille de fonctions de perte J_Q interpolant entre RLVR pur (exploitation) et la vraisemblance marginale logarithmique (estimation de densité) via le q-logarithme de Tsallis. Cette approche résout le phénomène de blocage au démarrage à froid lorsque la probabilité initiale de succès est faible, en réduisant le temps d'échappement de O(1/p₀) à O(log(1/p₀)). Deux estimateurs Monte Carlo sont dérivés — GARL et PAFT — et des expériences sur FinQA, HotPotQA et MuSiQue confirment que GARL (q=0,75) surpasse GRPO qui échoue complètement.