RECHERCHE
L'RL peut-il enseigner le raisonnement long-horizon aux LLM ? L'expressivité est la clé
Une étude révèle que le coût d'entraînement par RL suit une loi de puissance avec la profondeur du raisonnement, et que l'expressivité logique est un levier critique.
arXiv cs.AI · cs.LG · cs.CL·Tianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei·7 mai 2026

Image · Source originale
Des chercheurs introduisent ScaleLogic, un framework de raisonnement logique synthétique permettant de contrôler indépendamment la profondeur de preuve et l'expressivité logique. Ils montrent que le coût d'entraînement RL suit une loi de puissance par rapport à la profondeur (T ∝ D^γ, R²>0,99), l'exposant γ variant de 1,04 à 2,60 selon l'expressivité. Sur des benchmarks aval, les configurations plus expressives apportent jusqu'à +10,66 points de gain et un transfert plus efficace en calcul.