Toutes les news taguées avec ce sujet.
ExpRL remplace le fine-tuning supervisé par un RL dense guidé par des rubriques automatiques, surpassant GRPO et SFT sur des tâches de raisonnement mathématique difficiles.