samedi 20 juin 2026Connexion →

35 SOURCES ACTIVES+352 / 7J

La veille de l'intelligence artificielle

Rechercher · papers, agents, LeCun…⌘K ALERTES29

À la une Rechercher Topics Entités Modèles Live Alertes Réglages

Sauvegardés · 0

La newsletter Fellow

Le briefing IA, chaque matin à 8h Paris.

FELLOW1254 items ingérés35 sources · 17 acteurs →Newsletter →Méthodologie →

1 item

#dense-reward

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 62
ExpRL : apprentissage par renforcement exploratoire pour le mid-training des LLM
ExpRL remplace le fine-tuning supervisé par un RL dense guidé par des rubriques automatiques, surpassant GRPO et SFT sur des tâches de raisonnement mathématique difficiles.