Toutes les news taguées avec ce sujet.
Une nouvelle méthode, DRPO, remplace les masques rigides de DPPO par un régularisateur quadratique continu pour stabiliser l'entraînement par RL des LLM.
Dwarkesh Patel questionne les vrais progrès de l'IA : les modèles s'améliorent-ils vraiment, ou empilent-ils simplement plus de données ?
ATLAS unifie raisonnement agentique et latent en un unique token fonctionnel discret, sans supervision visuelle ni modification architecturale.
Un framework « fast-slow » combine mise à jour des paramètres et optimisation du contexte pour rendre les LLM jusqu'à 3× plus efficaces en apprentissage.
Une étude empirique propose d'allouer les données labellisées vérifiables selon un principe de densité de récompense, combinant RL sparse et supervision dense.