3 items

#RL

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 62
TREK : distillation pour l'exploration, renforcement pour l'affinement
TREK combine distillation et GRPO pour débloquer les prompts difficiles que le modèle étudiant ne sait pas résoudre seul.
RECHERCHE
heat 42
Diffusion-GR2 : un re-ranker de recommandation par raisonnement génératif et diffusion
Un pipeline convertit un re-ranker autorégressif avec chaîne de pensée en modèle de diffusion par blocs, sans sacrifier la précision du classement.
OPINION
heat 62
Le prochain grand saut : des IA qui apprennent en travaillant
Dwarkesh Patel expose le pari des grands labs : entraîner les IA sur des millions de tâches vérifiables via du RL pour atteindre l'AGI.

3 items

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 62
TREK : distillation pour l'exploration, renforcement pour l'affinement
TREK combine distillation et GRPO pour débloquer les prompts difficiles que le modèle étudiant ne sait pas résoudre seul.
RECHERCHE
heat 42
Diffusion-GR2 : un re-ranker de recommandation par raisonnement génératif et diffusion
Un pipeline convertit un re-ranker autorégressif avec chaîne de pensée en modèle de diffusion par blocs, sans sacrifier la précision du classement.
OPINION
heat 62
Le prochain grand saut : des IA qui apprennent en travaillant
Dwarkesh Patel expose le pari des grands labs : entraîner les IA sur des millions de tâches vérifiables via du RL pour atteindre l'AGI.