Toutes les news taguées avec ce sujet.
Un framework agentic reformule le reward modeling comme l'exécution d'une compétence d'évaluation réutilisable, unifiant règles, références et rubriques.
Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.