6 items

#RLHF

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 25
OR Else : une région de confiance différentiable pour l'optimisation de politique
Une alternative lisse au clipping de PPO et GRPO testée sur Llama-3.2-1B pour le post-entraînement de LLM par RLHF.
RECHERCHE
heat 42
Pondération sélective et replay par avantage pour un RLHF diffusion plus efficace
Deux stratégies complémentaires pour réduire le nombre d'évaluations nécessaires lors de l'alignement par RLHF des modèles de diffusion.
OPINION
nvidiaheat 52
Maîtriser les techniques agentiques : le reinforcement learning pour les agents IA
NVIDIA détaille comment le reinforcement learning évolue de l'RLHF vers l'RLVR pour des agents IA spécialisés en entreprise.
RECHERCHE
heat 52
FPL : apprentissage par préférences libres pour la manipulation robotique
Une méthode permet aux annotateurs de définir leurs propres axes d'évaluation en langage naturel pour guider l'apprentissage de politiques robotiques.