#reinforcement-learning
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 52
ParetoSlider : contrôle continu des récompenses dans les modèles de diffusion par post-training
Un framework MORL permet à un seul modèle de diffusion de naviguer sur le front de Pareto à l'inférence, sans réentraînement.
- RECHERCHEheat 48
Parallel-SFT : améliorer le transfert zero-shot entre langages de programmation pour le RL de code
Une nouvelle stratégie SFT intègre des programmes fonctionnellement équivalents en plusieurs langages pour améliorer la généralisation des LLMs vers des PLs peu dotés.
- RECHERCHEheat 42
Politiques de contrôle hybride pour la manipulation de précision sous incertitude
Une nouvelle méthode d'apprentissage par renforcement combine contrôle de force et de position pour des tâches d'insertion délicate, surpassant nettement les approches classiques.
- RECHERCHEheat 52
FASTER : échantillonnage guidé par la valeur pour le RL rapide
Une méthode légère pour bénéficier du test-time scaling des politiques diffusion sans en payer le coût computationnel.
- OUTILSheat 42
MuJoCo – Simulation physique avancée par Google DeepMind
Le simulateur physique open-source de DeepMind refait surface sur Hacker News, rappelant son rôle central dans la recherche en robotique et en RL.
- RECHERCHEheat 42
Apprentissage par renforcement continu et sûr dans des environnements non-stationnaires
Une étude systématique met en lumière la tension fondamentale entre sécurité et adaptation continue dans les systèmes RL confrontés à des dynamiques changeantes.
- RECHERCHEheat 58
Au-delà du « distribution sharpening » : l'importance des récompenses de tâche
Une étude compare le sharpening de distribution et l'apprentissage par récompense de tâche, et montre pourquoi le second est fondamentalement supérieur.
- RECHERCHEheat 58
Évaluation des capacités des LLMs pour la conception de médicaments à petites molécules
Un nouveau benchmark formule des tâches chimiques comme environnements RL, révélant que le post-training améliore fortement les petits modèles.
- RECHERCHEhuggingfaceheat 62
Ecom-RLVE : environnements vérifiables adaptatifs pour agents conversationnels e-commerce
Hugging Face présente Ecom-RLVE, un framework d'entraînement par renforcement avec vérification pour agents IA dédiés au commerce en ligne.