2 items
#post-training
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 52
ParetoSlider : contrôle continu des récompenses dans les modèles de diffusion par post-training
Un framework MORL permet à un seul modèle de diffusion de naviguer sur le front de Pareto à l'inférence, sans réentraînement.
- RECHERCHEheat 58
PostTrainBench : des LLMs capables d'affiner d'autres LLMs pour de nouvelles tâches
Un nouveau benchmark mesure la capacité des agents IA à automatiser le fine-tuning de LLMs — avec des résultats prometteurs mais encore inférieurs aux humains.