Toutes les news taguées avec ce sujet.
Le DPO, technique d'alignement popularisée pour les assistants conversationnels, trouve des applications bien plus larges dans l'écosystème IA.
Une nouvelle méthode comble le fossé entre RL en ligne et optimisation des préférences, sans recourir à un reward scalaire réducteur.
Une généralisation du Direct Preference Optimization exploitant la structure complète des graphes de préférences pour mieux aligner les LLM.
Anthropic détaille sa méthode pour transmettre à Claude non seulement des règles de comportement, mais aussi les raisonnements éthiques qui les fondent.