RECHERCHE · Microsoft

SocialReasoning-Bench : mesurer si les agents IA agissent dans l'intérêt de l'utilisateur

Microsoft Research publie un benchmark évaluant la capacité des agents IA à négocier efficacement pour leurs utilisateurs dans des contextes sociaux réalistes.

Microsoft Research·Tyler Payne, Will Epperson, Safoora Yousefi, Zachary Huang, Gagan Bansal, Wenyue Hua, Maya Murad, Asli Celikyilmaz, Saleema Amershi·11 mai 2026

Image · Source originale

SocialReasoning-Bench teste les agents IA dans deux scénarios : coordination de calendrier et négociation commerciale. Le benchmark évalue à la fois les résultats obtenus (valeur sécurisée pour l'utilisateur) et la qualité du processus décisionnel. Les modèles frontier actuels laissent régulièrement de la valeur sur la table, acceptant des compromis sous-optimaux même lorsqu'ils reçoivent des instructions explicites pour défendre les intérêts de l'utilisateur.

Chaleur 0

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #agents #raisonnement-social #négociation #microsoft-research