#policy-learning

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 45
RevengeBench : reconstruire des politiques de décision en code à partir de traces comportementales
Un nouveau benchmark teste la capacité des LLMs à reverse-engineer des politiques de jeu adversariales sous forme de code exécutable, à partir de simples observations comportementales.