3 items

#credit-assignment

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 45
TRACE : attribution de récompense au niveau des tours pour agents à long horizon
Une méthode d'apprentissage par renforcement affine le crédit accordé à chaque action d'un agent, sans critique additionnelle ni supervision coûteuse.
RECHERCHE
heat 52
TRIAGE : attribution de crédit par rôle sémantique pour le reinforcement learning agentique
Un framework qui dépasse GRPO en assignant des récompenses différenciées selon le rôle sémantique de chaque action dans un rollout agentique.
RECHERCHE
heat 45
Apprentissage de récompenses de processus par correspondance de visites de succès pour un RL efficace
Une méthode simple pour transformer une récompense sparse en signal dense, en entraînant un discriminateur à distinguer épisodes réussis et échoués.

3 items

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 45
TRACE : attribution de récompense au niveau des tours pour agents à long horizon
Une méthode d'apprentissage par renforcement affine le crédit accordé à chaque action d'un agent, sans critique additionnelle ni supervision coûteuse.
RECHERCHE
heat 52
TRIAGE : attribution de crédit par rôle sémantique pour le reinforcement learning agentique
Un framework qui dépasse GRPO en assignant des récompenses différenciées selon le rôle sémantique de chaque action dans un rollout agentique.
RECHERCHE
heat 45
Apprentissage de récompenses de processus par correspondance de visites de succès pour un RL efficace
Une méthode simple pour transformer une récompense sparse en signal dense, en entraînant un discriminateur à distinguer épisodes réussis et échoués.