5 items

#post-training

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 35
Combler l'écart labo-magasin : un framework VLA pour robots humanoïdes en distribution
DEED optimise le post-entraînement de robots humanoïdes VLA pour un réapprovisionnement fiable en supermarché, avec un seul GPU.
RECHERCHE
heat 45
TRACE : attribution de récompense au niveau des tours pour agents à long horizon
Une méthode d'apprentissage par renforcement affine le crédit accordé à chaque action d'un agent, sans critique additionnelle ni supervision coûteuse.
RECHERCHE
heat 35
PeTeR : robustification post-entraînement des circuits probabilistes
Une méthode sans données pour renforcer des circuits probabilistes pré-entraînés face aux perturbations et aux changements de distribution.
RECHERCHE
heat 72
Une seule couche suffit-elle ? Entraîner une couche transformer égale le RL complet
Une étude systématique révèle que les gains du RL post-training se concentrent dans quelques couches médianes d'un transformer, voire une seule.
RECHERCHE
heat 62
Progress Advantage : un signal d'évaluation pas-à-pas gratuit pour les agents LLM
Des chercheurs montrent que le fine-tuning par RL produit implicitement un signal d'évaluation step-level performant, sans entraîner de reward model dédié.

5 items

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 35
Combler l'écart labo-magasin : un framework VLA pour robots humanoïdes en distribution
DEED optimise le post-entraînement de robots humanoïdes VLA pour un réapprovisionnement fiable en supermarché, avec un seul GPU.
RECHERCHE
heat 45
TRACE : attribution de récompense au niveau des tours pour agents à long horizon
Une méthode d'apprentissage par renforcement affine le crédit accordé à chaque action d'un agent, sans critique additionnelle ni supervision coûteuse.
RECHERCHE
heat 35
PeTeR : robustification post-entraînement des circuits probabilistes
Une méthode sans données pour renforcer des circuits probabilistes pré-entraînés face aux perturbations et aux changements de distribution.
RECHERCHE
heat 72
Une seule couche suffit-elle ? Entraîner une couche transformer égale le RL complet
Une étude systématique révèle que les gains du RL post-training se concentrent dans quelques couches médianes d'un transformer, voire une seule.
RECHERCHE
heat 62
Progress Advantage : un signal d'évaluation pas-à-pas gratuit pour les agents LLM
Des chercheurs montrent que le fine-tuning par RL produit implicitement un signal d'évaluation step-level performant, sans entraîner de reward model dédié.