Toutes les news taguées avec ce sujet.
Une analyse révèle que la distillation on-policy produit des mises à jour de paramètres sparse et spectralement concentrées, avec des implications pratiques sur l'entraînement.