Toutes les news taguées avec ce sujet.
Une méthode simple pour transformer une récompense sparse en signal dense, en entraînant un discriminateur à distinguer épisodes réussis et échoués.