4 items

#reinforcement learning

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 52
Latent Memory Palace : le raisonnement pour le contrôle comme inférence variationnelle autorégressive
Une nouvelle architecture latente inspire du « palais de mémoire » humain pour doter les politiques de contrôle continu d'une capacité de raisonnement adaptatif.
RECHERCHE
heat 42
Machine learning quantique vs. classique : une comparaison empirique unifiée
Une étude empirique compare sept paires de modèles QML et classiques : les modèles quantiques ne surpassent pas encore leurs équivalents classiques.
RECHERCHE
heat 42
Apprentissage par imitation avec critique en langage naturel à partir de démonstrations sous-optimales
Une nouvelle méthode remplace les signaux scalaires classiques de l'imitation learning par des critiques en langage naturel pour guider l'apprentissage de politiques robustes.
RECHERCHE
heat 42
DexCompose : réutilisation de politiques dextères pour la manipulation multi-tâche à une seule main
Un nouveau framework compositionnel permet de combiner des politiques de manipulation préentraînées sans interférence destructrice entre les doigts.

4 items

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 52
Latent Memory Palace : le raisonnement pour le contrôle comme inférence variationnelle autorégressive
Une nouvelle architecture latente inspire du « palais de mémoire » humain pour doter les politiques de contrôle continu d'une capacité de raisonnement adaptatif.
RECHERCHE
heat 42
Machine learning quantique vs. classique : une comparaison empirique unifiée
Une étude empirique compare sept paires de modèles QML et classiques : les modèles quantiques ne surpassent pas encore leurs équivalents classiques.
RECHERCHE
heat 42
Apprentissage par imitation avec critique en langage naturel à partir de démonstrations sous-optimales
Une nouvelle méthode remplace les signaux scalaires classiques de l'imitation learning par des critiques en langage naturel pour guider l'apprentissage de politiques robustes.
RECHERCHE
heat 42
DexCompose : réutilisation de politiques dextères pour la manipulation multi-tâche à une seule main
Un nouveau framework compositionnel permet de combiner des politiques de manipulation préentraînées sans interférence destructrice entre les doigts.