RECHERCHE
UniT : vers un langage physique unifié pour le transfert humain-humanoïde
UniT propose un espace latent discret commun pour transférer les intentions motrices humaines vers des robots humanoïdes, sans données robotiques massives.
arXiv cs.AI · cs.LG · cs.CL·Boyu Chen, Yi Chen, Lu Qiu, Jerry Bai·21 avril 2026

UniT (Unified Latent Action Tokenizer via Visual Anchoring) est un framework qui établit un langage physique partagé entre humains et robots humanoïdes. Il repose sur un mécanisme de reconstruction croisée tri-branche : les actions prédisent la vision pour ancrer la cinématique aux conséquences physiques, tandis que la vision reconstruit les actions pour filtrer les distracteurs visuels. Validé sur l'apprentissage de politiques (VLA-UniT) et la modélisation du monde (WM-UniT), il atteint un transfert zéro-shot et une généralisation hors-distribution compétitive.
Chaleur 20
Pertinence 70
Nouveauté 82