RECHERCHE
GROW² : ancrage sémantique et géométrique pour l'utilisation créative d'outils par les robots
Un système hiérarchique combinant VLMs et modèles de vision 3D permet aux robots d'identifier et localiser des outils non conventionnels en monde ouvert.
arXiv cs.AI · cs.LG · cs.CL·Yuhong Deng, Yuyao Liu, David Hsu·29 juin 2026

Image · Source originale
GROW² (GROunding Which and Where) aborde le problème de l'affordance en monde ouvert : sélectionner un objet quelconque comme outil et localiser précisément la région d'action pertinente. L'approche découple le processus en deux niveaux — sémantique via des VLMs pour le raisonnement sur les parties d'objets, et géométrique via des modèles de vision pour l'ancrage 3D à partir d'une image RGB-D. Sans entraînement supervisé massif, GROW² surpasse les baselines sur les benchmarks d'affordance et généralise en zero-shot à des objets en catégories ouvertes, en simulation comme en conditions réelles.