Toutes les news taguées avec ce sujet.
Un nouveau benchmark basé sur Unreal Engine 5 évalue des agents VLM dans 12 jeux en modes Solo, PvP et Coop, avec un protocole de réflexion autonome.
Un framework plug-and-play dissocie perception et raisonnement pour traiter des vidéos de plusieurs heures sans explosion du contexte token.
Des représentations perceptuelles intermédiaires permettent aux modèles vision-langage d'inférer ce qui serait visible depuis des angles non observés.
Un seul checkpoint pour comprendre, raisonner, imaginer et agir : Pelican-Unified 1.0 propose un paradigme unifié pour la robotique fondationnelle.