RECHERCHE
ATLAS : raisonnement visuel agentique ou latent ? Un seul token suffit pour les deux
ATLAS unifie raisonnement agentique et latent en un unique token fonctionnel discret, sans supervision visuelle ni modification architecturale.
arXiv cs.AI · cs.LG · cs.CL·Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng·14 mai 2026

Image · Source originale
ATLAS propose un framework où un token discret unique dit « fonctionnel » joue à la fois le rôle d'opération agentique et d'unité de raisonnement visuel latent. Cette approche évite la génération coûteuse d'images intermédiaires et reste compatible avec le SFT et le RL autorégressifs standard. Pour pallier la rareté des tokens fonctionnels lors du RL, les auteurs introduisent Latent-Anchored GRPO (LA-GRPO), qui stabilise l'entraînement via un objectif auxiliaire pondéré statiquement.