RECHERCHE
Les Imaginative Perception Tokens améliorent le raisonnement spatial des VLMs
Des représentations perceptuelles intermédiaires permettent aux modèles vision-langage d'inférer ce qui serait visible depuis des angles non observés.
arXiv cs.AI · cs.LG · cs.CL·Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu·2 juin 2026

Image · Source originale
Des chercheurs introduisent les Imaginative Perception Tokens (IPT), des représentations intermédiaires qui externalisent ce qu'un VLM percevrait sous d'autres configurations spatiales. Trois tâches sont définies — prise de perspective, traçage de chemin et comptage multi-vues — avec ~20 000 exemples annotés. L'IPT améliore le raisonnement spatial de façon constante et surpasse souvent le chain-of-thought textuel, dont l'usage peut dégrader les performances en cas de mismatch de modalité.