RECHERCHE

Les Imaginative Perception Tokens améliorent le raisonnement spatial des VLMs

Des représentations perceptuelles intermédiaires permettent aux modèles vision-langage d'inférer ce qui serait visible depuis des angles non observés.

arXiv cs.AI · cs.LG · cs.CL·Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu·2 juin 2026

Image · Source originale

Des chercheurs introduisent les Imaginative Perception Tokens (IPT), des représentations intermédiaires qui externalisent ce qu'un VLM percevrait sous d'autres configurations spatiales. Trois tâches sont définies — prise de perspective, traçage de chemin et comptage multi-vues — avec ~20 000 exemples annotés. L'IPT améliore le raisonnement spatial de façon constante et surpasse souvent le chain-of-thought textuel, dont l'usage peut dégrader les performances en cas de mismatch de modalité.

Chaleur 1

Pertinence 68

Nouveauté 75

OUVRIR LA SOURCE ↗

#VLM #raisonnement spatial #perception #multimodal #chain-of-thought