RECHERCHE
Gaze Heads : comment les VLMs focalisent leur attention sur ce qu'ils décrivent
Des chercheurs identifient un mécanisme interne aux VLMs : un petit sous-ensemble de têtes d'attention guide précisément la région d'image en cours de description.
arXiv cs.AI · cs.LG · cs.CL·Rohit Gandikota, David Bau·12 juin 2026

Image · Source originale
Rohit Gandikota et David Bau découvrent que les modèles vision-langage développent un mécanisme interne spécifique pour décrire les images : un petit ensemble de têtes d'attention, appelées « gaze heads », dont l'attention suit la région décrite. En intervenant sur les 100 principales gaze heads (moins de 9 % du total), il est possible de rediriger la description vers une région choisie avec 83,1 % de précision sur des bandes dessinées. Ce mécanisme se retrouve dans des modèles allant de 2B à 32B paramètres et dans plusieurs architectures VLM.