RECHERCHE

Gaze Heads : comment les VLMs focalisent leur attention sur ce qu'ils décrivent

Des chercheurs identifient un mécanisme interne aux VLMs : un petit sous-ensemble de têtes d'attention guide précisément la région d'image en cours de description.

arXiv cs.AI · cs.LG · cs.CL·Rohit Gandikota, David Bau·12 juin 2026

Image · Source originale

Rohit Gandikota et David Bau découvrent que les modèles vision-langage développent un mécanisme interne spécifique pour décrire les images : un petit ensemble de têtes d'attention, appelées « gaze heads », dont l'attention suit la région décrite. En intervenant sur les 100 principales gaze heads (moins de 9 % du total), il est possible de rediriger la description vers une région choisie avec 83,1 % de précision sur des bandes dessinées. Ce mécanisme se retrouve dans des modèles allant de 2B à 32B paramètres et dans plusieurs architectures VLM.

Chaleur 1

Pertinence 72

Nouveauté 82

OUVRIR LA SOURCE ↗

#VLM #mécanismes-internes #attention #interprétabilité #vision-langage