SAFETY

Vision par défaut, connaissance sur commande : mécanismes causaux des conflits perception-savoir dans les VLMs

Une étude mécanistique révèle qu'un petit groupe de têtes d'attention (2,5–4,8 %) contrôle la résolution des conflits entre vision et connaissance mémorisée dans les modèles multimodaux.

arXiv cs.AI · cs.LG · cs.CL·Niclas Lietzow, Danielle Bitterman, Carsten Eickhoff, William Rudman·26 juin 2026

Image · Source originale

Des chercheurs ont analysé comment les modèles vision-langage (VLMs) arbitrent les conflits entre données visuelles et connaissances mémorisées. Via activation patching et ablations, ils montrent que l'ancrage visuel est le comportement par défaut, tandis qu'un circuit sparse de têtes d'attention, concentré dans la seconde moitié du réseau, est nécessaire pour activer les réponses fondées sur la connaissance. Ablater ces têtes bascule 68–96 % des prédictions vers l'ancrage visuel. Cette structure asymétrique est cohérente à travers plusieurs familles et tailles de modèles.

Chaleur 12

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#vision-language models #mécanismes causaux #interprétabilité #attention heads #conflit perception-connaissance