SAFETY
Vision par défaut, connaissance sur commande : mécanismes causaux des conflits perception-savoir dans les VLMs
Une étude mécanistique révèle qu'un petit groupe de têtes d'attention (2,5–4,8 %) contrôle la résolution des conflits entre vision et connaissance mémorisée dans les modèles multimodaux.
arXiv cs.AI · cs.LG · cs.CL·Niclas Lietzow, Danielle Bitterman, Carsten Eickhoff, William Rudman·26 juin 2026

Image · Source originale
Des chercheurs ont analysé comment les modèles vision-langage (VLMs) arbitrent les conflits entre données visuelles et connaissances mémorisées. Via activation patching et ablations, ils montrent que l'ancrage visuel est le comportement par défaut, tandis qu'un circuit sparse de têtes d'attention, concentré dans la seconde moitié du réseau, est nécessaire pour activer les réponses fondées sur la connaissance. Ablater ces têtes bascule 68–96 % des prédictions vers l'ancrage visuel. Cette structure asymétrique est cohérente à travers plusieurs familles et tailles de modèles.