Toutes les news taguées avec ce sujet.
Des chercheurs identifient un mécanisme interne aux VLMs : un petit sous-ensemble de têtes d'attention guide précisément la région d'image en cours de description.