RECHERCHE
A-MAR : récupération multimodale d'œuvres d'art par agents pour une compréhension fine-grained
Un framework d'agents IA décompose les requêtes artistiques en plans de raisonnement structurés pour améliorer l'explication et la traçabilité des réponses.
arXiv cs.AI · cs.LG · cs.CL·Shuai Wang, Hongyi Zhu, Jia-Hong Huang, Yixian Shen·21 avril 2026

A-MAR est un framework de récupération multimodale basé sur des agents qui conditionne explicitement la recherche d'informations sur des plans de raisonnement structurés. Face à une œuvre d'art et une requête, le système décompose la tâche en étapes avec des objectifs et des exigences de preuves définis. Les auteurs introduisent également ArtCoT-QA, un benchmark de raisonnement multi-étapes dédié au domaine artistique. Les expériences sur SemArt et Artpedia montrent qu'A-MAR surpasse les baselines MLLM classiques en qualité d'explication et en ancrage des preuves.
Chaleur 14
Pertinence 58
Nouveauté 68