RECHERCHE
Réduire les biais de jugement perceptif dans les LLM multimodaux utilisés comme évaluateurs
Des chercheurs identifient un biais systématique dans les modèles multimodaux jouant le rôle de juges : ils privilégient le texte sur la perception visuelle.
arXiv cs.AI · cs.LG · cs.CL·Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee·1 juin 2026

Image · Source originale
Les MLLM utilisés comme évaluateurs automatiques tendent à récompenser des réponses textuellement plausibles plutôt que perceptivement correctes, même face à des preuves visuelles contradictoires — un phénomène baptisé « Perceptual Judgment Bias ». Les auteurs construisent un dataset de réponses contrefactuelles minimalement modifiées pour isoler ces erreurs perceptives, puis entraînent un cadre combinant une récompense GRPO structurée et un objectif de batch-ranking. Les expériences sur plusieurs benchmarks MLLM-as-a-Judge montrent des gains significatifs en fidélité perceptive et alignement humain.