RECHERCHE
SIEVES : la prédiction sélective généralisée par scoring d'évidence visuelle
Un nouveau framework améliore la fiabilité des modèles multimodaux en apprenant à évaluer la qualité des preuves visuelles fournies par le raisonneur.
arXiv cs.AI · cs.LG · cs.CL·Hector G. Rodriguez, Marcus Rohrbach·28 avril 2026

Image · Source originale
SIEVES (Selective Prediction through Visual Evidence Scoring) propose une approche de prédiction sélective pour les modèles multimodaux (MLLMs) : le système génère des preuves visuelles localisées lors de chaque réponse, et un sélecteur apprend à estimer la qualité de cette localisation pour décider d'abstention ou non. La méthode multiplie par trois la couverture sur des benchmarks OOD difficiles (V* Bench, HR-Bench-8k, MME-RealWorld-Lite, VizWiz, AdVQA). Elle est transférable à des modèles propriétaires comme o3 et Gemini-3-Pro sans accès aux poids ni aux logits.