3 items

#VLM

Toutes les news taguées avec ce sujet.

RECHERCHE
heat 62
Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
RECHERCHE
heat 42
MoIR : un routeur d'information pour corriger la dominance modale dans les VLMs
Des chercheurs proposent MoIR, une méthode de fusion qui rééquilibre les contributions modales avant traitement par un LLM, sans se limiter à l'attention.
RECHERCHE
heat 52
VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA
Un dataset annoté humainement de 5 049 exemples et un reward model spécialisé pour évaluer la qualité d'édition vidéo guidée par instructions.