3 items
#VLM
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 62
Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
- RECHERCHEheat 42
MoIR : un routeur d'information pour corriger la dominance modale dans les VLMs
Des chercheurs proposent MoIR, une méthode de fusion qui rééquilibre les contributions modales avant traitement par un LLM, sans se limiter à l'attention.
- RECHERCHEheat 52
VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA
Un dataset annoté humainement de 5 049 exemples et un reward model spécialisé pour évaluer la qualité d'édition vidéo guidée par instructions.