#vision-langage
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 52
OMIBench : un benchmark de raisonnement multi-images au niveau olympique pour les LVLMs
Un nouveau benchmark évalue la capacité des grands modèles vision-langage à raisonner sur plusieurs images simultanément, avec des problèmes issus des Olympiades scientifiques.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Thinking : le modèle multimodal raisonnant de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking, un modèle vision-langage MoE compact avec capacités de raisonnement étendu, disponible en open-weights sur Hugging Face.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Instruct : le modèle vision-langage MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Instruct, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Thinking-2506 : nouveau modèle multimodal MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking-2506, un modèle vision-langage MoE open-weights avec capacités de raisonnement étendu.
- OUTILSmoonshotheat 62
Kimi-VL-A3B : le modèle vision-langage MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
- RECHERCHEheat 42
MoIR : un routeur d'information pour corriger la dominance modale dans les VLMs
Des chercheurs proposent MoIR, une méthode de fusion qui rééquilibre les contributions modales avant traitement par un LLM, sans se limiter à l'attention.