6 items

#vision-langage

Toutes les news taguées avec ce sujet.

RECHERCHE
heat 52
OMIBench : un benchmark de raisonnement multi-images au niveau olympique pour les LVLMs
Un nouveau benchmark évalue la capacité des grands modèles vision-langage à raisonner sur plusieurs images simultanément, avec des problèmes issus des Olympiades scientifiques.
OUTILS
moonshotheat 72
Kimi-VL-A3B-Thinking : le modèle multimodal raisonnant de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking, un modèle vision-langage MoE compact avec capacités de raisonnement étendu, disponible en open-weights sur Hugging Face.
OUTILS
moonshotheat 72
Kimi-VL-A3B-Instruct : le modèle vision-langage MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Instruct, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
OUTILS
moonshotheat 72
Kimi-VL-A3B-Thinking-2506 : nouveau modèle multimodal MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking-2506, un modèle vision-langage MoE open-weights avec capacités de raisonnement étendu.
OUTILS
moonshotheat 62
Kimi-VL-A3B : le modèle vision-langage MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
RECHERCHE
heat 42
MoIR : un routeur d'information pour corriger la dominance modale dans les VLMs
Des chercheurs proposent MoIR, une méthode de fusion qui rééquilibre les contributions modales avant traitement par un LLM, sans se limiter à l'attention.