#multimodal
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 42
A-MAR : récupération multimodale d'œuvres d'art par agents pour une compréhension fine-grained
Un framework d'agents IA décompose les requêtes artistiques en plans de raisonnement structurés pour améliorer l'explication et la traçabilité des réponses.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Thinking : le modèle multimodal raisonnant de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking, un modèle vision-langage MoE compact avec capacités de raisonnement étendu, disponible en open-weights sur Hugging Face.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Instruct : le modèle vision-langage MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Instruct, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Thinking-2506 : nouveau modèle multimodal MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking-2506, un modèle vision-langage MoE open-weights avec capacités de raisonnement étendu.
- OUTILSmoonshotheat 62
Kimi-VL-A3B : le modèle vision-langage MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
- RECHERCHEheat 42
HILBERT : alignement contrastif dual centré sur les joints pour représentations audio-texte longues
Un framework multimodal cross-attentif pour aligner audio et texte sur de longues séquences en contexte low-resource, avec double régularisation.
- RECHERCHEheat 62
Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
- OUTILShuggingfaceheat 88
Gemma 4 : intelligence multimodale frontier pour les appareils embarqués
Google lance Gemma 4, une nouvelle famille de modèles multimodaux open-weights conçus pour tourner directement sur les appareils.
- OUTILShuggingfaceheat 68
Modèles d'embedding et de reranking multimodaux avec Sentence Transformers
Hugging Face étend Sentence Transformers au multimodal : embeddings et reranking sur texte et images dans un même pipeline.
- OUTILShuggingfaceheat 62
Entraînement et fine-tuning de modèles d'embedding et de reranking multimodaux avec Sentence Transformers
Hugging Face détaille comment entraîner et affiner des modèles d'embedding et de reranking multimodaux via la bibliothèque Sentence Transformers.