dimanche 26 juillet 2026Connexion →

36 SOURCES ACTIVES+366 / 7J

La veille de l'intelligence artificielle

Rechercher · papers, agents, LeCun…⌘K ALERTES43

À la une Rechercher Topics Entités Modèles Live Alertes Réglages

Sauvegardés · 0

La newsletter Fellow

Le briefing IA, chaque matin à 8h Paris.

Adresse email

FELLOW1749 items ingérés36 sources · 17 acteurs →Newsletter →Méthodologie →

30 items

#multimodal

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
moonshotheat 65
Moonshot AI publie le modèle multimodal Kimi-VL-A3B
Un nouveau modèle vision-langage de 3 milliards de paramètres, optimisé pour l'instruction et disponible en open-weights.
RECHERCHE
heat 45
MIRROR : optimiser le raisonnement multi-modal par vues croisées
Une méthode RL exploitant les vues texte et image pour améliorer la cohérence des modèles de vision-language.
RECHERCHE
heat 35
VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites
Un nouveau framework injecte des représentations 3D dans les modèles vision-langage à partir de simples vidéos RGB, sans capteur additionnel.
OUTILS
moonshotheat 65
Kimi-VL-A3B-Thinking : modèle multimodal
Moonshot AI publie un modèle léger de raisonnement visuel sur Hugging Face.
RECHERCHE
heat 40

Transformer multimodal pour la classification de signaux en nanopore

Une nouvelle architecture deep learning multimodal améliore l'identification précise de biomarqueurs via des capteurs nanopores.

RECHERCHE

heat 60

Appearance Pointers : contrôle régional multimodal pour Diffusion Transformers

Une méthode introduisant des tokens compacts pour guider précisément les DiTs selon des zones définies.

RECHERCHE

heat 35

FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel

Un nouveau framework guide des agents de codage pour transformer des implémentations de référence en déploiements multi-GPU optimisés, avec des gains massifs de latence.

RECHERCHE

heat 45

ToolSciVer : vérification scientifique multimodale par RL et outils visuels

Un cadre utilisant des outils spécialisés et le reinforcement learning pour améliorer la vérification de réclamations scientifiques.

RECHERCHE

heat 45

SceneBind : lier quoi et où entre vision, audio et langage

SceneBind permet une représentation omni-modale sémantique et spatiale pour la compréhension de scènes réalistes.

RECHERCHE

heat 25

TikStance : un dataset multimodal et hiérarchique pour l'analyse de positionnement sur TikTok

Un nouveau jeu de données combine vidéos et fils de commentaires TikTok pour étudier les prises de position politiques lors de l'élection américaine de 2024.

OUTILS

heat 68

Thinking Machines Lab lance Inkling, nouveau modèle open-weights américain de référence (975B-A41B)

Thinking Machines Lab dévoile Inkling, un modèle MoE multimodal open Apache 2.0, accompagné d'une version légère Inkling-Small.

RECHERCHE

heat 65

MM-ToolSandBox : évaluation unifiée des agents visuels

Un nouveau benchmark évalue la capacité des agents multimodaux à appeler des outils sur 500+ fonctions.

RECHERCHE

heat 40

Fusion multimodale en cascade par LoRA pour la reconnaissance d'actions médicales

Une approche basée sur LoRA fusionne progressivement plusieurs modalités pour la reconnaissance d'actions en formation médicale.

OUTILS

heat 45

Doorash optimise les métadonnées alimentaires

Doorash utilise des jurys de LLM et de l'IA multimodale pour structurer les données de ses menus.

RECHERCHE

heat 45

Pré-entraînement visuel scalable pour l'intelligence des modèles de langage

Une étude montre que pré-entraîner directement sur des documents visuels surpasse l'approche texte-only classique, sans passer par l'extraction de texte.

OUTILS

moonshotheat 75

Kimi-VL-A3B-Thinking : nouveau modèle vision-langage

Moonshot AI présente un modèle VL compact pensant, accessible sur Hugging Face.

RECHERCHE

heat 52

OpenCoF : raisonner par génération vidéo via le Chain-of-Frame

Un framework open-source qui transforme la génération vidéo en mécanisme de raisonnement séquentiel, alternatif au Chain-of-Thought textuel.

RECHERCHE

heat 52

UniClawBench : un benchmark universel pour les agents proactifs en environnement réel

Un nouveau benchmark évalue les agents LLM sur des tâches réelles en conteneurs Docker, avec une stratégie en boucle fermée pour simuler des interactions humaines multi-tours.

RECHERCHE

heat 52

MedPMC : un cadre pour constituer des données médicales multimodales haute fidélité

Des chercheurs proposent MedPMC, un pipeline automatisé extrayant 11 millions de paires image-texte médicales depuis PubMed Central pour entraîner des foundation models.

RECHERCHE

heat 52

SciReasoner : raisonnement natif structure-propriété multimodal pour la science

Un modèle de fondation multimodal capable de raisonner sur des protéines, molécules et cristaux en préservant l'information structurelle native.

RECHERCHE

heat 38

LCA : un framework d'orchestration agnostique pour l'aide à la décision en oncologie

Des chercheurs proposent un cadre d'orchestration modulaire pour les modèles d'IA en oncologie, découplant la logique clinique des modèles sous-jacents.

RECHERCHE

heat 52

Lychee-FD : modélisation hiérarchique acoustico-sémantique pour les SLM full-duplex

Un nouveau framework résout les conflits de gradients entre modalités acoustique et sémantique qui dégradaient les modèles de parole full-duplex natifs.

RECHERCHE

heat 52

ELSA3D : ancrage sémantique élastique pour la compréhension et génération 3D unifiées

Un nouveau modèle fondationnel 3D aligne langage et géométrie à différentes échelles d'abstraction, réduisant de moitié les FLOPs par rapport aux approches existantes.

RECHERCHE

heat 42

EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs

Une nouvelle méthode structure la compression de tokens visuels comme un problème de maximisation submodulaire, filtrant le bruit textuel par entropie statistique.

RECHERCHE

heat 45

Un LLM de raisonnement améliore la reconnaissance des locuteurs dans les séries TV longue durée

Des chercheurs introduisent DramaSR-532K, un benchmark massif, et DramaSR-LRM, un système multimodal attribuant chaque réplique à son personnage.

OUTILS

heat 62

Claude-real-video : permettre à n'importe quel LLM de visionner une vidéo

Un projet open-source qui donne aux LLMs la capacité d'analyser des vidéos en temps réel, sans dépendre d'API multimodales natives.

OUTILS

heat 72

Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale

Cerebras annonce le support de Gemma 4 sur son infrastructure, combinant sa vitesse d'inférence record avec les capacités multimodales du modèle de Google.

RECHERCHE

heat 62

Même preuve, réponse différente : audit de la sensibilité à l'ordre dans les MLLM

Une étude révèle qu'aucun des 18 grands modèles multimodaux testés n'est invariant à l'ordre de présentation des données, avec des taux d'inversion atteignant 50 %.

OUTILS

mistralheat 45

Mistral AI dévoile Mistral OCR 4, sa nouvelle génération de reconnaissance de documents

Le laboratoire français met à jour son moteur OCR, promettant une meilleure précision sur documents complexes et multilingues.

RECHERCHE

heat 52

AIR : raisonnement interleaved adaptatif avec du code dans les MLLMs

Des chercheurs proposent une méthode d'entraînement par RL pour doter les modèles multimodaux d'un raisonnement adaptatif alternant langage naturel et code.

#multimodal — Fellow