#raisonnement
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 42
Construction automatique d'ontologies : les LLMs augmentés d'une mémoire externe structurée
Une architecture hybride combine LLMs et graphes de connaissances RDF/OWL pour dépasser les limites du RAG vectoriel en raisonnement multi-étapes.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Thinking : le modèle multimodal raisonnant de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking, un modèle vision-langage MoE compact avec capacités de raisonnement étendu, disponible en open-weights sur Hugging Face.
- OUTILSmoonshotheat 72
Kimi-VL-A3B-Thinking-2506 : nouveau modèle multimodal MoE de Moonshot AI
Moonshot AI publie Kimi-VL-A3B-Thinking-2506, un modèle vision-langage MoE open-weights avec capacités de raisonnement étendu.
- OUTILSmoonshotheat 72
Kimi-K2-Thinking : le modèle de raisonnement de Moonshot AI
Moonshot AI publie Kimi-K2-Thinking sur Hugging Face, un modèle orienté raisonnement issu de la famille K2.
- OUTILSmoonshotheat 78
Kimi-K2.5 : le nouveau modèle frontier de Moonshot AI
Moonshot AI publie Kimi-K2.5, un modèle frontier open-weights disponible sur Hugging Face, combinant raisonnement avancé et capacités multimodales.
- RECHERCHEheat 62
Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
- RECHERCHEheat 58
Au-delà du « distribution sharpening » : l'importance des récompenses de tâche
Une étude compare le sharpening de distribution et l'apprentissage par récompense de tâche, et montre pourquoi le second est fondamentalement supérieur.
- RECHERCHEheat 42
Évaluation à grande échelle des LLMs sur des textes juridiques vietnamiens
Un cadre d'évaluation dual confronte GPT-4o, Claude 3 Opus, Gemini 1.5 Pro et Grok-1 sur la simplification du droit vietnamien.
- RECHERCHEhuggingfaceheat 58
VAKRA : analyse du raisonnement, de l'usage d'outils et des modes d'échec des agents IA
IBM Research publie une analyse approfondie du benchmark VAKRA, conçu pour évaluer les capacités agentiques des LLMs sous stress réel.