#benchmark
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 72
SWE-chat : premier dataset massif d'interactions réelles avec des agents de codage IA
6 000 sessions réelles, 63 000 prompts, 355 000 appels d'outils : une étude empirique inédite sur l'usage concret des agents de codage.
- RECHERCHEheat 52
OMIBench : un benchmark de raisonnement multi-images au niveau olympique pour les LVLMs
Un nouveau benchmark évalue la capacité des grands modèles vision-langage à raisonner sur plusieurs images simultanément, avec des problèmes issus des Olympiades scientifiques.
- RECHERCHEheat 52
Diagnostic de l'interprétation de grammaires formelles dans les LLM
Une nouvelle étude révèle que les LLM peinent à interpréter fidèlement des grammaires hors contexte, notamment face à la récursivité profonde.
- RECHERCHEheat 35
Surveillance mondiale des éoliennes offshore par séries temporelles Sentinel-1
Un corpus SAR global de 15 000 séries temporelles permet de suivre le déploiement et l'exploitation des parcs éoliens offshore de 2016 à 2025.
- RECHERCHEheat 52
SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique
Un nouveau benchmark évalue la capacité des grands modèles audio-langage à contrôler plus de 100 traits paralinguistiques fins dans la synthèse vocale.
- RECHERCHEheat 42
A-MAR : récupération multimodale d'œuvres d'art par agents pour une compréhension fine-grained
Un framework d'agents IA décompose les requêtes artistiques en plans de raisonnement structurés pour améliorer l'explication et la traçabilité des réponses.
- RECHERCHEheat 42
Apprentissage par renforcement continu et sûr dans des environnements non-stationnaires
Une étude systématique met en lumière la tension fondamentale entre sécurité et adaptation continue dans les systèmes RL confrontés à des dynamiques changeantes.
- OUTILSheat 72
ChatGPT Images 2.0 : test comparatif avec un raton laveur et une radio amateur
Simon Willison évalue GPT-Image-2 face à ses concurrents via un prompt inspiré de « Où est Charlie ? ».
- OPINIONheat 52
Claude prend le contrôle du Mac, Cursor oublie de citer ses sources
Une newsletter passe en revue les dernières annonces IA : contrôle du Mac par Claude, Stitch de Google en canvas de design, Lyria 3 Pro et le cadre AGI de DeepMind.
- SIGNALheat 88
Anthropic lance Opus 4.7 et Mythos, son modèle réservé à la cybersécurité
Opus 4.7 s'impose sur SWE-bench Pro devant GPT-5.4, tandis que Mythos reste inaccessible au public en raison de capacités offensives jugées trop dangereuses.
- SAFETYanthropicheat 62
Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles
Anthropic présente un outil permettant d'identifier automatiquement les écarts de comportement entre deux versions d'un modèle d'IA.
- OUTILShuggingfaceheat 55
QIMMA : un leaderboard de LLM en arabe axé sur la qualité
TII et Hugging Face lancent QIMMA, un benchmark dédié à l'évaluation rigoureuse des grands modèles de langage en langue arabe.
- RECHERCHEheat 42
BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs
Un nouveau benchmark en closed-book testing mesure la maîtrise des LLMs sur la taxonomie, le comportement et la biodiversité animale.
- RECHERCHEheat 62
Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
- RECHERCHEheat 42
Évaluation à grande échelle des LLMs sur des textes juridiques vietnamiens
Un cadre d'évaluation dual confronte GPT-4o, Claude 3 Opus, Gemini 1.5 Pro et Grok-1 sur la simplification du droit vietnamien.
- RECHERCHEheat 52
VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA
Un dataset annoté humainement de 5 049 exemples et un reward model spécialisé pour évaluer la qualité d'édition vidéo guidée par instructions.
- RECHERCHEheat 45
Politesse et LLMs : une étude multilingue et multi-modèles avec le corpus PLUM
La politesse améliore les réponses des LLMs jusqu'à 11 %, mais cet effet varie fortement selon la langue et le modèle testé.
- RECHERCHEheat 58
Évaluation des capacités des LLMs pour la conception de médicaments à petites molécules
Un nouveau benchmark formule des tâches chimiques comme environnements RL, révélant que le post-training améliore fortement les petits modèles.
- SAFETYheat 62
ASMR-Bench : un benchmark pour détecter le sabotage dans la recherche ML
Des chercheurs évaluent la capacité des LLMs à détecter des manipulations subtiles dans des codebases de recherche en machine learning.
- OPINIONheat 52
Import AI 445 : chronométrer la superintelligence, les IA résolvent des preuves mathématiques de pointe
Jack Clark passe en revue la superintelligence, les IA capables de résoudre des démonstrations mathématiques avancées et un nouveau benchmark de recherche ML.
- POLICYheat 45
Import AI 446 : LLM nucléaires, benchmark chinois et mesure en politique IA
Jack Clark explore pourquoi investir dans des outils de mesure des systèmes IA est l'un des leviers politiques les plus efficaces disponibles.
- RECHERCHEheat 58
PostTrainBench : des LLMs capables d'affiner d'autres LLMs pour de nouvelles tâches
Un nouveau benchmark mesure la capacité des agents IA à automatiser le fine-tuning de LLMs — avec des résultats prometteurs mais encore inférieurs aux humains.
- RECHERCHEheat 72
MirrorCode : un benchmark pour tester la réingénierie logicielle autonome par les agents IA
METR et Epoch publient MirrorCode, un benchmark révélant que les agents IA peuvent réimplémenter des logiciels complexes sans accès au code source.
- OPINIONheat 52
Gemma 4 et les conditions de succès d'un modèle open-weights
Nathan Lambert analyse ce qui différencie un modèle open-weights réussi dans un écosystème désormais très concurrentiel.
- OPINIONheat 52
Nathan Lambert présente ATOM Report, cours de post-training et son livre sur le RLHF
Un point sur plusieurs projets en cours : rapport sur l'écosystème open-source, livre RLHF et nouvelle métrique d'adoption des modèles.
- OPINIONheat 72
Qwen3.6-35B-A3B sur laptop surpasse Claude Opus 4.7 sur le benchmark du pélican
Simon Willison compare les deux grandes sorties du jour via son benchmark SVG fantaisiste : le modèle Alibaba l'emporte sur le nouveau Claude d'Anthropic.
- SIGNALheat 82
Meta lance Muse Spark, son premier modèle depuis Llama 4
Meta dévoile Muse Spark, modèle hébergé sans open weights, accessible via meta.ai et compétitif avec les grands modèles du marché.
- RECHERCHEhuggingfaceheat 58
VAKRA : analyse du raisonnement, de l'usage d'outils et des modes d'échec des agents IA
IBM Research publie une analyse approfondie du benchmark VAKRA, conçu pour évaluer les capacités agentiques des LLMs sous stress réel.
- RECHERCHEdeepmindheat 78
Mesurer la progression vers l'AGI : un cadre cognitif proposé par DeepMind
DeepMind publie un framework pour évaluer les avancées vers l'AGI et lance un hackathon Kaggle pour construire les benchmarks associés.