29 items

#benchmark

Toutes les news taguées avec ce sujet.

RECHERCHE
heat 72
SWE-chat : premier dataset massif d'interactions réelles avec des agents de codage IA
6 000 sessions réelles, 63 000 prompts, 355 000 appels d'outils : une étude empirique inédite sur l'usage concret des agents de codage.
RECHERCHE
heat 52
OMIBench : un benchmark de raisonnement multi-images au niveau olympique pour les LVLMs
Un nouveau benchmark évalue la capacité des grands modèles vision-langage à raisonner sur plusieurs images simultanément, avec des problèmes issus des Olympiades scientifiques.
RECHERCHE
heat 52
Diagnostic de l'interprétation de grammaires formelles dans les LLM
Une nouvelle étude révèle que les LLM peinent à interpréter fidèlement des grammaires hors contexte, notamment face à la récursivité profonde.
RECHERCHE
heat 35
Surveillance mondiale des éoliennes offshore par séries temporelles Sentinel-1
Un corpus SAR global de 15 000 séries temporelles permet de suivre le déploiement et l'exploitation des parcs éoliens offshore de 2016 à 2025.
RECHERCHE
heat 52
SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique
Un nouveau benchmark évalue la capacité des grands modèles audio-langage à contrôler plus de 100 traits paralinguistiques fins dans la synthèse vocale.
RECHERCHE
heat 42
A-MAR : récupération multimodale d'œuvres d'art par agents pour une compréhension fine-grained
Un framework d'agents IA décompose les requêtes artistiques en plans de raisonnement structurés pour améliorer l'explication et la traçabilité des réponses.
RECHERCHE
heat 42
Apprentissage par renforcement continu et sûr dans des environnements non-stationnaires
Une étude systématique met en lumière la tension fondamentale entre sécurité et adaptation continue dans les systèmes RL confrontés à des dynamiques changeantes.
OUTILS
heat 72
ChatGPT Images 2.0 : test comparatif avec un raton laveur et une radio amateur
Simon Willison évalue GPT-Image-2 face à ses concurrents via un prompt inspiré de « Où est Charlie ? ».
OPINION
heat 52
Claude prend le contrôle du Mac, Cursor oublie de citer ses sources
Une newsletter passe en revue les dernières annonces IA : contrôle du Mac par Claude, Stitch de Google en canvas de design, Lyria 3 Pro et le cadre AGI de DeepMind.
SIGNAL
heat 88
Anthropic lance Opus 4.7 et Mythos, son modèle réservé à la cybersécurité
Opus 4.7 s'impose sur SWE-bench Pro devant GPT-5.4, tandis que Mythos reste inaccessible au public en raison de capacités offensives jugées trop dangereuses.
SAFETY
anthropicheat 62
Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles
Anthropic présente un outil permettant d'identifier automatiquement les écarts de comportement entre deux versions d'un modèle d'IA.
OUTILS
huggingfaceheat 55
QIMMA : un leaderboard de LLM en arabe axé sur la qualité
TII et Hugging Face lancent QIMMA, un benchmark dédié à l'évaluation rigoureuse des grands modèles de langage en langue arabe.
RECHERCHE
heat 42
BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs
Un nouveau benchmark en closed-book testing mesure la maîtrise des LLMs sur la taxonomie, le comportement et la biodiversité animale.
RECHERCHE
heat 62
Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
RECHERCHE
heat 42
Évaluation à grande échelle des LLMs sur des textes juridiques vietnamiens
Un cadre d'évaluation dual confronte GPT-4o, Claude 3 Opus, Gemini 1.5 Pro et Grok-1 sur la simplification du droit vietnamien.
RECHERCHE
heat 52
VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA
Un dataset annoté humainement de 5 049 exemples et un reward model spécialisé pour évaluer la qualité d'édition vidéo guidée par instructions.
RECHERCHE
heat 45
Politesse et LLMs : une étude multilingue et multi-modèles avec le corpus PLUM
La politesse améliore les réponses des LLMs jusqu'à 11 %, mais cet effet varie fortement selon la langue et le modèle testé.
RECHERCHE
heat 58
Évaluation des capacités des LLMs pour la conception de médicaments à petites molécules
Un nouveau benchmark formule des tâches chimiques comme environnements RL, révélant que le post-training améliore fortement les petits modèles.
SAFETY
heat 62
ASMR-Bench : un benchmark pour détecter le sabotage dans la recherche ML
Des chercheurs évaluent la capacité des LLMs à détecter des manipulations subtiles dans des codebases de recherche en machine learning.
OPINION
heat 52
Import AI 445 : chronométrer la superintelligence, les IA résolvent des preuves mathématiques de pointe
Jack Clark passe en revue la superintelligence, les IA capables de résoudre des démonstrations mathématiques avancées et un nouveau benchmark de recherche ML.
POLICY
heat 45
Import AI 446 : LLM nucléaires, benchmark chinois et mesure en politique IA
Jack Clark explore pourquoi investir dans des outils de mesure des systèmes IA est l'un des leviers politiques les plus efficaces disponibles.
RECHERCHE
heat 58
PostTrainBench : des LLMs capables d'affiner d'autres LLMs pour de nouvelles tâches
Un nouveau benchmark mesure la capacité des agents IA à automatiser le fine-tuning de LLMs — avec des résultats prometteurs mais encore inférieurs aux humains.
RECHERCHE
heat 72
MirrorCode : un benchmark pour tester la réingénierie logicielle autonome par les agents IA
METR et Epoch publient MirrorCode, un benchmark révélant que les agents IA peuvent réimplémenter des logiciels complexes sans accès au code source.
OPINION
heat 52
Gemma 4 et les conditions de succès d'un modèle open-weights
Nathan Lambert analyse ce qui différencie un modèle open-weights réussi dans un écosystème désormais très concurrentiel.
OPINION
heat 52
Nathan Lambert présente ATOM Report, cours de post-training et son livre sur le RLHF
Un point sur plusieurs projets en cours : rapport sur l'écosystème open-source, livre RLHF et nouvelle métrique d'adoption des modèles.
OPINION
heat 72
Qwen3.6-35B-A3B sur laptop surpasse Claude Opus 4.7 sur le benchmark du pélican
Simon Willison compare les deux grandes sorties du jour via son benchmark SVG fantaisiste : le modèle Alibaba l'emporte sur le nouveau Claude d'Anthropic.
SIGNAL
heat 82
Meta lance Muse Spark, son premier modèle depuis Llama 4
Meta dévoile Muse Spark, modèle hébergé sans open weights, accessible via meta.ai et compétitif avec les grands modèles du marché.
RECHERCHE
huggingfaceheat 58
VAKRA : analyse du raisonnement, de l'usage d'outils et des modes d'échec des agents IA
IBM Research publie une analyse approfondie du benchmark VAKRA, conçu pour évaluer les capacités agentiques des LLMs sous stress réel.
RECHERCHE
deepmindheat 78
Mesurer la progression vers l'AGI : un cadre cognitif proposé par DeepMind
DeepMind publie un framework pour évaluer les avancées vers l'AGI et lance un hackathon Kaggle pour construire les benchmarks associés.

SWE-chat : premier dataset massif d'interactions réelles avec des agents de codage IA

OMIBench : un benchmark de raisonnement multi-images au niveau olympique pour les LVLMs

Diagnostic de l'interprétation de grammaires formelles dans les LLM

Surveillance mondiale des éoliennes offshore par séries temporelles Sentinel-1

SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique

A-MAR : récupération multimodale d'œuvres d'art par agents pour une compréhension fine-grained

Apprentissage par renforcement continu et sûr dans des environnements non-stationnaires

ChatGPT Images 2.0 : test comparatif avec un raton laveur et une radio amateur

Claude prend le contrôle du Mac, Cursor oublie de citer ses sources

Anthropic lance Opus 4.7 et Mythos, son modèle réservé à la cybersécurité

Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles

QIMMA : un leaderboard de LLM en arabe axé sur la qualité

BAGEL : un benchmark pour évaluer les connaissances animalières des LLMs

Les VLMs raisonnent-ils vraiment par la vision ? Une étude rigoureuse du fossé modal

Évaluation à grande échelle des LLMs sur des textes juridiques vietnamiens

VEFX-Bench : un benchmark complet pour l'édition vidéo et les effets visuels par IA

Politesse et LLMs : une étude multilingue et multi-modèles avec le corpus PLUM

Évaluation des capacités des LLMs pour la conception de médicaments à petites molécules

ASMR-Bench : un benchmark pour détecter le sabotage dans la recherche ML

Import AI 445 : chronométrer la superintelligence, les IA résolvent des preuves mathématiques de pointe

Import AI 446 : LLM nucléaires, benchmark chinois et mesure en politique IA

PostTrainBench : des LLMs capables d'affiner d'autres LLMs pour de nouvelles tâches

MirrorCode : un benchmark pour tester la réingénierie logicielle autonome par les agents IA

Gemma 4 et les conditions de succès d'un modèle open-weights

Nathan Lambert présente ATOM Report, cours de post-training et son livre sur le RLHF

Qwen3.6-35B-A3B sur laptop surpasse Claude Opus 4.7 sur le benchmark du pélican

Meta lance Muse Spark, son premier modèle depuis Llama 4

VAKRA : analyse du raisonnement, de l'usage d'outils et des modes d'échec des agents IA

Mesurer la progression vers l'AGI : un cadre cognitif proposé par DeepMind