Toutes les news taguées avec ce sujet.
Anthropic déploie Claude Fable 5, un modèle de classe Mythos (au moins 2× la taille d'Opus), accessible à tous, avec des benchmarks impressionnants mais des conditions de rétention de données qui font débat.
Un benchmark public de 813 patients atteints de NSCLC EGFR-muté sous osimertinib pour entraîner et évaluer des modèles computationnels.
Des agents LLM surpassent des experts humains sur des tâches biologiques à double usage, soulevant de nouvelles questions de biosécurité.
Une étude remet en cause l'idée que les LLM atteignent le niveau des experts humains, en pointant les limites des benchmarks standards.
Un framework de test-time prompt learning capable de gérer des flux hétérogènes multi-datasets, avec des gains allant jusqu'à +48 % sur les benchmarks.
ServiceNow AI évalue les systèmes ASR frontier face au code-switching, ce défi linguistique où les locuteurs alternent deux langues mid-phrase.
Une étude évalue si les grands modèles de langage peuvent rivaliser avec les méthodes établies d'optimisation d'hyperparamètres en machine learning.
Une étude arXiv interroge l'utilité réelle des LLM dans les pipelines de recherche agentique face aux outils de recherche classiques comme grep.
Ethan Mollick a eu accès en avant-première à Claude 5 Fable et livre ses impressions : un bond qualitatif significatif sur l'ensemble des tâches testées.
Premier simulateur iOS natif interactif centré sur une identité utilisateur persistante, iOSWorld teste les agents sur 133 tâches réparties dans 26 applications.
Une analyse systématique des mécanismes de mémoire dans les world models vidéo, qui isole capacité, compression, lecture et récurrence.
Un nouveau framework standardise le reporting des évaluations IA en unifiant métadonnées de benchmarks, résultats et modèles dans un enregistrement unique interprétable.
Cognition publie FrontierCode, un nouveau benchmark conçu pour tester les capacités de codage des modèles frontier sur des tâches complexes et réalistes.
Un nouveau benchmark basé sur Unreal Engine 5 évalue des agents VLM dans 12 jeux en modes Solo, PvP et Coop, avec un protocole de réflexion autonome.
Face aux limites de SWE-bench, l'équipe de Latent Space lance FrontierCode, un benchmark centré sur la qualité et la maintenabilité du code.
Un nouveau benchmark teste si les agents IA peuvent réellement se comporter comme des chercheurs humains — et les résultats révèlent des lacunes persistantes.
Une méthodologie data-driven basée sur le modèle Bradley-Terry pour comparer équitablement les algorithmes de recommandation sans biais d'agrégation.
Le nouveau modèle de DeepSeek afficherait de meilleures performances que GPT-5.5 Pro sur les métriques de précision, selon une comparaison publiée sur RuntimeWire.
Une étude benchmark révèle que les LLM s'effondrent sur les problèmes probabilistes contre-intuitifs, avec des chutes de performance allant jusqu'à 34 %.
Une étude quantifie précisément comment les tokens sont consommés par les agents IA dans les tâches de développement logiciel.
Une étude questionne la fiabilité et la valeur réelle des benchmarks utilisés pour évaluer les modèles d'IA.
Tour d'horizon de l'actualité IA : Claude Mythos/Opus 4.7 en chimie, le lancement d'un lab RSI par Sakana AI et les débats autour des benchmarks.
Une illustration SVG d'un hamster jouant au tennis de table, mise en avant sur une plateforme de benchmark de génération d'images IA.
Une étude compare la capacité des adultes et des LLMs à inférer des règles causales conjonctives vs disjonctives en mode exploration active.
Des chercheurs proposent un système agentique capable de générer automatiquement des benchmarks LLM de bout en bout, réduisant l'intervention humaine.
Un nouveau benchmark évalue la détection de texte IA à travers des révisions progressives humain-IA, révélant des patterns de détection non-monotones.
Anthropic met à disposition un outil open-source permettant d'évaluer les capacités des LLM à détecter des failles de sécurité dans le code.
Un hypernetwork produit des adapters LoRA spécifiques à chaque dépôt, éliminant le surcoût de tokens à l'inférence tout en absorbant l'évolution du code.
Des agents IA gèrent un vrai magasin physique. Les comportements émergents révèlent ce que les benchmarks classiques ne capturent pas.
Un nouveau benchmark issu de cas de patients standardisés met en lumière les limites des LLM face à des scénarios cliniques réalistes et multi-tours.