Toutes les news taguées avec ce sujet.
Une faille de prompt injection dans l'assistant IA de la néobanque Bunq permettait à un attaquant de détourner l'agent via un simple virement.
Apache Burr est un framework open-source conçu pour développer des agents et applications IA robustes et déterministes.
Anthropic déploie Claude Fable 5, un modèle de classe Mythos (au moins 2× la taille d'Opus), accessible à tous, avec des benchmarks impressionnants mais des conditions de rétention de données qui font débat.
DeepMind présente DiffusionGemma, une approche de diffusion appliquée aux LLM promettant un gain de vitesse de 4x en génération de texte.
Simon Willison partage ses observations initiales sur Claude Fable 5, le dernier modèle d'Anthropic, à travers une analyse pratique.
Un chercheur évalue l'apport réel des LLMs dans la démonstration de théorèmes mathématiques complexes liés aux sommes d'Euler.
Un benchmark public de 813 patients atteints de NSCLC EGFR-muté sous osimertinib pour entraîner et évaluer des modèles computationnels.
Des agents LLM surpassent des experts humains sur des tâches biologiques à double usage, soulevant de nouvelles questions de biosécurité.
Un framework sans entraînement qui optimise la compression du KV cache durant le décodage, en allouant dynamiquement les ressources par couche et par tête d'attention.
Une étude remet en cause l'idée que les LLM atteignent le niveau des experts humains, en pointant les limites des benchmarks standards.
Un utilisateur rapporte que Claude Fable 5 refuserait ou saboterait activement certaines tâches liées à la recherche sur les modèles frontier.
Piper découple la stratégie de parallélisme de son implémentation runtime, permettant de composer librement data, pipeline et expert parallelism.
Une étude montre que des critiques alignées pas-à-pas sur le raisonnement du modèle surpassent les méthodes classiques de self-distillation de plus de 16 points.
Un développeur raconte comment une architecture mal calibrée lui a coûté 1 000 $ de frais cloud inattendus — un retour d'expérience sur les coûts cachés de l'IA.
Des chercheurs proposent Q-target, un framework qui réinterprète le SFT comme un problème de conception de distribution de probabilités au niveau du token.
CohereLabs publie North Mini Code sur Hugging Face, un modèle compact orienté génération de code, ciblant directement les workflows des développeurs.
Un thread viral sur Reddit remet en cause la viabilité économique fondamentale de l'IA générative, chiffres à l'appui.
Un tribunal américain suspend un procès et récuse tous les avocats après avoir découvert que les deux camps avaient eu recours à l'IA pour préparer leurs dossiers.
Une étude évalue si les grands modèles de langage peuvent rivaliser avec les méthodes établies d'optimisation d'hyperparamètres en machine learning.
Une étude arXiv interroge l'utilité réelle des LLM dans les pipelines de recherche agentique face aux outils de recherche classiques comme grep.
Des chercheurs proposent un framework unifié permettant de générer des modèles CAO à partir de texte, combinant contrôle précis et fidélité géométrique grâce aux LLM.
Anthropic annonce deux nouveaux modèles de la famille Claude 5 : Fable 5 et Mythos 5, élargissant sa gamme de modèles de nouvelle génération.
Ethan Mollick a eu accès en avant-première à Claude 5 Fable et livre ses impressions : un bond qualitatif significatif sur l'ensemble des tâches testées.
Les outils de génération de code IA produisent un code qui fonctionne en surface mais accumule une dette technique invisible — un phénomène bien connu des équipes qui doivent en assurer la maintenance.
SIGA permet à un agent de codage généraliste de configurer des simulateurs scientifiques complexes en 5 minutes, contre 3 heures pour un expert humain.
FASE remplace les vérifications coûteuses par LLM dans la quantification d'incertitude du code, avec +25 % de corrélation et seulement 0,3 % du coût de calcul.
Cognition publie FrontierCode, un nouveau benchmark conçu pour tester les capacités de codage des modèles frontier sur des tâches complexes et réalistes.
Une nouvelle méthode, DRPO, remplace les masques rigides de DPPO par un régularisateur quadratique continu pour stabiliser l'entraînement par RL des LLM.
Des chercheurs montrent que les évaluations corrélatives standard des LLM sont biaisées et proposent une approche causale rigoureuse.
Face aux limites de SWE-bench, l'équipe de Latent Space lance FrontierCode, un benchmark centré sur la qualité et la maintenabilité du code.