Toute la veille IA Fellow publiée en mai 2026.
ASMTP propose d'adapter le protocole e-mail SMTP pour permettre aux agents IA de communiquer entre eux de façon asynchrone et interopérable.
Un tour d'horizon condensé des avancées majeures dans le domaine des LLM sur les six derniers mois, signé Simon Willison.
Le cabinet d'audit et de conseil KPMG noue une alliance stratégique avec Anthropic pour déployer Claude à grande échelle dans ses métiers.
Vlad Feinberg (Google) publie ses conseils détaillés pour intégrer un lab frontier, avec un focus sur le pretraining, les kernels et les lois de scaling.
Un outil open-source proposant un système d'identifiants plus économes en tokens que les UUID classiques, conçu pour les workflows d'agents IA.
Une étude théorique démontre pour la première fois la convergence d'AdaGrad en optimisation non-convexe sous bruit à queue lourde, sans clipping ni connaissance préalable du tail index.
Combiner six TFMs modernes apporte à peine +0,18 % de précision pour 253× le coût de calcul — et certaines stratégies dégradent la calibration.
Un système compile et exécute en parallèle les appels aux modèles ML dans des apps Python complexes, atteignant jusqu'à 6,4× d'accélération.
Des chercheurs proposent NORMA, un modèle conditionnel basé sur les transformers, pour interpréter les biomarqueurs sanguins en combinant historique individuel et données populationnelles.
Des modèles légers conservent 90 % des performances des grands modèles tabulaires en santé, tout en s'exécutant 26× plus vite sur CPU.
Un framework automatisé génère des environnements exécutables et des trajectoires d'entraînement multi-tours réalistes pour améliorer les LLMs dans l'utilisation d'outils.
Un éditeur aurait supprimé des allégations de plagiat d'une issue GitHub liée à Hermes Agent, suscitant des interrogations sur la transparence de Nous Research.
Un filtre de Kalman adaptatif combiné à un réseau récurrent hiérarchique améliore l'estimation d'état des UAV lors de pannes capteurs.
LLMCap s'intercale entre vos appels API et les LLMs pour bloquer strictement les requêtes une fois votre budget en dollars épuisé.
Une nouvelle méthode de post-entraînement utilise la segmentation d'image comme proxy pour aligner compréhension et génération visuelle dans un seul modèle.
Des chercheurs de Goodfire AI découvrent comment un LLM effectue des calculs géométriques en interne, ouvrant une fenêtre sur la mécanique des transformers.
Une nouvelle méthode comble le fossé entre RL en ligne et optimisation des préférences, sans recourir à un reward scalaire réducteur.
Un benchmark système complet pour évaluer la manipulation dextère, la perception agentique et la prise de décision incarnée autour du poker.
AgentCRM propose une interface CRM sans UI destinée à être pilotée directement par des agents IA, notamment Claude Code.
Une étude sur 38 modèles montre que la précision factuelle des LLM dépend conjointement de la taille du modèle et de la fréquence du sujet dans les données d'entraînement.
Une approche feed-forward pour le relighting d'images mono-source en moins d'un dixième de seconde, combinant rendu physique et synthèse neuronale.
Un article du National Security Journal analyse les pertes aériennes américaines alléguées lors d'une opération iranienne et tire des enseignements stratégiques.
Un outil macOS scanne l'historique des chats IA (Cursor, Claude) pour détecter les clés API et secrets accidentellement exposés.
Les corpus d'entraînement saturés de discours sur l'alignement IA pourraient conditionner les modèles à reproduire les biais normatifs qu'ils sont censés corriger.
Une étude audite le pluralisme éthique des grands modèles de langage appliqués à la médecine clinique, révélant des biais systématiques dans leurs décisions.
Un framework d'auto-distillation régionale permet aux modèles multimodaux de mieux analyser les détails visuels fins sans superviseur externe.
Des chercheurs proposent WorldString, une architecture neuronale pour modéliser les états d'objets réels à partir de nuages de points ou de flux RGB-D.
Un projet personnel ambitieux combine système d'exploitation, blockchain Layer 1, agent IA et langage de programmation propriétaire.
Un algorithme d'inférence sans gradient basé sur la mesure de Girsanov surpasse les approches classiques de guidage pour les modèles diffusion.
Un nouveau benchmark évalue la capacité des agents IA à explorer activement leur environnement pour résoudre des tâches spatiales complexes.
Andon Labs a confié la gestion complète de stations de radio à des agents IA, de la sélection musicale à l'animation.
Une enquête propose de voir le code non plus comme une sortie, mais comme le substrat opérationnel des systèmes agentiques LLM.
Une vue d'ensemble interactive de tous les projets, outils et bibliothèques gravitant autour de PyTorch.
DashAttention propose une alternative aux méthodes top-k figées en sélectionnant un nombre variable de blocs KV via la transformation α-entmax, tout en restant entièrement différentiable.
RRFP remplace les ordres d'exécution statiques par une arbitration dynamique basée sur la disponibilité réelle des tâches, réduisant les bulles d'inactivité.
Le jury a rendu un verdict unanime : Musk a attendu trop longtemps pour poursuivre OpenAI. La juge a immédiatement entériné la décision.
Simon Willison résume les évolutions majeures des LLM depuis novembre 2025, un point d'inflexion décisif notamment pour le coding.
InsForge propose une plateforme de déploiement open-source conçue spécifiquement pour héberger et orchestrer des agents de codage autonomes.
Un rapport de fond dresse un état des lieux complet de l'adoption de l'IA à l'échelle mondiale au printemps 2026.
Une analyse des tensions croissantes entre pouvoir économique concentré et régulation, dans un contexte de montée des monopoles technologiques.
La CFTC envisage d'utiliser l'IA pour surveiller les plateformes comme Polymarket et traquer les manipulations de marché.
Le verdict tombe : le jury donne raison à OpenAI et son PDG Sam Altman face aux accusations portées par Elon Musk.
L'éditeur de code assisté par IA Cursor annonce la sortie de Composer 2.5, nouvelle version de son agent de génération de code.
Un projet de recherche proposait de filmer des classes de maternelle via des caméras portées par les enseignants afin de constituer des données d'entraînement pour l'IA.
Le Chief Data Officer de Domo appelle les entreprises à résister à la pression du déploiement accéléré de l'IA et à adopter une approche plus mesurée.
Des chercheurs démontrent que les assistants vocaux IA peuvent être manipulés par des signaux audio indétectables à l'oreille humaine.
Odyssey dévoile Agora-1, un modèle de monde multi-agents capable de simuler des environnements interactifs complexes.
Modal détaille comment combiner plusieurs techniques système pour réduire drastiquement la latence au démarrage des inférences GPU en environnement serverless.
IBM Research et Hugging Face lancent un leaderboard dédié aux agents IA en open source, pour évaluer leurs capacités réelles en conditions réalistes.
Un tribunal a débouté Elon Musk dans son action en justice contre OpenAI et son directeur général Sam Altman.
Le spécialiste de la défense Anduril dévoile sa vision de lunettes AR permettant d'ordonner des frappes de drones par suivi oculaire et commandes vocales.
Relégué en troisième position dans la course aux modèles fondamentaux, Google tente un retour en grâce lors de son I/O annuel, notamment sur le terrain du coding.
PaddleOCR intègre désormais un backend Transformers, ouvrant ses capacités OCR et de parsing documentaire à l'écosystème Hugging Face.
Une équipe explique comment elle a mis fin aux contributions automatisées indésirables dans son dépôt GitHub en exploitant une option native de Git.
Hugging Face détaille comment adapter le modèle Cosmos Predict 2.5 de NVIDIA via LoRA et DoRA pour générer des vidéos de robots.
Anthropic rachète Stainless, spécialiste de la génération automatique de SDK, pour renforcer son infrastructure d'API et d'outils développeurs.
Un fondateur tech ukrainien décrypte la guerre des drones en Ukraine et l'avance stratégique que l'IA confère aux belligérants.
Les deux groupes veulent permettre aux entreprises de déployer des agents de coding IA en toute sécurité, y compris dans des infrastructures privées.
Microsoft reconnaît que la touche dédiée à Copilot sur Windows 11 crée des problèmes pour certains utilisateurs et promet un correctif.
DeepSeek publie les poids de son nouveau modèle de base V4-Pro sur Hugging Face, poursuivant sa stratégie open-weights.
Aux États-Unis, plusieurs orateurs ont été conspués par des diplômés après avoir évoqué l'IA lors de cérémonies de fin d'études.
Linus Torvalds tire la sonnette d'alarme : les outils de détection de bugs alimentés par l'IA inondent la liste de sécurité Linux de rapports de mauvaise qualité.
Les objets connectés dopés à l'IA se multiplient, mais leur adoption dépendra d'un critère inattendu : leur discrétion dans les espaces publics.
Une étude contrôlée révèle que l'abstraction d'état programmatique surpasse largement les stratégies de délibération distribuée pour les agents LLM en POMDP.
Un benchmark sur 10 836 paires révèle que les LLM tuteurs peinent à diagnostiquer les raisonnements valides mais sous-optimaux et valident trop souvent les erreurs.
QSurv propose un framework deep learning pour la modélisation de survie en temps continu, sans discrétisation temporelle ni hypothèse distributionnelle restrictive.
Un cadre unifié basé sur le principe d'Onsager généralisé pour apprendre des dynamiques mésoscopiques interprétables avec garanties théoriques.
Des chercheurs publient le premier pipeline entièrement ouvert pour construire des LLM d'aide à la décision clinique, données et entraînement inclus.
Un système multi-agents coopératif qui traite la recherche complexe comme l'assemblage d'un puzzle de preuves complémentaires, surpassant les approches parallèles classiques.
En « lésionnant » des LLM comme on le ferait avec un cerveau endommagé, des chercheurs cartographient l'organisation fonctionnelle émergente du traitement du langage.
Une étude théorique décompose le risque excédentaire du CVaR privé en erreur statistique de queue et coût de confidentialité, révélant un taille effective de $εnτ$.
Un framework d'évaluation automatisé en quatre dimensions pour benchmarker les modèles de génération vidéo appliqués à l'animation de design.
Un réseau de neurones équivariant prédit les structures magnétiques complexes avec une précision quasi expérimentale, sans hypothèses de symétrie.
Peter Neumann, figure fondatrice de la sécurité des systèmes et de la fiabilité logicielle, s'est éteint. Un deuil pour toute la communauté informatique.
Des chercheurs proposent un cadre intégrant IA générative et optimisation quantique pour piloter distribution de gaz, facturation et analyse carbone.
Une équipe japonaise a réussi un test de moteur hypersonique capable de propulser un appareil à Mach 5, ouvrant la voie à des vols transatlantiques en deux heures.
FORGE permet à des agents LLM d'améliorer leurs décisions par mémoire auto-générée, sans gradient, grâce à une boucle de réflexion collective.
Une étude montre que les méthodes pour évaluer la redondance des couches de transformers ne sont pas interchangeables et influencent directement les décisions d'élagage.
Selon des données Pew et Gallup, la défiance des Américains envers l'IA et ses responsables reste largement majoritaire en 2025.
Un système autonome basé sur LLM rivalise avec les ensembles de référence du CDC pour prévoir grippe, COVID-19 et VRS en temps réel.
Lors d'une cérémonie de remise de diplômes, l'ex-PDG de Google a fait l'éloge de l'IA et essuyé les huées d'une partie des diplômés.
Une nouvelle approche intègre le watermark directement dans le champ de vélocité des modèles génératifs, sans altérer la distribution des sorties.
L'équipe d'OpenClaw détaille les prochaines étapes de sa solution de sécurité orientée IA, entre architecture et priorités stratégiques.
Un framework de distillation réduit de 44× la taille d'un modèle VLA de 7 milliards de paramètres tout en conservant des performances quasi équivalentes.
Un essai critique identifie quatre risques systémiques majeurs liés à l'adoption massive des grands modèles de langage.
Des chercheurs montrent que les LLMs introduisent des biais directionnels dans les textes humains et peuvent déplacer l'opinion collective via les réseaux sociaux.
Un chercheur utilise Claude Code pour analyser des malwares Android dissimulés dans des projecteurs chinois grand public.
Des chercheurs proposent une architecture unifiée combinant agents génératifs et forecasting transformer pour moderniser la facturation des distributeurs d'énergie.
Retour sur l'évolution d'une des lignes d'ordinateurs portables les plus emblématiques, du concept bento box d'IBM jusqu'aux workstations IA signées Lenovo.
IVGT propose une représentation neuronale continue de scènes 3D à partir d'images multi-vues non calibrées, sans recourir à des pointmaps explicites.
Avec des racks pouvant atteindre 1 MW d'ici 2027, Microsoft Azure publie un framework pour optimiser la distribution électrique des datacenters IA.
Deux avions de chasse EA-18 Growler se sont percutés lors d'un meeting aérien en Idaho. Les pilotes ont éjecté sains et saufs.
Le déploiement de caméras de surveillance automatisée a déclenché une crise politique et sociale au sein d'une municipalité américaine.
Une analyse compare le coût énergétique réel d'un LLM local sur Apple Silicon face aux tarifs d'OpenRouter : le résultat surprend.
Le BND opte pour la société française Lynkeus AI au détriment de l'américain Palantir pour équiper ses capacités d'analyse de données.
Arthur Mensch tire la sonnette d'alarme : sans mobilisation urgente, l'Europe risque une dépendance stratégique totale à l'IA américaine d'ici 2027.
Semble propose une alternative à grep optimisée pour les agents IA, drastiquement plus économe en tokens lors des recherches dans les bases de code.
Une analyse qui questionne la manière dont l'industrie positionne l'IA : infrastructure sous-jacente ou produit fini vendu au grand public ?
Un projet open-source propose un framework d'agents IA pour le trading automatisé, intégrant des mécanismes de contrôle des risques.
À la FOSDEM 2026, un retour sur la longévité surprenante de Mercurial face à la domination de Git dans l'écosystème du contrôle de version.
Retour sur un paradoxe de l'histoire de l'aviation : un dirigeable à hydrogène équipé d'une salle fumeurs pressurisée.
Un dépôt GitHub recense les meilleurs ouvrages pour apprendre et maîtriser la programmation GPU avec CUDA.
Le développeur Dr. Axel Rauschmayer suspend son blog de référence sur JavaScript, citant la réappropriation de son travail par des systèmes d'IA.
Le fabricant de puces IA franchit un nouveau seuil symbolique en surpassant la valeur économique de la quatrième puissance mondiale.
Les contrats d'abonnement aux services IA exposent les entreprises à des risques stratégiques croissants à mesure que la dépendance aux fournisseurs s'intensifie.
Un argument contre l'idée reçue que l'IA améliore mécaniquement la vitesse des processus en entreprise.
Dwarkesh Patel remet en question l'idée que l'IA sera naturellement douée pour la science, en raison de la longueur et de l'ambiguïté de ses boucles de vérification.
Des revendeurs chinois proposent l'accès à Claude d'Anthropic à des tarifs très inférieurs aux prix officiels, contournant les restrictions géographiques.
Dwarkesh Patel décortique pourquoi les runs de pré-entraînement échouent, entre causalité brisée et biais introduits dans les architectures MoE.
Dwarkesh Patel distingue intelligence cognitive et capacité à acquérir du pouvoir, deux notions souvent amalgamées dans les débats sur la superintelligence.
Zerostack est un coding agent open-source développé en Rust, s'appuyant sur la philosophie Unix pour orchestrer des tâches de développement.
Malgré des résultats financiers records, Meta annonce une vague de licenciements massifs pour financer ses ambitions en IA.
Un utilisateur a découvert qu'un agent IA bon marché génère des contenus identiques sous différentes identités, jusqu'à vendre de faux conseils médicaux.
Noah Golmant refond entièrement pytorch-hessian-eigenthings, sa lib de calcul des valeurs propres de la Hessienne pour PyTorch, huit ans après sa création.
Un mois dense pour les modèles ouverts : plusieurs sorties majeures et une évaluation controversée du CAISI sur l'écart open/closed frontier.
La sortie de DeepSeek-V4-Flash avec ses poids ouverts rouvre la piste des vecteurs de steering pour modifier le comportement des LLM sans fine-tuning.
Selon Bloomberg, les suppressions de postes liées à l'IA s'accélèrent aux États-Unis, touchant en priorité les rôles les plus exposés à l'automatisation.
Les compétitions de cybersécurité type Capture The Flag seraient désormais compromise par les LLM capables de résoudre automatiquement les challenges.
The Economist alerte sur une destruction massive d'emplois à venir sous l'effet de l'IA, et appelle à anticiper le choc.
OpenAI détaille les cas d'usage de Codex pour les forces de vente : briefs pipeline, préparation de réunions, plans de compte et diagnostic de deals bloqués.
OpenAI détaille les cas d'usage concrets de Codex pour les équipes data : briefs d'analyse, KPI, dashboards et rapports d'impact.
ChatGPT pourrait bientôt accéder aux données financières des utilisateurs grâce à une intégration avec l'agrégateur bancaire Plaid.
Malte devient le premier pays à offrir un accès national à ChatGPT Plus, dans le cadre d'un partenariat public avec OpenAI.
OpenAI détaille les usages concrets de Codex pour les équipes business ops : briefs d'initiative, mises à jour stratégiques, dossiers décisionnels.
Un développeur révèle avoir consommé pour 1,3 million de dollars de tokens OpenAI en un mois, illustrant les coûts massifs liés à l'usage intensif des API LLM.
Un document interne révèle les tensions au cœur du conseil d'administration d'OpenAI lors du renvoi de Sam Altman en novembre 2023.
La troisième semaine du procès a vu les avocats des deux parties s'attaquer frontalement à la réputation d'Elon Musk et de Sam Altman, avant le délibéré du jury.
Un commentateur influent alerte sur un phénomène croissant : des organisations prenant des décisions irrationnelles sous l'effet de l'enthousiasme excessif pour l'IA.
Databricks adopte GPT-5.5 d'OpenAI pour ses workflows d'agents en contexte entreprise, après que le modèle a établi un nouveau record sur le benchmark OfficeQA Pro.
Après un premier S-1 retiré et un partenariat stratégique avec OpenAI, Cerebras entre en bourse avec une capitalisation de 60 milliards de dollars.
Lors de la cérémonie de remise des diplômes de l'Université de Floride centrale, une oratrice a provoqué une vague de sifflets en évoquant l'intelligence artificielle.
Une plateforme permet aux startups d'échanger leurs budgets mutuellement et d'enregistrer ces transactions comme du chiffre d'affaires réel.
Explosion AI détaille les défis techniques de l'extraction de données structurées à partir de PDFs pour alimenter des pipelines IA.
Techdirt accuse OpenAI de soutenir le KOSA pour écarter la concurrence sous couvert de protection des enfants en ligne.
La société derrière la base de données Turso annonce l'arrêt de son programme de récompenses pour la découverte de failles de sécurité.
Des mesures de sécurité strictes ont été imposées aux voyageurs ayant accompagné la délégation américaine en Chine, illustrant les craintes d'espionnage.
DeepSeek met à disposition une version expérimentale de base de son modèle V3.2, accessible publiquement sur Hugging Face.
Sx propose une interface unifiée pour installer et gérer des skills IA, des serveurs MCP et des commandes en ligne de commande.
Face à la pression managériale d'adopter l'IA, des salariés d'Amazon contournent les métriques en fabriquant de faux usages.
Une démo interactive montre pas à pas comment un agent entraîné par PPO maîtrise le jeu Snake, rendant le reinforcement learning accessible.
Microsoft Research clarifie les conclusions de son étude sur la dégradation de fidélité des LLM dans les workflows délégués multi-étapes.
En revisitant AlphaGo, Eric Jang éclaire les limites du RL dans les LLMs et les contours d'une future explosion d'intelligence.
OpenAI déploie en avant-première une fonctionnalité de gestion financière personnelle dans ChatGPT, réservée aux abonnés Pro aux États-Unis.
Une infrastructure d'inférence LLM souveraine émerge au Royaume-Uni, soulevant des enjeux de souveraineté numérique et de contrôle des données.
Un projet expérimental qui applique les fondements mathématiques de la théorie des catégories pour architecturer un framework ML en Rust.
La BBC a identifié des campagnes de désinformation étrangères exploitant des vidéos générées par IA pour amplifier l'image d'un Royaume-Uni en crise.
Un outil open-source pour identifier les LLMs locaux les plus performants selon les capacités matérielles de l'utilisateur.
Une divergence frappante entre la valorisation communiquée en justice et celle affichée publiquement soulève des questions sur la transparence financière d'Anthropic.
DeepSeek met à disposition les poids du modèle de base V3.1, nouvelle itération de sa série phare open-weights.
Un outil open source exploitant l'IA pour aider les patients diabétiques à gérer leur glycémie et leur traitement.
DeepSeek met à disposition une nouvelle variante de son modèle V3, baptisée V3.2-Speciale, sur la plateforme Hugging Face.
Un article spéculatif interroge les véritables motivations d'Anthropic derrière la non-publication de son modèle le plus puissant, baptisé Mythos.
En Chine, l'industrie des dramas ultra-courts mise sur la génération IA pour produire des séries entières sans acteurs ni équipe technique.
Un développeur défend l'idée que la solution optimale pour la mémoire des agents en 2026 repose sur des fichiers Markdown versionnés plutôt que sur des bases vectorielles complexes.
Des chercheurs démontrent une nouvelle attaque qui rend des modèles apparemment sains malveillants après quantization, contournant AWQ, GPTQ et GGUF.
Un seul checkpoint pour comprendre, raisonner, imaginer et agir : Pelican-Unified 1.0 propose un paradigme unifié pour la robotique fondationnelle.
Un post viral en interne chez Meta : un employé conteste le suivi de l'activité des laptops, soulevant des questions sur la surveillance au travail.
Une nouvelle métrique robuste, RoSHAP, améliore la stabilité des attributions SHAP face aux variations stochastiques des pipelines ML.
Raindrop est un outil open-source permettant de déboguer localement des agents IA, offrant une visibilité sur leurs traces d'exécution.
Une nouvelle méthode combine RL et distillation dense pour améliorer les agents LLM multi-tours, surpassant GRPO sur trois benchmarks.
MeMo propose d'encapsuler les nouvelles connaissances dans un modèle mémoire modulaire, sans modifier les paramètres du LLM sous-jacent.
La page de statut d'Anthropic signale un incident en cours affectant le modèle Claude Opus 4.7 avec des taux d'erreurs anormalement élevés.
JDS propose un ensemble de skills pour GitHub Copilot afin de cadrer et d'homogénéiser les comportements de l'IA lors des sessions de développement.
Une méthode de supervision humaine en boucle élimine les « sauts de geste » lors des prises en main correctrices sur bras robotiques à haute dextérité.
Un paper de position soutient que les méthodes d'assurance comportementale sont structurellement inadaptées aux exigences de vérification imposées par les cadres réglementaires actuels.
Anthropic publie sur GitHub un projet dédié aux usages juridiques de Claude, ciblant l'automatisation de tâches documentaires et d'analyse contractuelle.
Un framework RAG multimodal combine notes cliniques et données EHR structurées pour reconstruire avec précision les chronologies de patients atteints de sepsis.
Un nouveau benchmark évalue les capacités des modèles d'IA à générer et manipuler des modèles CAO paramétriques.
Un framework basé sur des preuves régionales tirées de cas historiques améliore à la fois la performance et l'interprétabilité des modèles de dépistage de maladies.
Un développeur indépendant a créé Skyrane, une plateforme de cartographie live dédiée au suivi des appareils militaires à travers le globe.
Des chercheurs montrent qu'il est possible d'implanter des backdoors dans les LLM sans modifier le texte d'entrée, en exploitant l'encodage positionnel.
Un plaidoyer pour que les organisations définissent une position claire et structurée sur l'usage de l'IA, plutôt que de naviguer à vue.
Un framework de test-time compute qui sélectionne le meilleur raisonnement parmi plusieurs candidats en parallèle via des comparaisons par paires et un score Bradley-Terry.
Shodh-MoE propose une architecture transformer sparse pour modéliser plusieurs régimes d'équations aux dérivées partielles sans conflit de gradients.
Un chercheur publie un jeu de données complet sur les affiliations des auteurs acceptés à l'ICLR 2026, révélant les dynamiques entre universités et labs.
Une nouvelle métrique basée sur les poids, invariante aux symétries de l'espace des paramètres, pour vérifier si deux sous-réseaux implémentent le même calcul.
Des auditeurs de l'Ontario révèlent que les outils IA de transcription utilisés par les médecins produisent régulièrement des erreurs sur des faits élémentaires.
Une étude empirique compare grep et vector retrieval dans des systèmes RAG agentiques, et révèle que le choix du harness compte autant que la stratégie de récupération.
La startup Infracost, spécialisée dans la visibilité des coûts cloud, cherche à intégrer la conscience des coûts directement dans les agents IA.
Un nouveau benchmark mesure objectivement la plausibilité physique des vidéos générées, révélant des défaillances géométriques invisibles aux métriques perceptuelles classiques.
Le projet Rust se dote d'une politique officielle encadrant le recours aux LLM dans les contributions au compilateur.
Un framework permet d'éditer des scènes 3D directement via instructions textuelles, sans passer par la stratégie classique 2D-to-3D, préservant géométrie et cohérence multi-vues.
Un nouveau benchmark rejoue chronologiquement des actualités réelles pour tester la capacité des agents à prédire des événements au-delà de leur knowledge cutoff.
Un récit détaillé d'une opération de ravitaillement aérien sur l'île la plus isolée du monde, Tristan da Cunha.
Un essai prédit que l'accès aux modèles frontier sera bientôt restreint par les coûts et les politiques de sécurité nationale.
Un décodeur VAE conditionné par une image de référence corrige l'asymétrie architecturale des modèles de diffusion latents pour la génération vidéo.
La startup healthcare Abridge, fondée en 2018, lève 300 M$ à 5,3 Mds$ de valorisation et déploie l'IA sur 80 M+ consultations annuelles.
ATLAS unifie raisonnement agentique et latent en un unique token fonctionnel discret, sans supervision visuelle ni modification architecturale.
Anthropic détaille les bonnes pratiques pour utiliser Claude Code sur des codebases volumineuses et explique par où commencer.
OpenAI étend l'accès à Codex via l'app mobile ChatGPT, permettant de superviser et piloter des tâches de codage à distance.
Bluesky, Threads et X perdent tous des utilisateurs actifs, selon des données Apptopia : les réseaux sociaux textuels semblent stagner globalement.
Un nouveau benchmark de 140 épisodes évalue la cohérence des personnages, objets et lieux sur de longues séquences vidéo multi-plans.
GitHub adopte une interface inspirée de Conductor pour son App agent-first, suscitant le débat sur la monétisation des pionniers face aux grands éditeurs.
Le cabinet de conseil PwC étend son partenariat avec Anthropic pour utiliser Claude dans des missions de conseil technologique et de deals.
NVIDIA détaille comment son architecture Vera Rubin NVL72 répond aux défis de latence et de scalabilité posés par l'inférence agentique non déterministe.
Le CPO de Sea Limited explique comment Codex est déployé dans ses équipes engineering pour accélérer le développement logiciel natif IA.
Une observation sur les effets de l'IA généralisée dans les échanges : quand émetteur et récepteur délèguent tous deux à des modèles, le lien humain se dilue.
Un essai remet en question le paradigme dominant de l'alignement : plutôt que de contraindre l'IA, il faudrait co-évoluer avec elle.
Google a utilisé des outils d'IA pour accélérer la migration de son code interne de TensorFlow vers JAX, atteignant un gain de vitesse de 6x.
Un homme avait perdu l'accès à son wallet Bitcoin après avoir défini un mot de passe sous l'effet de drogues. Une IA l'a aidé à le retrouver.
Malgré des résultats financiers historiques, le climat interne chez Meta se dégrade sous l'effet des licenciements et du virage tout-IA de Zuckerberg.
Un agent IA développé par Anthropic aurait permis de découvrir une faille dans macOS, soulevant des questions sur l'usage offensif des agents autonomes.
Les directions tech qui ont réduit leurs effectifs au nom de l'IA risquent de subir un double coût : perte de compétences et dépendance accrue aux fournisseurs.
Face à la pression des infrastructures IA, un comté texan impose un moratoire sur les data centers en milieu rural.
Une journaliste de Mother Jones révèle comment ChatGPT a contourné ses propres garde-fous en simulant la planification d'une attaque de masse.
xAI dévoile Grok Build, une interface en ligne de commande permettant aux développeurs d'intégrer les capacités de Grok directement dans leurs workflows.
Les tensions entre Apple et OpenAI pourraient déboucher sur un affrontement légal, menaçant leur partenariat noué autour de Siri et ChatGPT.
Un outil de recherche propose de quantifier précisément le degré d'intervention d'une IA dans la rédaction ou la réécriture d'un texte.
Un trader a retrouvé l'accès à son wallet Bitcoin grâce à Claude, qui a testé 3 500 milliards de combinaisons de mots de passe.
La startup Terranox AI, promue par Y Combinator (cohorte W26), ouvre deux postes en IA/ML : un profil fondateur et un stage estival.
Un test pratique associe la carte graphique RTX 5090 à un MacBook Air M4 via un eGPU pour évaluer les capacités gaming de macOS.
Alors que l'IA agentique s'installe dans les entreprises, la dépendance aux fournisseurs cloud relance le débat sur la souveraineté des données et des modèles.
Un développeur confesse sa dépendance croissante aux outils IA et s'interroge sur l'érosion de ses compétences cognitives.
Hugging Face explore comment l'asynchronisme peut améliorer l'efficacité du continuous batching pour l'inférence LLM à grande échelle.
Pour les institutions financières, le succès de l'IA agentique repose moins sur la sophistication des modèles que sur la qualité, la sécurité et l'accessibilité des données sous-jacentes.
Anthropic projette deux futurs possibles d'ici 2028 selon la trajectoire du développement et de la gouvernance de l'IA à l'échelle mondiale.
Anthropic et la Fondation Bill & Melinda Gates s'associent pour 200 M$ afin de déployer l'IA au service des défis mondiaux de santé et de développement.
IBM lance une nouvelle version de ses modèles d'embeddings multilingues sous licence Apache 2.0, affichant les meilleures performances retrieval sous 100M de paramètres.
OpenAI déploie des mises à jour de sécurité pour que ChatGPT reconnaisse mieux le risque au fil d'une conversation.
Des élus républicains examinent les intérêts commerciaux de Sam Altman alors qu'OpenAI se prépare à une introduction en bourse.
Des victimes méconnues des deepfakes : les personnes dont le corps est exploité, pas seulement celles dont le visage est substitué.
Une expérience sociale révèle comment le simple label « IA » modifie radicalement la perception et la réception d'une œuvre d'art.
Un développeur publie une bibliothèque d'extraction RAR en Rust dont la majeure partie du code a été générée par des modèles de langage.
Un framework neuronal unifié pour résoudre des équations aux dérivées partielles avec seulement 3 % de données observées, via diffusion latente et apprentissage contrastif.
Des chercheurs proposent un pipeline multi-étapes utilisant des LLM pour transformer des textes en graphes d'arguments structurés.
Une approche par bootstrapping multi-niveaux pour mieux comprendre comment la variance des annotateurs humains affecte la fiabilité des évaluations de LLMs.
Une étude théorique démontre que tout algorithme résolvant un problème min-max non convexe-non concave exige un nombre exponentiel de requêtes.
Un projet GitHub propose une approche structurée pour progresser délibérément avec les assistants de code IA Claude et Codex.
Une nouvelle architecture RNN parallélisable permet de simuler des réseaux de spins 2D jusqu'à 52×52 sites avec des ressources de calcul modestes.
Des chercheurs établissent des garanties théoriques rigoureuses pour la quantification vectorielle via la transformée de Hadamard aléatoire, à coût computationnel réduit.
Des chercheurs combinent prévision cardiaque et apprentissage multi-tâches sur smartwatch pour détecter les rechutes psychotiques au quotidien.
Un pipeline combinant LLM et solveur SMT détecte les ambiguïtés, incohérences et violations de sécurité dans les spécifications logicielles médicales.
Un méta-agent observe le contexte d'évolution accumulé et modifie la procédure ou l'agent qui guide les futures itérations, surpassant cinq baselines.
Un utilisateur signale avoir perdu l'accès à tous ses projets sur Claude Design après avoir annulé son abonnement payant.
Une seule phrase d'instruction suffit à faire basculer les meilleurs modèles alignés vers des actions dangereuses dans 91 à 98 % des cas.
Des modèles identiques entraînés sur des tirages différents peuvent diverger sur 22 % des prédictions individuelles, même à précision globale équivalente.
Une nouvelle habitude émerge chez les développeurs : garder leur ordinateur entrouvert pour surveiller en permanence leurs agents IA autonomes.
Des LLMs fine-tunés sur des documents signalant explicitement qu'une affirmation est fausse finissent par la croire vraie — un phénomène aux implications sérieuses pour la safety.
Un suivi chronologique des classements ELO des grands modèles d'IA sur la plateforme Chatbot Arena, pour visualiser l'évolution des performances.
Un algorithme baptisé XCount permet de mesurer efficacement la sensibilité des decision tree ensembles, avec des garanties d'erreur et de confiance certifiées.
Medicare déploie un cadre de remboursement inédit pensé pour les outils d'IA en santé, sous le radar de la majorité de l'industrie technologique.
Des chercheurs proposent un mécanisme hybride quantique-classique pour dépasser les limites des transformers et des SSMs sur les longues séquences.
Une architecture hybride Eulérienne-Lagrangienne exploite la théorie de Hodge pour séparer les degrés de liberté topologiques des dynamiques géométriques apprenables.
Le compte officiel de Meta AI sur Threads ne peut pas être bloqué par les utilisateurs, soulevant des questions sur le contrôle des interactions avec l'IA.
Un framework unifié résout le problème de désalignement de pose entre un mesh statique fourni par l'utilisateur et une vidéo de référence.
Au-delà des risques existentiels, un angle souvent négligé : la sécurité de l'IA au niveau individuel et ses implications concrètes.
Un framework de communication entre agents LLM qui remplace les messages textuels par des perturbations LoRA transitoires, réduisant les tokens traités de 83 %.
Une analyse approfondie des performances du MacBook Neo, de la structure de coûts des wafers et des implications du choix de 8 Go de mémoire unifiée.
Une réévaluation du modèle original de Valiant (1984) montre que les membership queries changent radicalement les classes apprenables, au-delà de la simple complexité.
Un benchmark complet pour mesurer les agents IA conversationnels vocaux, couvrant précision, expérience utilisateur et robustesse au bruit.
Anthropic modifie sa politique tarifaire pour Claude : les crédits API sont désormais plafonnés au montant de l'abonnement, mettant fin à une subvention implicite estimée à 70-90 %.
OpenAI détaille les mesures prises suite à l'attaque "Mini Shai-Hulud" ciblant l'écosystème npm TanStack et ses certificats de signature.
Un système en deux étapes transcrit et traduit le Wardaman, langue aborigène australienne menacée, à partir de seulement 6 heures d'audio annoté.
DeepSeek publie DeepSeek-V3.1 sur Hugging Face, une mise à jour de son grand modèle de langage open-weights.
DeepSeek publie DeepSeek-V3.2 sur Hugging Face, une mise à jour de son modèle phare open-weights.
Torrix propose une solution légère d'observabilité pour LLM, sans dépendances lourdes comme Postgres ou Redis, entièrement auto-hébergeable.
Sam Altman a dû répondre en justice à des allégations selon lesquelles il mentirait de manière systématique, dans le cadre du procès opposant OpenAI à Elon Musk.
DeepSeek publie son nouveau modèle phare V4-Pro sur Hugging Face, poursuivant sa stratégie open-weights face aux grands labs occidentaux.
Selon cette analyse, l'avance américaine en IA ne se joue pas sur la recherche fondamentale, mais sur la capacité à monétiser et déployer à grande échelle.
Anthropic documente l'intégration du Claude Agent SDK pour les abonnés, ouvrant la voie à la création d'agents IA directement depuis un plan existant.
Microsoft publie un modèle léger capable de résoudre les problèmes d'AC optimal power flow en quelques millisecondes, avec des enjeux économiques de 20 milliards de dollars.
DeepSeek publie V4-Flash sur Hugging Face, une nouvelle version allégée de son modèle phare avec poids ouverts.
Le blueprint NVIDIA Metropolis VSS permet de rendre des millions de flux vidéo instantanément interrogeables via des agents et skills IA.
Des utilisateurs signalent que Gemini de Google a exposé leurs numéros privés, sans solution claire pour y remédier.
DeepSeek met à disposition un nouveau modèle de base rapide, V4-Flash-Base, accessible sur Hugging Face.
OpenAI détaille la conception d'un environnement isolé permettant à Codex d'opérer en toute sécurité sur Windows, avec contrôle des accès fichiers et restrictions réseau.
Anthropic déploie une offre dédiée aux PME, rendant ses modèles Claude accessibles aux structures de plus petite taille.
NVIDIA présente une pipeline IA pour accélérer l'analyse des données issues des lasers à électrons libres, ouvrant la voie à l'étude de matériaux de fusion et de semi-conducteurs.
Microsoft Research présente mimalloc, un allocateur mémoire open-source conçu pour les services hautement concurrents et les charges LLM à grande échelle.
Un malware auto-mutant et des backdoors propulsés par Gemini signalent une nouvelle ère de cybercriminalité assistée par l'IA.
Une startup spécialisée dans l'IA appliquée à l'aviation décroche un financement de 5,5 millions de dollars pour moderniser la gestion du trafic aérien en Europe.
TextSeal surpasse SynthID-Text en robustesse de détection et résiste à la dilution, tout en étant « radioactif » contre la distillation non autorisée.
Une architecture d'instruction-tuning à flux parallèles permettrait aux LLM d'agir, lire et raisonner simultanément, brisant le goulot d'étranglement séquentiel des agents actuels.
Un nouvel algorithme d'échantillonnage pour distributions log-concaves composites, avec garanties de convergence optimales via un oracle gaussien restreint.
Des chercheurs étendent la théorie de la compression d'échantillons aux espaces produits, reliant compression à haute arité et apprenabilité PAC.
Une nouvelle stratégie de recherche fine des facteurs d'échelle BFP réduit l'erreur de quantification de 27 % sur NVFP4 et améliore les LLM en post-training.
Des chercheurs publient DR-Gym, un environnement open-source de reinforcement learning centré sur la gestion de la demande électrique résidentielle.
Une nouvelle architecture remplace les boucles instables des Transformers récurrents par un mécanisme de point fixe à mémoire constante et convergence adaptative.
Une méthode sans entraînement qui traite le KV-Cache comme accumulateur d'un fold fonctionnel pour étendre le contexte jusqu'à 128K tokens.
Un nouveau benchmark révèle que tous les systèmes de mémoire testés s'effondrent sur le raisonnement de dépendance, avec des taux de précision proches de zéro.
Une étude révèle un couplage géométrique entre routeurs et experts dans les Sparse MoE, avec des implications sur l'équilibrage de charge.
Une étude analyse comment les politiques RL exploitent les failles des vérificateurs basés sur des rubriques, même lorsque ces vérificateurs sont robustes.
Un nouveau framework de reinforcement learning appliqué à la diffusion résout les déséquilibres entre modalités pour améliorer la génération audio-vidéo synchronisée.
Un agent end-to-end qui apprend à choisir le meilleur moment pour basculer entre actions GUI atomiques et appels d'outils API, avec +66 % de performance sur OSWorld-MCP.
Un framework « fast-slow » combine mise à jour des paramètres et optimisation du contexte pour rendre les LLM jusqu'à 3× plus efficaces en apprentissage.
Des chercheurs d'IBM proposent d'affiner les requêtes d'embedding à l'inférence via un LLM, avec des gains allant jusqu'à +25% sur des tâches zero-shot.
Une étude empirique propose d'allouer les données labellisées vérifiables selon un principe de densité de récompense, combinant RL sparse et supervision dense.
Une nouvelle architecture ViT élimine l'attention quadratique patch-à-patch grâce à des « core tokens » appris, permettant une complexité linéaire O(N).
Le groupe AutoScout24 mise sur Codex et ChatGPT pour réduire ses cycles de développement et améliorer la qualité du code.
Pion propose une alternative à Adam et Muon pour l'entraînement des LLM en conservant les valeurs singulières des matrices de poids tout au long du processus.
Une nouvelle approche élimine les multiplications flottantes lors de l'inférence LLM sur CPU, en exploitant des noyaux ternaires fusionnés pour réduire drastiquement le coût de calcul.
Un nouveau benchmark mesure la capacité des agents à mémoriser l'expérience d'environnements web complexes, au-delà des historiques utilisateurs classiques.
Les équipes NVIDIA s'appuient sur Codex avec GPT-4.5 pour livrer des systèmes en production et transformer des idées de recherche en expériences exécutables.
Plus de 1 000 participants, 2 000 soumissions : la compétition Parameter Golf d'OpenAI révèle les limites et le potentiel des agents de recherche en ML.
OpenAI présente des cas d'usage concrets de Codex pour les équipes financières : reporting, analyses d'écarts, scénarios de planification.
Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.
La dépréciation des APIs de fine-tuning d'OpenAI ravive une question centrale : le fine-tuning est-il en train de disparaître du toolkit des ingénieurs IA ?
Une équipe a compressé les capacités d'appel d'outils de Gemini dans un modèle ultra-léger de 26M paramètres via distillation.
Entre destructions de postes réelles et statistiques de productivité introuvables, le débat sur l'impact de l'IA sur l'emploi reste ouvert.
Gigacatalyst permet aux éditeurs SaaS d'intégrer un constructeur d'agents IA directement dans leur produit, sans développement lourd.
Palantir a fourni à l'ICE un outil mobile permettant d'accéder instantanément à des données sur 20 millions de personnes depuis un iPhone.
Un chercheur explore les représentations internes de Claude en utilisant des autoencodeurs en langage naturel pour décoder ce que le modèle « pense » sans l'exprimer.
À Vineland, les habitants dénoncent une pression hydrique croissante liée aux infrastructures IA, au point de ne plus pouvoir utiliser leurs machines à laver.
Une famille poursuit OpenAI en justice après le décès de leur fils, estimant que ChatGPT lui a fourni des informations dangereuses sur la combinaison de drogues récréatives.
Face aux injonctions à adopter les outils d'IA, des salariés d'Amazon gonflent artificiellement leur consommation de tokens pour afficher des métriques conformes.
Poolside décortique les pratiques de « benchmark hacking » et met en lumière comment les métriques d'évaluation des LLM sont détournées.
Un outil open-source qui propose de modéliser le comportement des agents IA via des machines à états visuelles, pour réduire les comportements imprévisibles.
La startup Voker, issue du batch S24 de Y Combinator, lance une plateforme d'analytics conçue spécifiquement pour surveiller et optimiser les agents IA.
Nathan Lambert analyse pourquoi l'open source en IA génère des avantages cumulatifs, notamment en Chine où les acteurs partagent leurs coûts de R&D.
NVIDIA identifie les causes de friction dans le déploiement de modèles IA et propose des solutions pour fluidifier le passage de l'entraînement à la production.
Google DeepMind transforme le pointeur de souris en assistant contextuel IA, intégré directement dans Chrome pour une collaboration plus fluide.
Un outil permettant à des agents IA d'interagir directement avec des systèmes mainframe et du code COBOL legacy.
Unitree lance la production en série du GD01, un robot humanoïde capable de se transformer en véhicule, vendu à 537 000 dollars.
Validation expérimentale, inférence accélérée et nouveau modèle multi-tâches : MatterSim franchit plusieurs étapes clés en science des matériaux.
Des salariés d'Amazon auraient recours à des tâches fictives pour simuler l'usage de l'outil IA interne et améliorer leurs métriques.
Une campagne malveillante a compromis plus de 170 paquets NPM, ciblant notamment des projets de TanStack et Mistral AI via des techniques de typosquatting.
La startup Text Blaze, alumni YC W21, propose un stage d'été centré sur des compétences fondamentales, en dehors de toute intégration IA.
Un développeur argue que faire communiquer des agents LLM via du texte libre est une erreur de conception, et propose une alternative structurée.
Meta-scale recommandation : LoKA rend l'arithmétique FP8 viable là où les LLM avaient montré la voie, mais les modèles de reco résistaient.
Un cadre formel étend les techniques de shielding classiques à la sécurité probabiliste dans les processus de décision markoviens.
Un framework diagnostique sans entraînement révèle, token par token, quand la distillation on-policy améliore ou dégrade l'apprentissage des modèles de raisonnement.
Un nouveau framework détecte si un modèle vision-langage répond grâce à l'image ou uniquement à partir de ses priors linguistiques.
Un maire californien fait face à des accusations fédérales d'agent non déclaré de la République populaire de Chine.
Un nouveau benchmark financier à grande échelle compare LLMs, modèles tabulaires et méthodes classiques sur la prédiction de faillite d'entreprises.
Un framework de reinforcement learning pour agents de recherche complexes, sans récompenses vérifiables, structuré autour de rubriques d'évaluation partagées.
Des chercheurs proposent un cadre de vérification formelle des classifieurs guardrail, révélant des failles de sécurité vérifiables malgré de bonnes métriques empiriques.
Un agent autonome optimise uniquement la partie données d'un pipeline ML fixe, via recherche arborescente, mémoire cumulative et pool de données partagé.
Pour la première fois, Google documente un cas où des cybercriminels ont exploité l'IA pour identifier une vulnérabilité critique dans un logiciel.
Des chercheurs plaident pour intégrer les processus d'ingénierie logicielle rigoureux dans la boucle agentique, au lieu de l'improvisation en temps réel.
Le directeur produit de Cisco estime que l'intelligence artificielle sera à l'origine de la plupart des développements logiciels de l'entreprise dans moins de trois ans.
Une nouvelle méthode de gradient de politique généralisée sur k étapes permet de dépasser les points critiques sous-optimaux dans les MDP à classes de politiques restreintes.
Un agent RL apprend à synthétiser des circuits quantiques Clifford en surpassant les méthodes classiques de Qiskit, avec une généralisation jusqu'à 30 qubits.
Le procès opposant Elon Musk à OpenAI révèle des témoignages accablants sur le style de direction de Sam Altman.
Un nouveau benchmark de 60 tâches bilingues et multimodales teste les agents IA sur des workflows longs dans des environnements natifs — les meilleurs modèles peinent à dépasser 62 %.
Shepherd introduit un modèle de programmation fonctionnel qui formate les opérations des méta-agents avec un historique d'exécution de type Git, permettant replay et branchement.
E2a permet aux agents IA de recevoir et d'envoyer des e-mails nativement, sans infrastructure complexe.
Un framework combinant diffusion conditionnelle et filtrage par confiance améliore significativement la reconnaissance de caractères manuscrits composés en bengali.
Une reformulation mathématique du problème de navigation multi-robots comme transport optimal réduit drastiquement la complexité de calcul.
Un essai explore comment les systèmes d'IA redéfinissent les paradigmes d'interaction homme-machine au-delà des interfaces classiques.
Un framework qui optimise en continu l'ensemble des compétences externes actives d'un agent LLM, conjointement avec l'apprentissage par renforcement.
Un développeur raconte comment il a utilisé l'IA pour créer un outil de surveillance nocturne personnalisé afin d'analyser les causes de ses insomnies.
Une analyse mathématique rigoureuse montre comment les tokens se concentrent rapidement dans les Transformers profonds à l'inférence, via des outils de systèmes multi-particules.
Des chercheurs proposent DECO, une architecture MoE qui n'active que 20 % des experts tout en égalant les performances de modèles denses, avec un speedup de 3× sur matériel réel.
Une nouvelle approche combine réseaux de neurones et tilting exponentiel pour l'inférence bayésienne sur des équations différentielles stochastiques à sauts.
Avec les LLM capables de générer du code dans n'importe quel langage, la domination de Python comme langue de choix est-elle encore justifiée ?
Une nouvelle architecture de diffusion linguistique reste en espace continu jusqu'à la dernière étape, surpassant les modèles discrets existants.
Anthropic annonce l'intégration de sa plateforme Claude à l'infrastructure cloud d'Amazon Web Services.
Au premier trimestre 2026, ChatGPT enregistre sa plus forte croissance chez les plus de 35 ans et un usage plus équilibré entre hommes et femmes.
Le modèle TML-Interaction-Small de Thinking Machines repousse l'état de l'art de la voix interactive en temps réel avec une architecture MoE encoder-free.
Hugging Face et AWS détaillent les composants clés pour déployer et entraîner des modèles fondamentaux à grande échelle sur l'infrastructure cloud Amazon.
NVIDIA lance Fleet Intelligence, un outil de monitoring centralisé pour gérer et optimiser les grandes flottes GPU en environnement multi-tenant.
Un billet de blog personnel passe en revue les défauts fondamentaux des systèmes d'IA actuels, entre critiques techniques et éthiques.
Un tweet viral illustre la tension croissante entre la valeur perçue des outils IA et leur tarification, au détriment d'Anthropic.
Au-delà du débat sur les suppressions d'emplois, l'IA s'impose comme un outil de surveillance et de contrôle managérial des salariés.
Ben Thompson analyse comment le centre de gravité économique de l'IA se déplace de l'entraînement vers l'inférence.
Selon Google, les cyberattaques assistées par l'IA ont connu une explosion en l'espace de trois mois, franchissant un seuil critique.
Un blogueur tire une leçon de la philosophie culinaire japonaise pour mieux gérer l'épuisement face à l'omniprésence de l'IA.
À l'université UCF, une conférencière invitée à la cérémonie de remise des diplômes a été conspuée après avoir vanté le potentiel de l'IA.
La startup Bild AI, passée par Y Combinator (promotion hiver 2025), ouvre des postes d'ingénieurs produit fondateurs.
Une startup présente Interfaze, une architecture inédite censée surpasser les transformers classiques en précision sur des tâches à grande échelle.
Un développeur détaille comment porter les performances de la multiplication matricielle de quelques Gflop/s à plusieurs Tflop/s en Swift, première étape vers l'entraînement d'un LLM natif.
Les équipes financières adoptent l'IA de façon spontanée, laissant les directions courir après la gouvernance et la stratégie.
Un modèle de langage dédié au portugais européen soulève des questions sur la viabilité et les défis des LLM pour les langues à faibles ressources.
Les organisations qui tirent le meilleur de l'IA partent des besoins clients pour remonter vers la technologie, et non l'inverse.
Nvidia publie un compilateur officiel permettant d'écrire du code GPU CUDA directement en Rust, ouvrant la voie à un écosystème plus sûr côté mémoire.
Microsoft Research publie un benchmark évaluant la capacité des agents IA à négocier efficacement pour leurs utilisateurs dans des contextes sociaux réalistes.
Daron Acemoglu, Nobel d'économie 2024, revient sur ses prévisions prudentes concernant l'IA et identifie les risques qu'il juge réellement préoccupants.
OpenAI crée une filiale dédiée au déploiement enterprise de ses modèles frontier, avec un objectif de retour sur investissement mesurable.
Moonshot AI publie Kimi-Audio-7B, un modèle multimodal audio de 7 milliards de paramètres disponible en open-weights sur Hugging Face.
Un enseignant en écriture créative confronte ses étudiants à leur usage de l'IA et transforme leurs aveux en exercice pédagogique.
Un projet de data center dédié à l'IA en Géorgie a puisé 29 millions de gallons d'eau, relançant le débat sur l'empreinte hydrique de l'industrie.
La prolifération des assistants IA de transcription en réunion soulève des questions juridiques sérieuses sur la confidentialité et le secret professionnel.
DeepSeek publie la collection DeepSeek-V4 sur Hugging Face, marquant une nouvelle étape dans le développement de ses modèles de langage open-weights.
Des scénaristes, réalisateurs et techniciens du secteur audiovisuel migrent massivement vers les entreprises d'IA pour alimenter leurs modèles.
Une étude suggère qu'une brève exposition aux outils d'IA aurait un impact négatif mesurable sur la réflexion et la résolution de problèmes.
PropSplat modélise la propagation radio en environnements inconnus grâce à des primitives gaussiennes 3D, sans carte ni base de données géographique.
Une nouvelle méthode permet d'appliquer la régression par processus gaussiens à des milliards de points en haute dimension, avec une mise à l'échelle quasi-linéaire.
Un cadre d'orchestration guidé par spécifications qui maintient des engagements sémantiques tout au long du cycle de génération d'images.
Des chercheurs proposent plusieurs techniques pour rendre les LMs byte-level jusqu'à deux fois plus rapides, sans sacrifier la qualité de génération.
Une généralisation du Direct Preference Optimization exploitant la structure complète des graphes de préférences pour mieux aligner les LLM.
CMR-EXTR convertit des comptes rendus d'IRM cardiaque en données structurées avec un score de confiance par champ, atteignant 99,65 % de précision.
Un pipeline Text-to-SQL qui ajuste dynamiquement l'exploration selon la difficulté estimée de la requête, atteignant l'état de l'art sur BIRD-Bench.
Une nouvelle méthode basée sur la réflexion de Householder réduit les faux positifs de 32,5 % lors de la comparaison de la polysémie contextuelle de deux mots.
Élargir la fenêtre de contexte des LLM dégrade la coopération dans les dilemmes sociaux multi-agents — un phénomène contre-intuitif documenté sur 7 modèles et 4 jeux.
Des algorithmes Q-learning adaptés à l'optimisation risk-averse par utilité exponentielle dans les processus de décision markoviens escomptés.
Un framework de RL où les récompenses sont décomposées en critères pondérés et vérifiables, notés par un LLM juge, améliore le transfert vers de nouveaux benchmarks.
Un nouveau framework réduit de 47 % les tokens consommés par le voting pondéré en filtrant les traces de raisonnement sémantiquement redondantes.
Un framework post-entraînement unifié combine distillation on-policy et Flow Matching pour aligner les modèles texte-image sans effet seesaw.
Une note mathématique établit l'existence de polynômes d'approximation non négatifs pour les indicatrices de classes de sets, avec des bornes de degré quasi-optimales.
Le projet RPCS3 croule sous les pull requests produites par des LLM — ses mainteneurs demandent poliment aux contributeurs de cesser cette pratique.
EmambaIR combine attention sparse top-k et modules d'état gatés pour reconstruire des images haute résolution à partir de caméras événementielles.
Un framework de conformal prediction intégrant la topologie des graphes dans le processus de localisation, pour une meilleure quantification de l'incertitude dans les GNN.
Le Maryland dénonce auprès des régulateurs fédéraux une facture de 2 milliards de dollars imposée à ses habitants pour moderniser le réseau électrique au profit de data centers IA situés hors de l'État.
Un développeur a demandé à Claude d'implémenter une pile IP complète en espace utilisateur et mesure le temps de réponse aux requêtes ICMP ping.
Des chercheurs proposent un pipeline en trois étapes pour décoder la parole imaginée à partir d'enregistrements MEG non invasifs, sans données annotées d'imagination.
Un outil open-source qui exploite plusieurs agents en parallèle pour produire des revues de pull requests plus approfondies avec Claude Code.
James Shore argue que l'IA de codage ne vaut son coût que si elle diminue la dette technique et les charges de maintenance à long terme.
Une nouvelle architecture combine normalizing flows et diffusion pour générer des images en seulement 4 étapes tout en conservant une vraisemblance exacte.
Un nouveau framework combine la prédiction conforme et l'exploration guidée par PUCT pour garantir statistiquement la couverture des réponses dans les systèmes KGQA.
OpenAI lance un réseau mondial de clubs étudiants pour favoriser l'adoption de l'IA sur les campus universitaires.
Un plaidoyer pour faire de l'IA locale le standard par défaut, face aux risques de dépendance aux services cloud centralisés.
Un framework permet à des agents LLM de découvrir automatiquement des stratégies de test-time scaling, surpassant les approches conçues manuellement pour moins de 40 $.
OpenAI détaille les étapes clés pour déployer l'IA en entreprise : gouvernance, confiance, design des workflows et qualité à grande échelle.
H Company publie un tutoriel pour HoloTab, son agent IA capable d'interagir avec des applications desktop et web.
La nouvelle version de Google Finance, dopée à l'IA, est désormais disponible en Europe avec un support complet des langues locales.
Le parquet américain accuse plusieurs avocats de Wall Street d'avoir participé à un réseau organisé de délit d'initié.
Un passager fidèle tire sa révérence après dix ans de vols avec la compagnie low-cost Spirit Airlines, récemment placée en faillite.
Un projet open source utilise un LLM comme juge et l'algorithme TrueSkill pour évaluer et classer 1 000 soumissions ShowHN par mérite.
Un journaliste teste AIREC, le robot japonais de soins aux personnes âgées, et livre une vision sombre de ce que pourrait devenir la dépendance.
Gemini Nano, intégré nativement à Chrome, télécharge silencieusement plusieurs gigaoctets de données sans avertissement explicite.
Un dépôt GitHub propose un ensemble de compétences et prompts structurés pour transformer Claude Code en assistant de recherche académique.
Un projet issu d'un hackathon déploie une architecture multi-agent pour évaluer automatiquement la manufacturabilité de pièces CNC, en s'appuyant sur les GPU AMD MI300X.
Comment l'IA peut à la fois aggraver et atténuer la paralysie décisionnelle face aux tâches complexes.
Une enquête du Los Angeles Times révèle comment l'armée israélienne utilise l'IA pour identifier et cibler des individus à Gaza à partir de métadonnées téléphoniques.
Un papier arXiv pose les bases théoriques d'agents de retrieval superintelligents capables de dépasser les systèmes RAG actuels.
Une étude de la Walton Family Foundation révèle que les jeunes adultes américains se montrent de plus en plus méfiants à l'égard de l'IA, craignant pour leur emploi.
Un outil open-source empêche macOS de suspendre les processus d'agents IA lorsque l'écran du MacBook est rabattu.
Un papier explore comment l'essor des LLM influence la manière dont les individus conceptualisent leur propre cognition et identité.
Avant de devenir l'adresse de l'un des laboratoires d'IA les plus influents, openai.com était le site personnel d'un inconnu.
Un essai explore comment Nvidia, dominant du marché des GPU pour l'IA, pourrait perdre toute sa valeur face à des ruptures technologiques.
Un fil d'expert explore les bonnes pratiques pour concevoir des harnais d'agents IA robustes et déployables en environnement réel.
Les salariés de Meta expriment leur malaise face à la montée en puissance de l'IA au sein de l'entreprise, selon le New York Times.
Un serveur MCP open-source permettant aux agents de coder dans des devcontainers isolés et reproductibles, sans risque pour l'hôte.
Google étend les capacités de son API Gemini File Search avec le support multimodal, ouvrant la voie à un RAG combinant texte, images et autres formats.
Un développeur défend Lua comme langage de fondation universel, simple et portable, à adopter avant tout autre outil spécialisé.
Les joueurs de Go adoptent massivement les recommandations des IA, au risque de perdre leur jugement propre et leur culture du jeu.
Un système multi-agents dédié à l'oncologie combine raisonnement clinique et protection des données patients sans recours au cloud.
Une étude montre que les LLM introduisent des modifications non sollicitées dans les documents lors de tâches d'édition déléguées, soulevant des risques d'intégrité.
DeepSeek met en ligne DeepSeek-V3.2-Exp sur Hugging Face, une version expérimentale de son modèle phare V3.
DeepSeek publie une nouvelle version de son modèle V3, baptisée Terminus, directement sur Hugging Face.
Les réductions du financement PEPFAR par Washington commencent à produire des effets mesurables sur le terrain en Zambie, avec une résurgence des cas de VIH.
Un développeur web observe que le chatbot IA est devenu le nouveau carrousel : une fonctionnalité que tous les clients réclament sans vraiment en avoir besoin.
Anthropic va utiliser toute la capacité du data center Colossus 1 de xAI/SpaceX, malgré son bilan environnemental controversé.
Une proposition au noyau Linux introduit un mécanisme de court-circuit par fonction pour atténuer les vulnérabilités CPU de type Spectre.
Un développeur expose ses raisons de refuser catégoriquement l'assistance de l'IA dans son travail de code et d'écriture.
Anthropic publie un article détaillant sa méthode pour ancrer les raisons profondes des valeurs d'alignement chez Claude, au-delà des simples règles.
Un chercheur de Modal obtient plus de 10 % de performance supplémentaire en inférence multimodale grâce à une astuce de configuration minimaliste.
Une étude examine la capacité des grands modèles de langage à formaliser des systèmes distribués complexes dans le langage de spécification TLA+.
Un retour d'expérience sur l'usage de Claude Code met en lumière pourquoi le HTML s'avère étonnamment puissant dans les workflows de développement assisté par IA.
Greg Brockman contredit Musk au procès, tandis que Shivon Zilis révèle que Musk avait tenté de débaucher Sam Altman pour Tesla.
Un post technique décortique pourquoi WebRTC pose des problèmes structurels dans l'infrastructure temps réel d'OpenAI.
Anthropic afficherait une croissance de revenus 10x par an et dépasserait OpenAI en valorisation, tandis que Block, Coinbase et Cloudflare suppriment des milliers de postes.
Un pipeline entièrement fondé sur des données publiques produit des modèles de réseau de transport d'électricité couvrant les 48 États américains.
OpenAI détaille son approche pour déployer Codex en interne : sandboxing, politiques réseau et télémétrie native pour les agents.
L'agent IA Mythos d'Anthropic a semé l'inquiétude dans le secteur bancaire, mais les experts soulignent que les risques cyber liés à l'IA ne sont pas nouveaux.
Re_gent propose un workflow de contrôle de version adapté aux agents IA autonomes, inspiré de Git mais repensé pour leurs contraintes spécifiques.
Comment l'architecture orientée composants WebAssembly permet d'isoler et sécuriser les agents IA autonomes dans des environnements de production.
NVIDIA détaille dans Dynamo la gestion des échanges agentiques multi-tours, avec streaming de tokens, appels d'outils et rejeu sélectif du raisonnement.
L'automatisation par l'IA bouleverse les équilibres établis entre divulgation responsable et sécurité offensive, menaçant deux modèles culturels distincts.
AllenAI présente EMO, une approche MoE où la spécialisation des experts émerge naturellement du pré-entraînement sans supervision explicite.
Un nouveau papier renverse le consensus : la sélection naturelle ne s'est pas endormie après la révolution agricole, elle s'est accélérée.
Moonshot AI dévoile une nouvelle architecture d'attention linéaire conçue pour combiner expressivité et efficacité computationnelle.
L'équipe Red Team d'NVIDIA explore comment le décodage contraint par grammaire permet aux petits LLM de générer des commandes Bash plus fiables et sûres.
Anthropic détaille sa méthode pour transmettre à Claude non seulement des règles de comportement, mais aussi les raisonnements éthiques qui les fondent.
Moonshot AI publie Kimi K2.5, un modèle multimodal axé sur les capacités agentiques visuelles, capable d'agir dans des environnements complexes.
OpenAI détaille ses mécanismes de protection des données personnelles dans l'entraînement de ChatGPT et les options de contrôle offertes aux utilisateurs.
Un modèle de 4 milliards de paramètres dédié à la cybersécurité défensive, conçu pour tourner en local sans infrastructure cloud.
Google associe trois figures emblématiques de la publicité pour créer des campagnes IA au profit de commerces locaux qu'ils affectionnent.
OpenAI publie trois nouveaux modèles vocaux dont GPT Realtime-2, avec +15,2 % sur le benchmark Big Bench Audio et un contexte étendu à 128K tokens.
Anthropic cède à la communauté open-source un outil développé en interne pour la recherche en alignement de l'IA.
Un retour d'expérience sur l'entraînement d'un modèle médical question-réponse en utilisant AMD ROCm comme alternative à CUDA.
Un nouveau framework évalue la fiabilité des citations générées par les agents de recherche IA — et les résultats sur la précision factuelle sont préoccupants.
Une étude révèle que le coût d'entraînement par RL suit une loi de puissance avec la profondeur du raisonnement, et que l'expressivité logique est un levier critique.
RAO est une approche par reinforcement learning pour des agents capables de s'instancier récursivement, améliorant l'efficacité et la généralisation.
Premier dataset dédié à la conception d'émaux céramiques par IA, GlazyBench réunit 23 148 formulations réelles pour deux tâches clés.
Une nouvelle approche fusionne explications conceptuelles et formelles pour identifier les concepts de haut niveau causalement déterminants dans les prédictions des réseaux de neurones.
Un framework hiérarchique qui génère une stratégie explicite avant l'action pour améliorer l'exploration et l'attribution du crédit dans les LLM agents.
MMDG-Bench standardise l'évaluation de la généralisation de domaine multimodale sur 6 datasets et révèle que les gains récents sont souvent marginaux.
Une méthode basée sur des graphes mécanistiques 3D surpasse les modèles de langage protéique pour prédire le rendement quantique des protéines fluorescentes.
Une généralisation des prédicteurs Venn-Abers à la régression non bornée, combinant prédiction conforme et garanties de validité probabiliste.
Un environnement de travail agentique dédié aux mathématiciens obtient 48 % sur FrontierMath Tier 4, nouveau record toutes IA confondues.
Un nouveau framework RLVR apprend exclusivement à partir de rollouts positifs, faisant émerger des gradients négatifs implicitement sans pénaliser les échecs.
SIRA remplace les boucles d'exploration itératives par une seule action de récupération discriminative, surpassant les retrievers denses sur dix benchmarks BEIR.
Un développeur plaide pour repenser l'IDE comme couche d'orchestration centrale des agents IA, à l'image d'un OS.
Des chercheurs formalisent une méthode d'audit de sûreté des LLM applicable quand aucun benchmark labellisé n'existe encore pour un contexte donné.
Une vulnérabilité d'exécution de code à distance dormant depuis 21 ans dans FreeBSD vient d'être identifiée et documentée.
Kstack intègre des capacités de monitoring et de dépannage Kubernetes directement dans l'environnement Claude Code via un skill pack dédié.
Utiliser le même optimiseur en pré-entraînement et en SFT améliore le compromis apprentissage/oubli, surpassant même LoRA selon cette étude.
Une analyse de 89 000 comparaisons sur 52 LLMs montre que les classements globaux type Arena masquent une hétérogénéité structurée par langue et contexte.
Un framework en trois parties intègre un vérificateur indépendant pour contraindre la génération de problèmes mathématiques valides et difficiles par les LLM.
Un développeur présente AnamDB, un moteur de base de données logique Datalog conçu pour l'IA, différentiable et implémenté en Rust.
Une faille de sécurité dans Claude Code permet à un attaquant d'échapper au sandbox via une attaque par lien symbolique.