Toutes les news taguées avec ce sujet.
Des chercheurs montrent que les hallucinations du modèle ASR Whisper peuvent être détectées et fortement réduites en manipulant ses représentations internes.
Une exploration interactive des mécanismes internes par lesquels les grands modèles de langage traitent les opérations arithmétiques, sans manipuler réellement des nombres.
Un papier ArXiv propose un cadre théorique unifiant les arbres de décision et les modèles de diffusion, deux familles algorithmiques jusqu'ici disjointes.
Un nouveau framework reformule l'attribution des données d'entraînement comme un problème de récupération sparse dans l'espace des activations, 13× plus rapide que l'état de l'art.
Des chercheurs identifient une feature interne dans Gemma 3 qui, amplifiée ou supprimée, modifie significativement la pondération de Bitcoin dans un portefeuille généré par LLM.
Une méthode pour mesurer et surveiller l'évolution des traits comportementaux des agents IA à travers leurs fichiers de configuration.
Un cryptographe analyse les chaînes de raisonnement chiffrées que certains LLM produisent, et tente d'en percer les limites de confidentialité.
Une étude révèle que les modèles vision-langage encodent en interne des associations féminines mais les effacent avant la génération, au profit du genre masculin.
Une étude contrôlée révèle comment les têtes d'attention se spécialisent en mécanismes positionnels ou symboliques selon la nature des tâches de raisonnement.
Une équipe propose d'utiliser la génération de questions à l'inférence pour sonder l'état interne d'un LLM et prédire la correction de ses raisonnements.
Le chercheur en interprétabilité Chris Olah commente l'encyclique « Magnifica humanitas » du pape Léon XIV, qui aborde les enjeux éthiques de l'IA.
Des chercheurs de Goodfire AI découvrent comment un LLM effectue des calculs géométriques en interne, ouvrant une fenêtre sur la mécanique des transformers.
En « lésionnant » des LLM comme on le ferait avec un cerveau endommagé, des chercheurs cartographient l'organisation fonctionnelle émergente du traitement du langage.
Une nouvelle métrique robuste, RoSHAP, améliore la stabilité des attributions SHAP face aux variations stochastiques des pipelines ML.
Un paper de position soutient que les méthodes d'assurance comportementale sont structurellement inadaptées aux exigences de vérification imposées par les cadres réglementaires actuels.
Un framework basé sur des preuves régionales tirées de cas historiques améliore à la fois la performance et l'interprétabilité des modèles de dépistage de maladies.
Une nouvelle métrique basée sur les poids, invariante aux symétries de l'espace des paramètres, pour vérifier si deux sous-réseaux implémentent le même calcul.
Un chercheur explore les représentations internes de Claude en utilisant des autoencodeurs en langage naturel pour décoder ce que le modèle « pense » sans l'exprimer.
Anthropic cède à la communauté open-source un outil développé en interne pour la recherche en alignement de l'IA.
Anthropic explore une nouvelle approche pour rendre les représentations internes de Claude lisibles par l'humain via des auto-encodeurs en langage naturel.
Une étude applique les sparse autoencoders à PatchTST et constate que les représentations internes n'exploitent pas la superposition pour performer.