dimanche 26 juillet 2026Connexion →

36 SOURCES ACTIVES+366 / 7J

La veille de l'intelligence artificielle

Rechercher · papers, agents, LeCun…⌘K ALERTES43

À la une Rechercher Topics Entités Modèles Live Alertes Réglages

Sauvegardés · 0

La newsletter Fellow

Le briefing IA, chaque matin à 8h Paris.

Adresse email

FELLOW1749 items ingérés36 sources · 17 acteurs →Newsletter →Méthodologie →

#interprétabilité — Fellow

25 items

#interprétabilité

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 35
Entraîner le modèle, pas le lecteur : la supervision de décodabilité pour des explications d'activations vérifiables
Une étude révèle que les tests de reconstruction en interprétabilité valident des explications trompeuses, et propose RECAP pour les rendre réellement vérifiables.
RECHERCHE
heat 45
Visualiser la pensée d'un modèle avant qu'il ne parle
Une exploration technique de l'analyse des états internes d'un LLM pour comprendre son processus de raisonnement avant génération.
RECHERCHE
heat 25
Jugements logiques sous pression : diagnostiquer la stabilité syllogistique avec des préfixes souples appris
Des préfixes continus appris peuvent faire basculer les réponses correctes de plusieurs LLM sur des tâches de raisonnement syllogistique, révélant des failles de stabilité logique.
RECHERCHE
heat 30
Résister et mettre à jour : des coordonnées de rapport contrefactuelles pour des LLM incitativement compatibles
Une méthode pour empêcher les LLM alignés de céder à la pression sociale tout en restant sensibles aux preuves réelles

RECHERCHE

heat 35

Un cadre théorique explique la dynamique d'apprentissage du raisonnement inductif dans les Transformers

Des chercheurs modélisent l'apprentissage des circuits de raisonnement inductif via une variété invariante de faible dimension, rendant leur dynamique interprétable.

RECHERCHE

heat 35

Un instrument exact pour mesurer l'usage des états dans les modèles state-space sélectifs (Mamba)

Une nouvelle méthode révèle que les modèles Mamba réallouent dynamiquement leurs modes d'état selon l'entrée, ouvrant la voie à un élagage plus efficace.

RECHERCHE

heat 35

Identification et amplification de neurones dans l'encodeur pour améliorer la perception acoustique des modèles audio-langage

Une méthode sans entraînement cible des neurones précis de l'encodeur audio pour mieux capter émotion et intonation, sans toucher au modèle de langage.

RECHERCHE

heat 35

Comprendre le raisonnement des LLM : l'interprétabilité mécaniste s'appuie sur la théorie de la causalité

Des chercheurs en interprétabilité mécaniste empruntent des outils de la théorie de la causalité pour décrypter les mécanismes internes des grands modèles de langage.

OUTILS

heat 62

Un outil web pour visualiser et modifier le raisonnement d'un LLM avant sa réponse

Un développeur indépendant publie Lucid, un outil qui expose et rend éditables les étapes de réflexion d'un modèle d'IA avant qu'il génère sa réponse.

SAFETY

heat 78

Anthropic découvre un espace caché où Claude élabore ses réponses

Une nouvelle technique d'interprétabilité, le « J-lens », révèle un espace interne dans Claude Opus 4.6 où les intentions du modèle précèdent ses sorties.

RECHERCHE

heat 52

Les activations internes trahissent-elles la familiarité d'un modèle avec une entité avant qu'il réponde ?

Une étude sur les modèles Bielik montre que la dispersion des activations MLP prédit la familiarité d'un modèle avec une entité à AUROC 0,95-1,00, avant même la génération d'un token.

RECHERCHE

heat 42

ECGLight : un pipeline léger pour numériser les ECG papier et dépister l'infarctus

Un framework embarqué convertit une photo smartphone d'ECG papier en signal 12 dérivations et détecte l'infarctus du myocarde en moins de 30 secondes sur CPU.

SAFETY

heat 62

Les représentations verbalisables forment un espace de travail global dans les LLM

Une étude de Transformer Circuits révèle que les LLM développent une structure analogue au « Global Workspace » théorisé en neurosciences cognitives.

SAFETY

anthropicheat 62

Un espace de travail global dans les modèles de langage

Anthropic explore si les LLM développent une structure analogue à l'espace de travail global théorisé en neurosciences cognitives.

SAFETY

heat 52

Robustesse aux attaques typographiques par localisation de concepts sans entraînement

Des chercheurs proposent une méthode sans entraînement pour identifier et neutraliser les composants de CLIP responsables de la vulnérabilité aux attaques typographiques.

SAFETY

heat 52

Fidélité des substituts : quand les LLM ouverts peuvent-ils expliquer les modèles fermés ?

Une étude évalue dans quelle mesure les analyses d'interprétabilité réalisées sur des modèles open-weights sont transférables aux modèles propriétaires à accès restreint.

RECHERCHE

heat 42

SemRF : un cadre de référence sémantique pour analyser la dynamique du residual stream dans les LLM

Des chercheurs proposent SemRF, un formalisme à ancres pour mesurer stablement l'évolution des représentations couche par couche dans les modèles de langage.

SAFETY

heat 52

C²R : régularisation par cohérence inter-échantillons pour les Sparse Autoencoders

Une nouvelle méthode de régularisation combat le fractionnement et l'absorption de features dans les SAEs, deux pathologies qui nuisent à l'interprétabilité des LLMs.

SAFETY

heat 55

Vision par défaut, connaissance sur commande : mécanismes causaux des conflits perception-savoir dans les VLMs

Une étude mécanistique révèle qu'un petit groupe de têtes d'attention (2,5–4,8 %) contrôle la résolution des conflits entre vision et connaissance mémorisée dans les modèles multimodaux.

RECHERCHE

heat 30

Relier les symétries ab initio et les masses nucléaires globales via des réseaux de neurones interprétables

Des réseaux de neurones guidés par les symétries SU(3) et SU(4) de la physique nucléaire atteignent des performances compétitives tout en révélant la physique sous-jacente.

SAFETY

heat 42

Au-delà du budget fixe : régulariseurs de sparsité pour des autoencodeurs Top-k plus interprétables

Deux régulariseurs de sparsité améliorent la monosémantique des SAEs Top-k sans dégradation de reconstruction, ouvrant la voie à une meilleure interprétabilité des modèles de vision.

RECHERCHE

microsoftheat 62

Comprendre le cerveau grâce à l'IA : explications et expériences guidées

Microsoft Research présente GCT, une méthode qui traduit les prédictions cérébrales des LLM en explications verbales vérifiables par expérience.

SAFETY

heat 62

Model Forensics : détecter si un comportement problématique traduit un désalignement réel

Un protocole d'investigation propose d'aller au-delà de la détection de comportements suspects pour établir si un modèle d'IA est réellement mal aligné.

RECHERCHE

heat 62

Grad Detect : détection des hallucinations dans les LLMs par analyse des gradients

Une méthode basée sur les gradients couche par couche permet de prédire les hallucinations des LLMs dès un seul passage forward-backward.

RECHERCHE

heat 38

PsyBridge : un framework hybride pour l'évaluation multidimensionnelle de la santé mentale

Un cadre de décision clinique qui combine PHQ-9, GAD-7, évaluation cognitive et profilage de la personnalité pour des classifications interprétables.