RECHERCHE

Des mécanismes internes des LLM dans la reconnaissance des émotions

Des chercheurs utilisent des autoencodeurs épars pour cartographier comment les LLM traitent les émotions en interne, révélant un flux d'information en trois phases.

arXiv cs.AI · cs.LG · cs.CL·Bangzhao Shu, Arinjay Singh, Mai ElSherief·28 avril 2026

Image · Source originale

Cette étude analyse les mécanismes internes de reconnaissance des émotions dans les LLM via des sparse autoencoders (SAEs). Les chercheurs identifient un flux d'information en trois phases, les caractéristiques émotionnelles n'émergeant qu'en phase finale. Ils proposent une méthode de causal feature steering interprétable qui améliore significativement les performances de reconnaissance émotionnelle tout en préservant les capacités de modélisation du langage.

Chaleur 0

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#LLM #interprétabilité #émotions #sparse-autoencoder #mechanistic-interpretability