RECHERCHE

Évolution convergente : comment différents LLMs apprennent des représentations numériques similaires

Transformers, LSTMs et RNNs linéaires convergent vers des structures périodiques communes pour représenter les nombres, révèle une étude arXiv.

arXiv cs.AI · cs.LG · cs.CL·Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan·22 avril 2026

Des chercheurs identifient une hiérarchie à deux niveaux dans la façon dont les modèles de langage représentent les nombres : tous apprennent des caractéristiques périodiques dans le domaine de Fourier (périodes T=2, 5, 10), mais seuls certains acquièrent une séparabilité géométrique permettant une classification linéaire modulo T. L'étude prouve formellement que la parcimonie de Fourier est nécessaire mais pas suffisante pour cette séparabilité. Les données, l'architecture, l'optimiseur et le tokenizer jouent tous un rôle clé dans l'émergence de ces propriétés.

Chaleur 0

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#représentation numérique #LLM #transformers #feature learning #Fourier