RECHERCHE
Évolution convergente : comment différents LLMs apprennent des représentations numériques similaires
Transformers, LSTMs et RNNs linéaires convergent vers des structures périodiques communes pour représenter les nombres, révèle une étude arXiv.
arXiv cs.AI · cs.LG · cs.CL·Deqing Fu, Tianyi Zhou, Mikhail Belkin, Vatsal Sharan·22 avril 2026

Des chercheurs identifient une hiérarchie à deux niveaux dans la façon dont les modèles de langage représentent les nombres : tous apprennent des caractéristiques périodiques dans le domaine de Fourier (périodes T=2, 5, 10), mais seuls certains acquièrent une séparabilité géométrique permettant une classification linéaire modulo T. L'étude prouve formellement que la parcimonie de Fourier est nécessaire mais pas suffisante pour cette séparabilité. Les données, l'architecture, l'optimiseur et le tokenizer jouent tous un rôle clé dans l'émergence de ces propriétés.
Chaleur 20
Pertinence 62
Nouveauté 72