RECHERCHE

PC Layer : préconditionnement polynomial des poids pour améliorer le pré-entraînement des LLM

Une couche de préconditionnement polynomial stabilise le spectre des valeurs singulières pendant l'entraînement, sans surcoût à l'inférence.

arXiv cs.AI · cs.LG · cs.CL·Senmiao Wang, Tiantian Fang, Haoran Zhang, Yushun Zhang·4 juin 2026

Image · Source originale

Les auteurs proposent une couche PC, une paramétrisation des poids par préconditionnement polynomial qui contrôle le spectre des valeurs singulières des matrices de poids tout au long de l'entraînement des LLM. Après entraînement, les poids préconditionnés sont fusionnés dans l'architecture d'origine sans surcoût à l'inférence. Des gains sont démontrés sur le pré-entraînement Llama-1B avec les optimiseurs AdamW et Muon, avec une justification théorique de convergence pour les réseaux linéaires profonds.

Chaleur 2

Pertinence 62

Nouveauté 68

OUVRIR LA SOURCE ↗

#LLM #pré-entraînement #optimisation #conditionnement #transformers