RECHERCHE
L'équivalence de couches dans les transformers dépend du protocole de test
Une étude montre que les méthodes pour évaluer la redondance des couches de transformers ne sont pas interchangeables et influencent directement les décisions d'élagage.
arXiv cs.AI · cs.LG · cs.CL·Gabriel Garcia·15 mai 2026

Image · Source originale
Des chercheurs montrent que deux protocoles distincts — remplacement et interchange — mesurent différemment la redondance des couches dans les transformers. Sur des modèles comme Pythia, Qwen3-8B et Llama-3.1-8B, l'écart entre ces protocoles peut multiplier plusieurs fois le nombre de couches identifiées comme sûres à élaguer. Les auteurs recommandent de calculer les deux swap-KL avant toute compression ou fusion de couches.