RECHERCHE

ScaleSearch : optimisation des facteurs d'échelle pour la quantification Block Floating Point

Une nouvelle stratégie de recherche fine des facteurs d'échelle BFP réduit l'erreur de quantification de 27 % sur NVFP4 et améliore les LLM en post-training.

arXiv cs.AI · cs.LG · cs.CL·Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar·12 mai 2026

Image · Source originale

ScaleSearch propose une sélection optimisée des facteurs d'échelle dans les formats microscaling Block Floating Point (BFP), en exploitant les bits de mantisse pour minimiser l'erreur de quantification. Intégrable avec les méthodes PTQ existantes et l'attention basse précision, l'approche améliore de 15 points le benchmark MATH500 sur Qwen3-8B. ScaleSearchAttention, une variante NVFP4 pour l'attention causale, réduit la perplexité Wikitext-2 de 0,77 point sur Llama 3.1 70B.

Chaleur 0

Pertinence 72

Nouveauté 65

OUVRIR LA SOURCE ↗

#quantification #BFP #microscaling #inference #LLM