RECHERCHE
ScaleSearch : optimisation des facteurs d'échelle pour la quantification Block Floating Point
Une nouvelle stratégie de recherche fine des facteurs d'échelle BFP réduit l'erreur de quantification de 27 % sur NVFP4 et améliore les LLM en post-training.
arXiv cs.AI · cs.LG · cs.CL·Tanmaey Gupta, Hayden Prairie, Xiaoxia Wu, Reyna Abhyankar·12 mai 2026

Image · Source originale
ScaleSearch propose une sélection optimisée des facteurs d'échelle dans les formats microscaling Block Floating Point (BFP), en exploitant les bits de mantisse pour minimiser l'erreur de quantification. Intégrable avec les méthodes PTQ existantes et l'attention basse précision, l'approche améliore de 15 points le benchmark MATH500 sur Qwen3-8B. ScaleSearchAttention, une variante NVFP4 pour l'attention causale, réduit la perplexité Wikitext-2 de 0,77 point sur Llama 3.1 70B.