SAFETY
Attaque par injection d'outliers ciblant la quantization des LLM
Des chercheurs démontrent une nouvelle attaque qui rend des modèles apparemment sains malveillants après quantization, contournant AWQ, GPTQ et GGUF.
arXiv cs.AI · cs.LG · cs.CL·Xiaohua Zhan, Kazuki Egashira, Robin Staab, Mark Vero·14 mai 2026

Image · Source originale
Une nouvelle attaque exploite une propriété commune aux méthodes de quantization modernes : les grandes valeurs aberrantes (outliers) forcent d'autres poids à s'arrondir à zéro. En injectant des outliers dans des blocs de poids ciblés, un adversaire peut créer un modèle pleine précision inoffensif qui adopte un comportement malveillant après quantization. L'attaque fonctionne contre AWQ, GPTQ et GGUF I-quants, là où les attaques précédentes échouaient.