Toutes les news taguées avec ce sujet.
Une nouvelle approche élimine les multiplications flottantes lors de l'inférence LLM sur CPU, en exploitant des noyaux ternaires fusionnés pour réduire drastiquement le coût de calcul.