Toutes les news taguées avec ce sujet.
Une architecture qui mutualise l'index de routage entre couches pour accélérer l'inférence des LLM sur de très longs contextes sans perte de qualité notable.