RECHERCHE

SimSD : décodage spéculatif simple pour les modèles de langage par diffusion

Une méthode plug-and-play permet d'appliquer le décodage spéculatif aux LLM par diffusion, sans réentraînement.

arXiv cs.AI · cs.LG · cs.CL·Junxia Cui, Haotian Ye, Runchu Tian, Hongcan Guo·1 juin 2026

Image · Source originale

Les LLM par diffusion (dLLMs) offrent une inférence parallèle rapide mais restaient incompatibles avec le décodage spéculatif, technique d'accélération clé des modèles autorégressifs. SimSD introduit une stratégie de masquage qui fournit aux dLLMs un contexte token-level temporellement valide, permettant à un modèle cible de vérifier plusieurs tokens prédit en un seul passage. La méthode est sans entraînement et compatible avec d'autres techniques d'accélération.

Chaleur 1

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#diffusion-LLM #speculative-decoding #inférence #accélération #LLM