RECHERCHE

HyLo : upcycling de LLMs Transformer vers des architectures hybrides longue-contexte

Une méthode convertit des checkpoints Transformer existants en modèles hybrides capables de traiter jusqu'à 2 millions de tokens, tout en réduisant la mémoire KV-cache de plus de 90 %.

arXiv cs.AI · cs.LG · cs.CL·Parsa Ashrafi Fashi, Utkarsh Saxena, Mehdi Rezagholizadeh, Aref Jafari·27 avril 2026

Image · Source originale

HyLo (HYbrid LOng-context) propose une recette d'upcycling pour transformer des LLMs Transformer préentraînés en architectures hybrides combinant MLA, Mamba2 ou Gated DeltaNet. La méthode étend le contexte utilisable jusqu'à 32× et réduit la mémoire KV-cache de plus de 90 %, permettant un prefill et un décodage à 2M tokens là où Llama sature dès 64K. Sur des modèles de 1B et 3B paramètres (variantes Llama et Qwen), HyLo surpasse les baselines hybrides upcyclées sur les benchmarks longue-contexte comme RULER, avec seulement 10B tokens d'entraînement.

Chaleur 0

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#hybrid-models #long-context #upcycling #mamba #kv-cache