RECHERCHE
HyLo : upcycling de LLMs Transformer vers des architectures hybrides longue-contexte
Une méthode convertit des checkpoints Transformer existants en modèles hybrides capables de traiter jusqu'à 2 millions de tokens, tout en réduisant la mémoire KV-cache de plus de 90 %.
arXiv cs.AI · cs.LG · cs.CL·Parsa Ashrafi Fashi, Utkarsh Saxena, Mehdi Rezagholizadeh, Aref Jafari·27 avril 2026

Image · Source originale
HyLo (HYbrid LOng-context) propose une recette d'upcycling pour transformer des LLMs Transformer préentraînés en architectures hybrides combinant MLA, Mamba2 ou Gated DeltaNet. La méthode étend le contexte utilisable jusqu'à 32× et réduit la mémoire KV-cache de plus de 90 %, permettant un prefill et un décodage à 2M tokens là où Llama sature dès 64K. Sur des modèles de 1B et 3B paramètres (variantes Llama et Qwen), HyLo surpasse les baselines hybrides upcyclées sur les benchmarks longue-contexte comme RULER, avec seulement 10B tokens d'entraînement.