RECHERCHE
Thinking Machines lance TML-Interaction-Small, un MoE 276B pour la voix temps réel
Le modèle TML-Interaction-Small de Thinking Machines repousse l'état de l'art de la voix interactive en temps réel avec une architecture MoE encoder-free.
Latent Space (Swyx)·12 mai 2026

Image · Source originale
Thinking Machines Lab publie TML-Interaction-Small, un modèle MoE de 276 milliards de paramètres (12B actifs) conçu pour l'interaction humain-IA en temps réel. Basé sur une fusion précoce sans encodeur traitant images et audio à la manière de Chameleon, il dépasse GPT-Realtime-2 et Gemini 2.5-Flash sur plusieurs benchmarks. L'équipe introduit deux nouveaux benchmarks internes — TimeSpeak et CueSpeak — pour évaluer la proactivité temporelle et contextuelle du modèle.