RECHERCHE

Thinking Machines lance TML-Interaction-Small, un MoE 276B pour la voix temps réel

Le modèle TML-Interaction-Small de Thinking Machines repousse l'état de l'art de la voix interactive en temps réel avec une architecture MoE encoder-free.

Latent Space (Swyx)·12 mai 2026

Image · Source originale

Thinking Machines Lab publie TML-Interaction-Small, un modèle MoE de 276 milliards de paramètres (12B actifs) conçu pour l'interaction humain-IA en temps réel. Basé sur une fusion précoce sans encodeur traitant images et audio à la manière de Chameleon, il dépasse GPT-Realtime-2 et Gemini 2.5-Flash sur plusieurs benchmarks. L'équipe introduit deux nouveaux benchmarks internes — TimeSpeak et CueSpeak — pour évaluer la proactivité temporelle et contextuelle du modèle.

Chaleur 0

Pertinence 88

Nouveauté 78

OUVRIR LA SOURCE ↗

#voix temps réel #MoE #multimodal #benchmark #interaction