OPINION
Pourquoi les agents vidéo sont la prochaine frontière — Ethan He, xAI Grok Imagine
L'intelligence des modèles vidéo viendrait avant tout des LLM, pas des données vidéo. Le prochain Sora serait un agent, pas un meilleur modèle génératif.
Latent Space (Swyx)·1 juin 2026

Image · Source originale
Ethan He, ancien lead sur NVIDIA Cosmos et désormais chez xAI où il a construit Grok Imagine en trois mois, défend une thèse radicale : l'intelligence des modèles vidéo est principalement héritée des LLM, pas de l'entraînement sur de la vidéo. Il prédit que la prochaine évolution de la génération vidéo suivra celle du code — passant de la performance one-shot à des systèmes agents capables de planifier, générer, éditer, critiquer et itérer sur des tâches créatives complexes.