RECHERCHE
ScenA : génération de scènes audio multi-locuteurs guidée par des voix de référence
Un nouveau modèle génère des scènes audio multi-locuteurs réalistes à partir de voix de référence et d'un prompt en langage naturel, sans balisage par tour de parole.
arXiv cs.AI · cs.LG · cs.CL·Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon·17 juin 2026

Image · Source originale
ScenA conditionne un modèle fondationnel text-to-audio (flow-matching) sur plusieurs voix de référence et un prompt libre décrivant une scène complète. Le système hérite des capacités de données « in-the-wild » : bruit ambiant, acoustique de pièce, chevauchements de parole. Les auteurs identifient et corrigent un biais d'entraînement appelé « Reference Shortcut » via une distribution temporelle biaisée vers le bruit élevé. ScenA surpasse les systèmes existants sur le benchmark CoVoMix2-Dialogue.