RECHERCHE

ScenA : génération de scènes audio multi-locuteurs guidée par des voix de référence

Un nouveau modèle génère des scènes audio multi-locuteurs réalistes à partir de voix de référence et d'un prompt en langage naturel, sans balisage par tour de parole.

arXiv cs.AI · cs.LG · cs.CL·Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon·17 juin 2026

Image · Source originale

ScenA conditionne un modèle fondationnel text-to-audio (flow-matching) sur plusieurs voix de référence et un prompt libre décrivant une scène complète. Le système hérite des capacités de données « in-the-wild » : bruit ambiant, acoustique de pièce, chevauchements de parole. Les auteurs identifient et corrigent un biais d'entraînement appelé « Reference Shortcut » via une distribution temporelle biaisée vers le bruit élevé. ScenA surpasse les systèmes existants sur le benchmark CoVoMix2-Dialogue.

Chaleur 10

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#text-to-audio #multi-speaker #flow-matching #génération audio #speech synthesis