RECHERCHE
Comment les instructions façonnent la parole : attribution cross-attention pour la synthèse vocale guidée par style
Une première étude analyse comment chaque mot d'une consigne textuelle influence acoustiquement la synthèse vocale dans les modèles de diffusion.
arXiv cs.AI · cs.LG · cs.CL·Nityanand Mathur, Hamees Sayed, Wasim Madha, Apoorv Singh·18 juin 2026

Image · Source originale
Des chercheurs adaptent le framework DAAM au domaine de la parole pour analyser l'attribution cross-attention dans les modèles de diffusion TTS guidés par des captions de style. Sur 3 600 combinaisons (caption, transcription), ils montrent que les tokens de style présentent une variance temporelle faible, corrèlent avec F0 et énergie, et exercent leur influence principalement en début de débruitage et dans les couches profondes. L'entropie d'attention atteint son minimum à la couche 17, coïncidant avec le pic d'importance stylistique.