RECHERCHE

Comment les instructions façonnent la parole : attribution cross-attention pour la synthèse vocale guidée par style

Une première étude analyse comment chaque mot d'une consigne textuelle influence acoustiquement la synthèse vocale dans les modèles de diffusion.

arXiv cs.AI · cs.LG · cs.CL·Nityanand Mathur, Hamees Sayed, Wasim Madha, Apoorv Singh·18 juin 2026

Image · Source originale

Des chercheurs adaptent le framework DAAM au domaine de la parole pour analyser l'attribution cross-attention dans les modèles de diffusion TTS guidés par des captions de style. Sur 3 600 combinaisons (caption, transcription), ils montrent que les tokens de style présentent une variance temporelle faible, corrèlent avec F0 et énergie, et exercent leur influence principalement en début de débruitage et dans les couches profondes. L'entropie d'attention atteint son minimum à la couche 17, coïncidant avec le pic d'importance stylistique.

Chaleur 16

Pertinence 55

Nouveauté 72

OUVRIR LA SOURCE ↗

#text-to-speech #diffusion #cross-attention #interprétabilité #synthèse vocale