RECHERCHE
FlowEdit : mémoire associative pour l'adaptation permanente de la prononciation dans les TTS par flow-matching
Un framework permet de corriger durablement les erreurs de prononciation dans les TTS sans réentraîner le modèle, grâce à une mémoire épisodique de type Hopfield.
arXiv cs.AI · cs.LG · cs.CL·Harshit Singh, Ayush Pratap Singh, Nityanand Mathur·18 juin 2026

Image · Source originale
FlowEdit est un framework d'adaptation continue pour les systèmes TTS à flow-matching figés. Il encode les corrections de prononciation comme des perturbations dans l'espace d'embedding textuel et les stocke dans un Modern Hopfield Network agissant comme mémoire épisodique adressable. À l'inférence, les corrections sont récupérées par attention douce avec un filtre de similarité. Sur un benchmark de 312 noms propres multilingues, le taux d'erreur phonémique est réduit de 92,7 % en environ 15 secondes sur GPU.