RECHERCHE
SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique
Un nouveau benchmark évalue la capacité des grands modèles audio-langage à contrôler plus de 100 traits paralinguistiques fins dans la synthèse vocale.
arXiv cs.AI · cs.LG · cs.CL·Ruohan Liu, Shukang Yin, Tao Wang, Dong Zhang·22 avril 2026

SpeechParaling-Bench étend la couverture des benchmarks existants de moins de 50 à plus de 100 traits paralinguistiques fins, appuyés par plus de 1 000 requêtes vocales bilingues anglais-chinois. Le benchmark structure trois niveaux de difficulté : contrôle fin, variation intra-énoncé et adaptation contextuelle. Une pipeline de comparaison par paires, arbitrée par un LALM, réduit la subjectivité de l'évaluation. Les résultats révèlent que même les meilleurs modèles propriétaires échouent sur 43,3 % des cas en dialogue situationnel.
Chaleur 29
Pertinence 68
Nouveauté 72