RECHERCHE

SpeechParaling-Bench : un benchmark complet pour la génération de parole paralinguistique

Un nouveau benchmark évalue la capacité des grands modèles audio-langage à contrôler plus de 100 traits paralinguistiques fins dans la synthèse vocale.

arXiv cs.AI · cs.LG · cs.CL·Ruohan Liu, Shukang Yin, Tao Wang, Dong Zhang·22 avril 2026

SpeechParaling-Bench étend la couverture des benchmarks existants de moins de 50 à plus de 100 traits paralinguistiques fins, appuyés par plus de 1 000 requêtes vocales bilingues anglais-chinois. Le benchmark structure trois niveaux de difficulté : contrôle fin, variation intra-énoncé et adaptation contextuelle. Une pipeline de comparaison par paires, arbitrée par un LALM, réduit la subjectivité de l'évaluation. Les résultats révèlent que même les meilleurs modèles propriétaires échouent sur 43,3 % des cas en dialogue situationnel.

Chaleur 0

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #paralinguistique #speech generation #LALM #évaluation