RECHERCHE

Alignement multi-axe de l'interactivité dans les modèles de dialogue vocal full-duplex

Une méthode de post-entraînement par RL améliore simultanément quatre dimensions clés de l'interaction dans les modèles de dialogue vocal en temps réel.

arXiv cs.AI · cs.LG · cs.CL·Atsumoto Ohashi, Neil Zeghidour, Alexandre Défossez, Eugene Kharitonov·9 juin 2026

Image · Source originale

Les modèles de dialogue vocal full-duplex peuvent écouter et parler simultanément, mais leur entraînement par maximisation de vraisemblance génère des comportements interactifs défaillants (silences excessifs, prise de parole mal timée). Les chercheurs proposent une méthode d'alignement par reinforcement learning couvrant quatre axes canoniques : gestion des pauses, tour de parole, backchanneling et interruptions utilisateur. Appliquée aux modèles open-source Moshi et PersonaPlex, la méthode améliore l'interactivité sur évaluations hors ligne et en temps réel.

Chaleur 27

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#full-duplex #dialogue vocal #reinforcement learning #alignement #tour de parole