RECHERCHE
Alignement multi-axe de l'interactivité dans les modèles de dialogue vocal full-duplex
Une méthode de post-entraînement par RL améliore simultanément quatre dimensions clés de l'interaction dans les modèles de dialogue vocal en temps réel.
arXiv cs.AI · cs.LG · cs.CL·Atsumoto Ohashi, Neil Zeghidour, Alexandre Défossez, Eugene Kharitonov·9 juin 2026

Image · Source originale
Les modèles de dialogue vocal full-duplex peuvent écouter et parler simultanément, mais leur entraînement par maximisation de vraisemblance génère des comportements interactifs défaillants (silences excessifs, prise de parole mal timée). Les chercheurs proposent une méthode d'alignement par reinforcement learning couvrant quatre axes canoniques : gestion des pauses, tour de parole, backchanneling et interruptions utilisateur. Appliquée aux modèles open-source Moshi et PersonaPlex, la méthode améliore l'interactivité sur évaluations hors ligne et en temps réel.