RECHERCHE

HILBERT : alignement contrastif dual centré sur les joints pour représentations audio-texte longues

Un framework multimodal cross-attentif pour aligner audio et texte sur de longues séquences en contexte low-resource, avec double régularisation.

arXiv cs.AI · cs.LG · cs.CL·Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin·17 avril 2026

HILBERT est un framework multimodal qui apprend des représentations document-level audio-texte à partir de séquences longues et segmentées en contexte low-resource. Il introduit un objectif contrastif dual réciproque alignant chaque modalité vers un espace joint commun, plutôt que de contraster directement audio et texte. Deux régularisateurs auxiliaires (CKA et équilibrage d'information mutuelle) stabilisent la fusion longue séquence. Un classifieur MoE sur les représentations concaténées gère des régimes de labels hétérogènes.

Chaleur 0

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#multimodal #contrastive-learning #audio-text #low-resource #MoE