RECHERCHE
WARDEN : transcription et traduction d'une langue indigène en danger avec 6 heures de données
Un système en deux étapes transcrit et traduit le Wardaman, langue aborigène australienne menacée, à partir de seulement 6 heures d'audio annoté.
arXiv cs.AI · cs.LG · cs.CL·Ziheng Zhang, Yunzhong Hou, Naijing Liu, Liang Zheng·13 mai 2026

Image · Source originale
WARDEN est un système combinant un modèle de transcription phonémique et un LLM guidé par dictionnaire pour traiter le Wardaman, langue indigène australienne en voie de disparition. Face à l'absence de grandes bases de données, les chercheurs initialisent les tokens Wardaman à partir du soundanais, langue aux phonèmes proches, et injectent un dictionnaire expert dans le LLM. Cette approche en deux étapes surpasse les modèles unifiés open-source et propriétaires dans ce contexte ultra low-resource.