RECHERCHE
UNIEGO : des proxies comme médiateurs pour l'apprentissage de représentations vidéo égocentrées unifiées
Un framework de distillation multi-enseignants hiérarchique qui entraîne un encodeur unique pour la vidéo égocentrée à partir de neuf sources hétérogènes.
arXiv cs.AI · cs.LG · cs.CL·Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le·18 juin 2026

Image · Source originale
UNIEGO propose un cadre de distillation à deux étages pour l'encodage de vidéos égocentrées. Neuf enseignants couvrant plusieurs points de vue (ego/exo), modalités (RGB, profondeur, squelette) et modèles fondamentaux alimentent des Proxy models intermédiaires qui harmonisent les représentations hétérogènes. Une sélection adaptative par échantillon (Selective Proxy Distillation) filtre les supervisions peu fiables. Le modèle atteint l'état de l'art sur trois benchmarks égocentrés.