RECHERCHE
Sur quels modèles nos LLM sont-ils construits ? Audit des dépendances invisibles
ModSleuth reconstruit automatiquement les graphes de dépendances des LLM modernes à partir d'artefacts publics, révélant obligations de licence et couplages cachés.
arXiv cs.AI · cs.LG · cs.CL·Sanjay Adhikesaven, Haoxiang Sun, Sewon Min·10 juin 2026

Image · Source originale
Les pipelines d'entraînement des LLM modernes dépendent d'autres modèles pour générer des données, filtrer des corpus ou juger des sorties. Ces dépendances sont récursives et fragmentées. ModSleuth, un système agentique, reconstruit ces graphes de dépendances à partir d'artefacts publics avec preuves sourcées. Appliqué à quatre releases majeures, il identifie 1 060 dépendances vérifiées, révélant des obligations de licence multi-hop et des incohérences documentaires.