SAFETY
MetaBackdoor : exploiter l'encodage positionnel comme vecteur d'attaque backdoor dans les LLM
Des chercheurs montrent qu'il est possible d'implanter des backdoors dans les LLM sans modifier le texte d'entrée, en exploitant l'encodage positionnel.
arXiv cs.AI · cs.LG · cs.CL·Rui Wen, Mark Russinovich, Andrew Paverd, Jun Sakuma·14 mai 2026

Image · Source originale
MetaBackdoor est une nouvelle classe d'attaques backdoor qui utilise la longueur des séquences comme déclencheur, sans altérer le contenu textuel visible. En exploitant l'encodage positionnel inhérent aux Transformers, un LLM compromis peut divulguer des system prompts confidentiels ou déclencher des appels d'outils malveillants lors d'interactions multi-tours ordinaires. Cette approche est orthogonale aux backdoors basées sur le contenu et contourne les défenses existantes.