SAFETY

Alignment whack-a-mole : le fine-tuning réactive la mémorisation de livres protégés dans les LLM

Une recherche montre que le fine-tuning peut rouvrir des failles d'alignement fermées, permettant aux LLM de reproduire des œuvres sous droits.

Hacker News (filtré IA)·@reconnecting·30 avril 2026

Image · Source originale

Des chercheurs démontrent qu'après fine-tuning, des LLM alignés peuvent à nouveau restituer verbatim des extraits de livres protégés par le droit d'auteur, un phénomène baptisé « whack-a-mole ». Corriger une vulnérabilité d'alignement n'empêche pas sa réactivation lors d'un ajustement ultérieur du modèle. Cette instabilité structurelle soulève des questions sur la robustesse à long terme des garde-fous de sécurité et de conformité.

Chaleur 0

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#alignement #fine-tuning #copyright #LLM #mémorisation