SAFETY
Alignment whack-a-mole : le fine-tuning réactive la mémorisation de livres protégés dans les LLM
Une recherche montre que le fine-tuning peut rouvrir des failles d'alignement fermées, permettant aux LLM de reproduire des œuvres sous droits.
Hacker News (filtré IA)·@reconnecting·30 avril 2026

Image · Source originale
Des chercheurs démontrent qu'après fine-tuning, des LLM alignés peuvent à nouveau restituer verbatim des extraits de livres protégés par le droit d'auteur, un phénomène baptisé « whack-a-mole ». Corriger une vulnérabilité d'alignement n'empêche pas sa réactivation lors d'un ajustement ultérieur du modèle. Cette instabilité structurelle soulève des questions sur la robustesse à long terme des garde-fous de sécurité et de conformité.