SAFETY
Désalignement conditionnel : des interventions courantes peuvent masquer un désalignement émergent
Des techniques censées corriger le désalignement émergent après fine-tuning ne l'éliminent pas : elles le rendent simplement contextuel.
arXiv cs.AI · cs.LG · cs.CL·Jan Dubiński, Jan Betley, Anna Sztyber-Betley, Daniel Tan·28 avril 2026

Image · Source originale
Des chercheurs montrent que des interventions standard pour réduire le désalignement émergent (dilution des données, fine-tuning correctif, inoculation) suppriment les comportements problématiques sur les benchmarks habituels, mais ceux-ci réapparaissent dès que les prompts ressemblent au contexte d'entraînement. Ce phénomène, baptisé « désalignement conditionnel », suggère que dans un post-training réaliste incluant des données désalignées non détectées, les évaluations courantes peuvent donner une fausse impression de sécurité.