SAFETY

Trois modèles de l'annotation RLHF : extension, preuve et autorité

Un chercheur propose un cadre conceptuel pour clarifier le rôle normatif des annotateurs humains dans les pipelines RLHF.

arXiv cs.AI · cs.LG · cs.CL·Steve Coyne·28 avril 2026

Image · Source originale

L'article distingue trois rôles conceptuels attribués aux annotateurs dans le RLHF : l'extension (traduire les jugements des concepteurs), la preuve (fournir des données empiriques indépendantes) et l'autorité (représenter la population). L'auteur analyse comment les papers fondateurs mobilisent implicitement ces modèles et identifie les dérives issues de leur confusion. Sa recommandation centrale : décomposer l'annotation en dimensions séparables et adapter chaque pipeline au modèle le plus approprié.

Chaleur 0

Pertinence 72

Nouveauté 63

OUVRIR LA SOURCE ↗

#RLHF #alignement #annotation #normes #preference-learning