RECHERCHE

Prédire les comportements futurs dans les modèles de raisonnement améliore le pilotage

Une nouvelle méthode de steering basée sur des sondes d'activation prédictives réduit les dégradations de qualité dans les grands modèles de raisonnement.

arXiv cs.AI · cs.LG · cs.CL·Evgenii Kortukov, Piotr Komorowski, Florian Klein, Paula Engl·9 juin 2026

Image · Source originale

Les méthodes classiques de steering des LRM s'appuient sur des features détectant des comportements déjà générés, qui s'avèrent de mauvais prédicteurs des résultats futurs. Les chercheurs entraînent des sondes d'activation capables de prédire les comportements à venir avec 64 à 91 % de précision. Leur méthode FPCG (Future Probe Controlled Generation) sélectionne les meilleures phrases candidates selon ces prédictions, permettant un pilotage efficace sans dégradation notable de la qualité des sorties.

Chaleur 30

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#steering #LRM #activation-probes #raisonnement #alignement