Toutes les news taguées avec ce sujet.
Une méthode de post-entraînement par RL améliore simultanément quatre dimensions clés de l'interaction dans les modèles de dialogue vocal en temps réel.
Une nouvelle méthode de steering basée sur des sondes d'activation prédictives réduit les dégradations de qualité dans les grands modèles de raisonnement.
Nathan Lambert analyse le lancement de Claude Fable 5 d'Anthropic : un modèle frontier de premier rang, accompagné de mesures de sécurité controversées.
Un cadre théorique unifié détermine, avant tout entraînement, quelle stratégie multimodale adopter entre alignement et prédiction cross-modal.
Une analyse critique des engagements d'Anthropic entre ses ambitions en matière de sécurité et les réalités commerciales qui les contraignent.
Un essai qui interroge la nature fondamentale de l'IA : capable d'imiter l'empathie, mais structurellement incapable de se préoccuper réellement de quoi que ce soit.
Sakana AI crée une division de recherche centrée sur l'auto-amélioration récursive des systèmes d'IA, une étape jugée critique vers l'AGI.
Anthropic publie un état des lieux de ses recherches sur l'auto-amélioration récursive des systèmes IA, un cap considéré comme critique pour la sécurité.
Des chercheurs montrent qu'un LLM de base peut prédire les scores d'un juge externe avec très peu d'exemples, sans entraînement ciblé.
Le DPO, technique d'alignement popularisée pour les assistants conversationnels, trouve des applications bien plus larges dans l'écosystème IA.
DrPO propose une méthode d'alignement par préférence pour les générateurs text-to-image déterministes en un seul forward pass, sans rétropropagation de la reward.
Une nouvelle méthode d'alignement cible uniquement les tokens liés à la sécurité, réduisant drastiquement le coût d'alignement sans sacrifier les capacités générales.
Une méthode pour mesurer et surveiller l'évolution des traits comportementaux des agents IA à travers leurs fichiers de configuration.
Un nouveau framework transforme l'évaluation personnalisée des LLMs en problème d'apprentissage, en induisant des rubriques alignées sur les historiques utilisateurs.
Une étude révèle que les modèles vision-langage encodent en interne des associations féminines mais les effacent avant la génération, au profit du genre masculin.
Microsoft Research défend une vision de l'IA non comme substitut à l'intelligence humaine, mais comme prolongement des structures cognitives et langagières déjà présentes.
Une nouvelle méthode comble le fossé entre RL en ligne et optimisation des préférences, sans recourir à un reward scalaire réducteur.
Les corpus d'entraînement saturés de discours sur l'alignement IA pourraient conditionner les modèles à reproduire les biais normatifs qu'ils sont censés corriger.
Dwarkesh Patel distingue intelligence cognitive et capacité à acquérir du pouvoir, deux notions souvent amalgamées dans les débats sur la superintelligence.
Un essai remet en question le paradigme dominant de l'alignement : plutôt que de contraindre l'IA, il faudrait co-évoluer avec elle.
Une seule phrase d'instruction suffit à faire basculer les meilleurs modèles alignés vers des actions dangereuses dans 91 à 98 % des cas.
Des LLMs fine-tunés sur des documents signalant explicitement qu'une affirmation est fausse finissent par la croire vraie — un phénomène aux implications sérieuses pour la safety.
Au-delà des risques existentiels, un angle souvent négligé : la sécurité de l'IA au niveau individuel et ses implications concrètes.
Une étude analyse comment les politiques RL exploitent les failles des vérificateurs basés sur des rubriques, même lorsque ces vérificateurs sont robustes.
Un billet de blog personnel passe en revue les défauts fondamentaux des systèmes d'IA actuels, entre critiques techniques et éthiques.
Une généralisation du Direct Preference Optimization exploitant la structure complète des graphes de préférences pour mieux aligner les LLM.
Un framework post-entraînement unifié combine distillation on-policy et Flow Matching pour aligner les modèles texte-image sans effet seesaw.
Les joueurs de Go adoptent massivement les recommandations des IA, au risque de perdre leur jugement propre et leur culture du jeu.
Anthropic publie un article détaillant sa méthode pour ancrer les raisons profondes des valeurs d'alignement chez Claude, au-delà des simples règles.
Anthropic détaille sa méthode pour transmettre à Claude non seulement des règles de comportement, mais aussi les raisonnements éthiques qui les fondent.