#alignement
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 52
Les LLMs peuvent-ils remplacer le médecin ? Empathie, lisibilité et alignement clinique
Une évaluation multidimensionnelle révèle que les LLMs surpassent les médecins en complexité linguistique mais restent en deçà sur les critères épistémiques.
- SAFETYheat 42
Alignement pluraliste et le problème structurel d'alignement des valeurs en IA
Un chercheur propose de recadrer l'alignement IA non comme un défi technique, mais comme une question de gouvernance institutionnelle.
- SAFETYanthropicheat 72
Constitutional Classifiers : se défendre contre les jailbreaks universels
Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.
- SAFETYanthropicheat 62
Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles
Anthropic présente un outil permettant d'identifier automatiquement les écarts de comportement entre deux versions d'un modèle d'IA.
- SAFETYanthropicheat 72
Concepts émotionnels et leur fonction dans un grand modèle de langage
Anthropic publie une recherche sur la façon dont les LLM représentent et utilisent des concepts émotionnels en interne.
- SAFETYanthropicheat 78
Chercheurs en alignement automatisés : utiliser les LLM pour mettre à l'échelle la supervision
Anthropic explore comment des LLM peuvent automatiser une partie du travail de recherche en alignement pour accélérer la supervision scalable.
- SAFETYanthropicheat 72
Agents dignes de confiance : les pratiques recommandées par Anthropic
Anthropic publie ses réflexions sur la conception d'agents IA fiables, entre sécurité, autonomie et supervision humaine.
- SAFETYheat 62
Détection et suppression du reward hacking par empreintes de gradient
GRIFT exploite les gradients internes des modèles pour détecter les comportements de reward hacking invisibles à l'analyse textuelle des chaînes de raisonnement.
- SAFETYdeepmindheat 62
Google DeepMind s'attaque aux risques de manipulation par l'IA
DeepMind publie ses travaux sur les risques de manipulation induite par l'IA dans des domaines sensibles comme la finance et la santé.