9 items

#alignement

Toutes les news taguées avec ce sujet.

RECHERCHE
heat 52
Les LLMs peuvent-ils remplacer le médecin ? Empathie, lisibilité et alignement clinique
Une évaluation multidimensionnelle révèle que les LLMs surpassent les médecins en complexité linguistique mais restent en deçà sur les critères épistémiques.
SAFETY
heat 42
Alignement pluraliste et le problème structurel d'alignement des valeurs en IA
Un chercheur propose de recadrer l'alignement IA non comme un défi technique, mais comme une question de gouvernance institutionnelle.
SAFETY
anthropicheat 72
Constitutional Classifiers : se défendre contre les jailbreaks universels
Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.
SAFETY
anthropicheat 62
Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles
Anthropic présente un outil permettant d'identifier automatiquement les écarts de comportement entre deux versions d'un modèle d'IA.
SAFETY
anthropicheat 72
Concepts émotionnels et leur fonction dans un grand modèle de langage
Anthropic publie une recherche sur la façon dont les LLM représentent et utilisent des concepts émotionnels en interne.
SAFETY
anthropicheat 78
Chercheurs en alignement automatisés : utiliser les LLM pour mettre à l'échelle la supervision
Anthropic explore comment des LLM peuvent automatiser une partie du travail de recherche en alignement pour accélérer la supervision scalable.
SAFETY
anthropicheat 72
Agents dignes de confiance : les pratiques recommandées par Anthropic
Anthropic publie ses réflexions sur la conception d'agents IA fiables, entre sécurité, autonomie et supervision humaine.
SAFETY
heat 62
Détection et suppression du reward hacking par empreintes de gradient
GRIFT exploite les gradients internes des modèles pour détecter les comportements de reward hacking invisibles à l'analyse textuelle des chaînes de raisonnement.
SAFETY
deepmindheat 62
Google DeepMind s'attaque aux risques de manipulation par l'IA
DeepMind publie ses travaux sur les risques de manipulation induite par l'IA dans des domaines sensibles comme la finance et la santé.

Les LLMs peuvent-ils remplacer le médecin ? Empathie, lisibilité et alignement clinique

Alignement pluraliste et le problème structurel d'alignement des valeurs en IA

Constitutional Classifiers : se défendre contre les jailbreaks universels

Un outil « diff » pour l'IA : détecter les différences comportementales entre modèles

Concepts émotionnels et leur fonction dans un grand modèle de langage

Chercheurs en alignement automatisés : utiliser les LLM pour mettre à l'échelle la supervision

Agents dignes de confiance : les pratiques recommandées par Anthropic

Détection et suppression du reward hacking par empreintes de gradient

Google DeepMind s'attaque aux risques de manipulation par l'IA