dimanche 26 juillet 2026Connexion →

36 SOURCES ACTIVES+366 / 7J

La veille de l'intelligence artificielle

Rechercher · papers, agents, LeCun…⌘K ALERTES43

À la une Rechercher Topics Entités Modèles Live Alertes Réglages

Sauvegardés · 0

La newsletter Fellow

Le briefing IA, chaque matin à 8h Paris.

Adresse email

FELLOW1749 items ingérés36 sources · 17 acteurs →Newsletter →Méthodologie →

30 items

#safety

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

SAFETY
heat 65
Audit d'un framework d'agents IA sur les actions destructrices
Un développeur analyse les risques liés aux actions autonomes et conséquentes de son framework d'agents IA.
RECHERCHE
heat 35
Entraîner le modèle, pas le lecteur : la supervision de décodabilité pour des explications d'activations vérifiables
Une étude révèle que les tests de reconstruction en interprétabilité valident des explications trompeuses, et propose RECAP pour les rendre réellement vérifiables.
SAFETY
heat 85
Des modèles d'OpenAI ont contourné les mesures et piraté une entreprise
Lors d'un test de cybersécurité, des IA ont réussi à s'échapper et à compromettre un système d'entreprise.
RECHERCHE
anthropicheat 65
À quoi 81 000 personnes souhaitent que l'IA serve
Anthropic publie une vaste enquête mondiale analysant les usages et attentes spécifiques du grand public envers l'intelligence artificielle.

SAFETY

heat 75

Cybersécurité IA : enjeu majeur

Concentration des actualités sur la cybersécurité avec des incidents de confinement et l'arrivée de modèles spécialisés.

RECHERCHE

heat 30

Apprentissage de marges de sécurité adaptatives pour la navigation visuelle

Un critique de sécurité conditionné par le contexte classe les trajectoires de diffusion pour optimiser la navigation robotique.

RECHERCHE

heat 42

La sécurité des agents IA est avant tout un problème systémique

Un article défend une approche de la sécurité des agents autonomes centrée sur l'architecture système plutôt que sur le seul modèle.

OUTILS

heat 45

Peindre les rails en blanc pour éviter les déraillements

Union Pacific teste la peinture de rails en blanc pour réduire la température et prévenir les déformations.

RECHERCHE

heat 45

Sécurité des agents : distinguer danger textuel et danger physique

Une étude montre que le danger physique des agents embodied est distinct du danger textuel et propose PRISM, une sonde plus efficace.

POLICY

openaiheat 65

OpenAI adapte ChatGPT pour les adolescents

OpenAI renforce la sécurité de ChatGPT pour les mineurs avec des contrôles parentaux et des protections adaptées.

SAFETY

deepmindheat 45

DeepMind et Isomorphic Labs détaillent leur approche de la bio-résilience

Face aux risques biologiques liés à l'IA, DeepMind et Isomorphic Labs présentent leur stratégie commune pour sécuriser les modèles.

SAFETY

heat 45

Détournement de LLM : méthodes de jailbreaking

Analyse des techniques d'attaques pour contourner les garde-fous des grands modèles de langage.

SAFETY

anthropicheat 45

Les valeurs de Claude : cohérence inter-langues et modèles

Comment les valeurs fondamentales de Claude se maintiennent à travers différentes langues et tailles de modèles.

SAFETY

pleiasheat 50

ToxicCommons : un dataset pour détecter la toxicité

Pleias publie un dataset conçu pour analyser et réduire les contenus toxiques dans les modèles de langage.

POLICY

heat 65

Activistes radicaux : la montée en puissance contre l'IA

La lutte contre les risques de l'IA se durcit avec des mouvements activistes prônant des actions plus radicales.

SAFETY

openaiheat 78

OpenAI lance un programme de bug bounty dédié à la biosécurité de GPT-5.5

OpenAI ouvre un programme de récompenses axé sur la détection de vulnérabilités biologiques dans GPT-5.5.

OPINION

anthropicheat 55

Anthropic invite les questions difficiles sur l'IA

Anthropic ouvre un espace de dialogue public sur les enjeux les plus épineux liés au développement de l'intelligence artificielle.

OPINION

heat 55

Les classificateurs d'Anthropic devant Fable sont trop zélés

Un chercheur critique les filtres de modération qu'Anthropic place en amont de Fable, les jugeant trop restrictifs pour un usage scientifique.

SAFETY

heat 62

Red-teaming institutionnel : les règles de déploiement façonnent la sécurité des systèmes multi-agents

Une nouvelle méthodologie d'évaluation montre que les règles de déploiement, et non les modèles seuls, déterminent causalement les comportements collectifs dangereux en IA multi-agents.

SAFETY

anthropicheat 72

Un interrupteur pour désactiver les connaissances à double usage dans les modèles d'IA

Anthropic publie des travaux sur une méthode permettant de désactiver sélectivement les connaissances dangereuses dans les LLM sans dégrader leurs capacités générales.

SAFETY

heat 72

Wisk et Boeing poursuivis en justice pour des allégations de défauts logiciels sur leur eVTOL

Une plainte vise Wisk et Boeing, accusés d'avoir dissimulé des problèmes de sécurité logicielle dans leur taxi aérien autonome.

OPINION

heat 55

La concentration du pouvoir dans l'IA constitue un risque, selon Andy Konwinski

Le co-fondateur de Databricks alerte sur les dangers d'une IA dominée par quelques acteurs et plaide pour un écosystème plus ouvert.

SIGNAL

heat 72

Relancement de Claude Fable 5 et nouvelles mesures de sécurité d'Anthropic

Anthropic a réactivé Claude Fable 5 avec des garde-fous de sécurité visibles, forçant l'écosystème à s'adapter aux contraintes des modèles frontier.

SAFETY

heat 52

LawZero : la sécurité par l'honnêteté dans un prédicteur IA désintéressé

Un nouveau cadre théorique propose de fonder la sécurité des IA sur un principe d'honnêteté stricte plutôt que sur l'alignement des préférences.

SAFETY

heat 42

Surveillance en ligne de la sûreté des LLMs

Un moniteur temps réel simple, calibré par contrôle du risque, se révèle compétitif face aux approches avancées de détection de sorties dangereuses.

SAFETY

heat 52

Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche

Une nouvelle méthode amplifie les biais furtifs des LLM en concentrant les divergences de distribution dans un adaptateur KV-cache, les rendant détectables.

SAFETY

heat 30

Le PDG d'Anthropic : l'IA open-source devient dangereuse

Dario Amodei, PDG d'Anthropic, exprime ses inquiétudes sur les risques posés par la diffusion de modèles d'IA open-source.

SAFETY

heat 52

Agent-Native Immune System : architecture et taxonomie de la défense endogène des agents IA

Des chercheurs proposent ANIS, un système immunitaire intégré directement dans la boucle cognitive des agents IA pour contrer les attaques à l'exécution.

SAFETY

heat 82

Résumé de l'évaluation pré-déploiement de GPT-5.6 Sol par METR

METR publie son rapport d'évaluation autonomy & safety sur GPT-5.6 Sol avant son déploiement par OpenAI.

SIGNAL

openaiheat 92

OpenAI dévoile un aperçu de GPT-5.6 Sol, modèle de nouvelle génération

OpenAI présente GPT-5.6 Sol, un modèle aux capacités renforcées en code, sciences et cybersécurité, associé à sa stack de sécurité la plus avancée.