Claude cache ses garde-fous, Anthropic s'excuse

// IA7 · 11/06/26 - 12:31

Hans Olo11/06/26 - 12:31·3 min·actu·The Verge

Claude cache ses garde-fous, Anthropic s'excuse

// illustration générée — IA7

0:00 / 0:00

Anthropic a découvert que Claude contenait des instructions de sécurité « invisibles » — des garde-fous intégrés au modèle lui-même, cachés aux utilisateurs et aux auditeurs de sécurité. L'entreprise reconnaît le problème : ces mécanismes ne fonctionnaient pas comme prévu et restaient opaques. C'est le genre de piège classique : une couche de contrôle qu'on ne voit pas, donc impossible à auditer ou contester.

Le timing n'est pas anodin. Anthropic construit sa réputation sur la transparence et l'IA « sûre ». Découvrir que ses propres garde-fous opéraient en silence, sans documentation publique, c'est un coup au positionnement. L'entreprise affirme corriger le tir — rendre ces mécanismes documentés et vérifiables.

Pour l'utilisateur, la leçon est simple : même un modèle affichant de bonnes intentions peut fonctionner différemment de ce qu'on croit. Aucun outil d'IA n'est réellement transparent tant qu'on ne peut pas ouvrir le capot. Les « garde-fous invisibles » sont exactement le genre de chose à demander à tout fournisseur : montrez-moi comment vous me limitez.

Anthropicmontre aussi que même les boîtes sérieuses trébuche sur leurs propres systèmes. La solution ? Exiger que les mécanismes de contrôle soient documentés et testables — pas cachés dans les poids du modèle.

// à savoir

Guardrails (garde-fous)

— Mécanismes de contrôle intégrés à un modèle IA pour limiter certains types de réponses ou comportements — peuvent être explicites (documents publics) ou implicites (cachés dans l'entraînement).