Anthropic a découvert que Claude contenait des instructions de sécurité « invisibles » — des garde-fous intégrés au modèle lui-même, cachés aux utilisateurs et aux auditeurs de sécurité. L'entreprise reconnaît le problème : ces mécanismes ne fonctionnaient pas comme prévu et restaient opaques. C'est le genre de piège classique : une couche de contrôle qu'on ne voit pas, donc impossible à auditer ou contester.
Le timing n'est pas anodin. Anthropic construit sa réputation sur la transparence et l'IA « sûre ». Découvrir que ses propres garde-fous opéraient en silence, sans documentation publique, c'est un coup au positionnement. L'entreprise affirme corriger le tir — rendre ces mécanismes documentés et vérifiables.
Pour l'utilisateur, la leçon est simple : même un modèle affichant de bonnes intentions peut fonctionner différemment de ce qu'on croit. Aucun outil d'IA n'est réellement transparent tant qu'on ne peut pas ouvrir le capot. Les « garde-fous invisibles » sont exactement le genre de chose à demander à tout fournisseur : montrez-moi comment vous me limitez.
Anthropicmontre aussi que même les boîtes sérieuses trébuche sur leurs propres systèmes. La solution ? Exiger que les mécanismes de contrôle soient documentés et testables — pas cachés dans les poids du modèle.



