Des chercheurs d'ArXiv posent un problème qui va agacer les équipes safety partout : les systèmes de monitoring censés détecter les dérives d'alignement des LLM sont souvent aveugles aux situations vraiment nouvelles. Le benchmark MOOD (Misalignment Out Of Distribution) teste précisément ça — des patterns d'échec complètement hors de la distribution d'entraînement des modèles. Résultat : les guard models, ces classifieurs de sécurité omniprésents, ratent une bonne partie des vrais problèmes.
Le piège classique : les modèles modernes ont vu tellement de données d'entraînement safety que créer des échecs vraiment OOD devient artificiel. Les chercheurs contournent ça en réservant des données d'entraînement restreintes et en testant sur sept ensembles diversifiés. C'est méthodologiquement solide, mais ça pointe surtout l'insuffisance des approches actuelles.
Les équipes de sécurité vont devoir viser au-delà du pattern matching classique..
Pourquoi ça compte ? Parce que la sécurité IA repose sur cette hypothèse — qu'on peut détecter les problèmes avant qu'ils ne deviennent publics. Si vos moniteurs ne voient que ce qu'ils ont appris, vous êtes aveugle aux vrais risques.
Les implications sont simples : soit on développe des monitors plus généralisables, soit on accepte qu'il y aura toujours des failles imprévisibles. Les équipes de sécurité vont devoir viser au-delà du pattern matching classique.

