Claude Mythos exploite des failles V8 mieux que GPT-5.5

Carnegie Mellon vient de lâcher un benchmark qui mesure la capacité des IA à développer des exploits réels sur le moteur V8 de Google. Résultat brutal : Mythos écrase GPT-5.5, mais à un prix douze foi

// IA7 · 16/05/26 - 14:00

Claude Mythos exploite des failles V8 mieux que GPT-5.5

// illustration générée — IA7

Les deux modèles peuvent identifier et transformer des vulnérabilités en code d'exploitation fonctionnel de manière autonome. C'est pas juste de la théorie — on parle de failles exploitables sur du vrai code production. Le benchmark teste leur capacité à naviguer dans la complexité, faire du reverse-engineering et adapter l'attaque en temps réel.

Cette donnée remet en question le calcul classique coût/performance.

Cette donnée remet en question le calcul classique coût/performance. Mythos gagne en sécurité (mauvaise nouvelle pour les devs), mais le gap avec GPT-5.5 existe surtout sur les tâches les plus complexes. Pour les équipes de sécu, ça veut dire repenser les workflows de pentest — ces modèles peuvent vraiment automatiser des parties du boulot.

// Les IA sont maintenant au niveau où elles trouvent vos bugs avant vous. Le vrai enjeu n'est pas qui est meilleur, c'est comment on les intègre dans la chaîne de sécu sans devenir des moutons.

-- glossaire

V8 engine

— Moteur JavaScript de Google utilisé dans Chrome et Node.js — cible privilégiée des exploits.

Benchmark

— Test standardisé mesurant la performance des modèles IA sur des tâches spécifiques.

Exploit

— Code ou technique qui exploite une vulnérabilité pour obtenir un accès non autorisé ou causer des dégâts.

[SOURCE] The Decoder

// IA7 — L'IA. En clair. Maintenant.