Carnegie Mellon vient de lâcher un benchmark qui mesure la capacité des IA à développer des exploits réels sur le moteur V8 de Google. Résultat brutal : Mythos écrase GPT-5.5, mais à un prix douze fois plus élevé.
Les deux modèles peuvent identifier et transformer des vulnérabilités en code d'exploitation fonctionnel de manière autonome. C'est pas juste de la théorie — on parle de failles exploitables sur du vrai code production. Le benchmark teste leur capacité à naviguer dans la complexité, faire du reverse-engineering et adapter l'attaque en temps réel.
Cette donnée remet en question le calcul classique coût/performance.
Cette donnée remet en question le calcul classique coût/performance. Mythos gagne en sécurité (mauvaise nouvelle pour les devs), mais le gap avec GPT-5.5 existe surtout sur les tâches les plus complexes. Pour les équipes de sécu, ça veut dire repenser les workflows de pentest — ces modèles peuvent vraiment automatiser des parties du boulot.
// Les IA sont maintenant au niveau où elles trouvent vos bugs avant vous. Le vrai enjeu n'est pas qui est meilleur, c'est comment on les intègre dans la chaîne de sécu sans devenir des moutons.

