Artificial Analysis et IBM viennent de lâcher ITBench-AA, le premier benchmark dédié aux agents IA autonomes en entreprise. Et c'est le choc : même les modèles frontière (GPT-4, Claude 3.5, Gemini Ultra) plafonnent sous les 50% de réussite sur des tâches IT réelles—provisionning de serveurs, gestion de configurations, déploiement réseau.
Le benchmark teste 200+ scénarios d'administration système et cloud ops. Les résultats sont brutaux : aucun modèle ne crève le plafond de verre. GPT-4 reste en tête mais peine à franchir 48%. Les tâches impliquant plusieurs étapes, de la mémoire contextuelle et des décisions non-linéaires deviennent des murs pour les agents actuels.
GPT-4 reste en tête mais peine à franchir 48%.
C'est l'une des premières tentatives sérieuses de mesurer ce que les modèles agentic peuvent vraiment faire en production. Jusqu'à présent, les benchmarks testaient plutôt la compréhension textuelle ou la code generation isolée—pas l'orchestration autonome sur des systèmes complexes et stateful. ITBench-AA change la donne : c'est du réel, pas du labo.
Pour les entreprises qui rêvaient de remplacer leurs ops par des agents IA en 2025, voilà le wake-up call. Les modèles ne sont pas prêts. Mais le benchmark lui-même devient la carte routière pour la prochaine génération de frontier models.

