Les meilleurs modèles IA échouent à 50% sur les tâches IT

// IA7 · 28/05/26 - 12:55

// illustration générée — IA7

Artificial Analysis et IBM viennent de lâcher ITBench-AA, le premier benchmark dédié aux agents IA autonomes en entreprise. Et c'est le choc : même les modèles frontière (GPT-4, Claude 3.5, Gemini Ultra) plafonnent sous les 50% de réussite sur des tâches IT réelles—provisionning de serveurs, gestion de configurations, déploiement réseau.

Le benchmark teste 200+ scénarios d'administration système et cloud ops. Les résultats sont brutaux : aucun modèle ne crève le plafond de verre. GPT-4 reste en tête mais peine à franchir 48%. Les tâches impliquant plusieurs étapes, de la mémoire contextuelle et des décisions non-linéaires deviennent des murs pour les agents actuels.

GPT-4 reste en tête mais peine à franchir 48%.

C'est l'une des premières tentatives sérieuses de mesurer ce que les modèles agentic peuvent vraiment faire en production. Jusqu'à présent, les benchmarks testaient plutôt la compréhension textuelle ou la code generation isolée—pas l'orchestration autonome sur des systèmes complexes et stateful. ITBench-AA change la donne : c'est du réel, pas du labo.

Pour les entreprises qui rêvaient de remplacer leurs ops par des agents IA en 2025, voilà le wake-up call. Les modèles ne sont pas prêts. Mais le benchmark lui-même devient la carte routière pour la prochaine génération de frontier models.

-- glossaire

Agent agentic

— Modèle IA capable de prendre des décisions autonomes, d'exécuter des actions en séquence sur des systèmes externes, et d'ajuster son comportement selon les retours. Pas du chatbot passif.

Benchmark

— Ensemble standardisé de tests permettant de mesurer la performance et les capacités d'un modèle IA sur des tâches spécifiques dans des conditions identiques.

Frontier models

— Les modèles IA les plus avancés du moment (GPT-4, Claude 3.5, Gemini Ultra, etc.). Représentent la limite actuelle de ce qui est techniquement possible.

[SOURCE] HuggingFace Blog

// IA7 — L'IA. En clair. Maintenant.